熟练掌握Python、Java和Shell脚本编写,能够在不同项目中高效应用。
熟悉Linux系统,能够进行系统管理、优化和故障排查。
精通Docker容器技术,能够熟练构建、部署和管理容器化应用。
熟悉MySQL和Redis数据库,具备数据库设计、优化和维护能力。
熟悉Vue.js框架及Element UI库,能够进行前端开发和用户界面设计。
报告、新闻类爬虫
技术应用:pyspdier + pyquery + TiDB + MongoDB + RabbitMQ
项目描述: 从晨哨并购网、麦肯锡、尼尔森、亿邦动力、搜狐号-盈灿咨询、金
融界、中商情报网、投中研究院、GFK 中国、投资潮、极光数据、未央网等网站中
中抓取资讯板块下的文章信息(文章标题、发布时间、内容、头图 以及文章的
URL 地址)或报告信息(报告标题、内容、发布时间、以及服务器中 PDF 报告的地
址)并保存到数据库中
政府信息类爬虫
技术应用:pyspdier + pyquery + selenium + phantomjs + TiDB + MongoDB +
RabbitMQ
药监局国产药品信息:通过 selenium + pahntomjs 访问国家食品药品监督局来
抓取 166663 条国产药品的信息(药品名称、药品编号、药品公司、国药准字)并
保存到数据库中。
广州卫生和计划生育委员会:从广州卫生和计划生育委员会官网中抓取广州市卫
生和计划委员会政府信息公开 目录中的政府公开信息并保存到数据库中。
上海卫生和计划生育委员会:从上海卫生和计划生育委员会官网中抓取上海市卫
生计生委规范性文件的内容信 息并保存到数据库中。
国家扶持项目网:在国家扶持项目网的政策扶持板块下,抓取政策支持、国家政
策、地方政策、政策解读、 政策信息、政府解读、相关信息和相关安全这八个子
类的政策信息并保存到数据库中。
微信公众号信息爬虫
技术应用:pyspdier + re + json + TiDB + MongoDB + RabbitMQ
项目描述:
公众号基本信息:在新榜数据中爬取 7 万个微信公众号的基本信息(微信公众号
名称、微信号、微信认 证、简介、新榜标签)和最近七天的微信公众号的文章统
计信息(新榜排名、每天文章发布数量、文章总阅读 数量、头条阅读数量、平均
阅读数量、最高点击次数和点赞数量)并保存到数据库中。
公众号发布文章:通过 Cookie 模拟登陆西瓜数据,在西瓜数据中查找 100 多个
微信公众号,然后进入微信 公众号详情页找到最近三天微信公众号发布的文章,
进入文章页面抓取文章的标题、发布日期和内容等信息并 保存到数据库中。
数字货币交易工具集成平台,提供全面的交易辅助功能:涵盖主流交易所的自动交易机器人、币圈新闻资讯的聚合展示,以及实时推特监控服务。
数字货币交易工具集成平台,提供全面的交易辅助功能:涵盖主流交易所的自动交易机器人、币圈新闻资讯的聚合展示,以及实时推特监控服务。