Python/Scrapy/Requests/Urllib/Lxml 库/Css/Xpath/正则表达式/ 断点调试/JS 破解/JS 反混淆/网页渲染工具/UA/IP 限制/模拟登陆/验证码 Selenium/PhantomJS/Chrome Headless/分布式/多线程/多进程/并发爬虫 国内网站爬虫/国外网站爬虫/APP 爬虫/小程序爬虫/数据去重/ OS/Mysql/Redis/Mongodb/Linux 等.
项目描述 A (财经网站爬虫):
1. 数据类型-股票期货等;
2. 项目主要为客户提供金融数据实时接口,我负责对金融数据库提供数据库数 据支持;
3. 负责爬取各类金融网站,按照字段要求对网站进行爬取,利用公司提供的爬虫架构部署爬虫和维护爬虫,对数据进行实时更新,数据去重入库;
4. 不断更新网站爬虫,应对突发情况,保证数据实时稳定准确。
完成情况:
1. 完成了指定网站的爬虫开发维护工作;
2. 对数据的去重优化和稳定提供了自己的优化意见,并得到项目主管的采纳和 实施;
3. 解决了 ws 协议网站爬虫。
项目描述 B (创投新闻爬虫):
1. 为投资创业平台新闻快讯板块提供内容支撑,要求更新及时,内容专业有价值
2. 数据来自几十个财经投创新闻资讯网站或者平台,如界面网,要求按照标定的 需求板块进行爬虫,并按照篇幅,新闻板块,和优先度进行分类存储.入库前要进行 url 去重和内容去重
3. 先爬取历史数据,完成后按网站更新速度按天,小时进行更新
4. 要求在 linux 环境下开发.
完成情况:
1. 利用 scrapy 框架写爬虫.每个网站一个 spider
2. 中间件来分类开启爬虫,url 去重
3. .前期用 redis 的 set 来去重,后来因为数据量越来越多,改用了布隆去重.并配合 NLP 接口管道来进行内容识别去重
4. 完成了项目需求,并在不断更新维护中
5. 在网站多而复杂的情况下,比较合理的完成了爬虫代码的开发,完成了项目需 求
项目描述 C (新闻爬虫):
项目链接: https://github.com/lngbll/JOVI.git
1. 新闻媒体新闻资讯爬虫,为数据分析提供。为微信公众好,自媒体等客户提 供选题,内容参考,原创性参考;
2. 主要内容是维护一个新闻资讯的数据库,并生成热度趋势,舆论走向等日, 周,月报表。 本人是数据爬虫,在各大新闻门户网站,热门 app 上爬取新闻数据,字段包括 标题,正文,阅读量,作者,更新时间,评论等;
3. 利用 scrapy,xpath,负责新闻资讯的日常爬取,爬虫编写,爬虫进程维护,日志 处理等;
4. 解决了亿级数据内容去重算法。并对数据库进行了优化处理。
完成情况:
1. 解决了亿级数据内容去重算法。并对数据库进行了优化处理;
2. 优化爬虫,让爬虫程序稳定运行,管理异常日志,并及时处理。