1.精通 python 爬虫(5 年),自研分布式爬虫框架,有上千家网站及 APP 数据抓取经验
2.掌握常见反爬虫技术,如 IP 封堵、cookie 反爬、JS 参数加密、CSS 反爬、数据加密等
3.掌握 MongoDB、Oracle、MySQL、Redis 等常用数据库及 ElasticSearch 搜索引擎
4.掌握正则表达式、Xpath 等结构化信息抽取技术
5.熟悉网页及 APP 自动化测试技术,如:Selenium、Airtest
6.熟悉各类 Hook 框架包括但不限于 Xposed、Magisk 等技术
7.熟悉 android 逆向
8.熟悉 Scrapy、JavaScript、HTML、CSS、Java、HTTP、TCP、Linux
项目 1:互联网舆情违规内容监测 —— 媒体网站类
✓ 独立设计项目爬虫策略:舆情数据采集流程图 http://dwz.date/edH8 ;
✓ 围绕网站、APP、微信、微博等媒体,持续采集分析人民网、凤凰网、新华网、今日头条、
百家号、搜狗、等数百家新闻资讯网站页面的结构化数据。日均千万级别的文本、图像、
视频数据的抓取,去重、分类,过滤。相似文本聚类,情感分析及文章摘要提取。结构化
信息通用提取算法开发(标题、正文、发布时间、作者、是否包含视频等);
✓ 保证程序按时稳定执行,定时或实时推送数据,提供高保真实时数据服务;
项目 2:互联网视听违规内容监测 —— 视频图像类
✓ 围绕网站、APP、微信、微博等媒体,持续抓取并分析 YouTube、爱奇艺、腾讯、芒果、
西瓜、优酷等视听网站及APP数百家。开发通用视听内容判定算法,日审网站量达10000+;
✓ 日均百万级文本、图像、视频数据的抓取、去重、分类,过滤。视频下载、抽帧、违规鉴
定,m3u8 视频流地址破解及下载合并;
✓ 保证程序按时稳定执行,定时或实时推送数据,提供高保真实时数据服务。推送不合规的
包含视听内容的网站;
项目3:全招聘类网站登录,职位、公司、候选人数据采集
项目4:电商数据采集
采集数据,招聘网上招聘岗位各项数据。 采集数据,招聘网上招聘岗位各项数据。 采集数据,招聘网上招聘岗位各项数据。
采集互联网舆情数据,主要包含媒体新闻网站、APP,微信,微博,自媒体,论坛,知乎、豆瓣 采集互联网舆情数据,主要包含媒体新闻网站、APP,微信,微博,自媒体,论坛,知乎、豆瓣