猿急送>

苏州后端兼职程序员

ID：243748

艾、土豆

数据开发工程师

公司信息：
科锐国际

工作经验：
1年

兼职日薪：
700元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
苏州
全区

技术能力

1．精通 python 爬虫（5 年），自研分布式爬虫框架，有上千家网站及 APP 数据抓取经验
2．掌握常见反爬虫技术，如 IP 封堵、cookie 反爬、JS 参数加密、CSS 反爬、数据加密等
3．掌握 MongoDB、Oracle、MySQL、Redis 等常用数据库及 ElasticSearch 搜索引擎
4．掌握正则表达式、Xpath 等结构化信息抽取技术
5．熟悉网页及 APP 自动化测试技术，如：Selenium、Airtest
6．熟悉各类 Hook 框架包括但不限于 Xposed、Magisk 等技术
7．熟悉 android 逆向
8．熟悉 Scrapy、JavaScript、HTML、CSS、Java、HTTP、TCP、Linux

项目经验

项目 1：互联网舆情违规内容监测 —— 媒体网站类
✓ 独立设计项目爬虫策略：舆情数据采集流程图 http://dwz.date/edH8 ；
✓ 围绕网站、APP、微信、微博等媒体，持续采集分析人民网、凤凰网、新华网、今日头条、
百家号、搜狗、等数百家新闻资讯网站页面的结构化数据。日均千万级别的文本、图像、
视频数据的抓取，去重、分类，过滤。相似文本聚类，情感分析及文章摘要提取。结构化
信息通用提取算法开发（标题、正文、发布时间、作者、是否包含视频等）；
✓ 保证程序按时稳定执行，定时或实时推送数据，提供高保真实时数据服务；

项目 2：互联网视听违规内容监测 —— 视频图像类
✓ 围绕网站、APP、微信、微博等媒体，持续抓取并分析 YouTube、爱奇艺、腾讯、芒果、
西瓜、优酷等视听网站及APP数百家。开发通用视听内容判定算法，日审网站量达10000+；
✓ 日均百万级文本、图像、视频数据的抓取、去重、分类，过滤。视频下载、抽帧、违规鉴
定，m3u8 视频流地址破解及下载合并；
✓ 保证程序按时稳定执行，定时或实时推送数据，提供高保真实时数据服务。推送不合规的
包含视听内容的网站；

项目3：全招聘类网站登录，职位、公司、候选人数据采集
项目4：电商数据采集

案例展示

招聘职位数据采集

采集数据，招聘网上招聘岗位各项数据。采集数据，招聘网上招聘岗位各项数据。采集数据，招聘网上招聘岗位各项数据。
全网舆情数据采集

采集互联网舆情数据，主要包含媒体新闻网站、APP，微信，微博，自媒体，论坛，知乎、豆瓣采集互联网舆情数据，主要包含媒体新闻网站、APP，微信，微博，自媒体，论坛，知乎、豆瓣