猿急送>

远程其它兼职程序员

ID：132593

T先生有团队

爬虫工程师

公司信息：
百度

工作经验：
2年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
远程
全区

技术能力

• 熟练使用python语言进行项目开发。

• 熟练前端知识和网络通讯相关技能。

• 熟练抓取网页数据、app数据、微信数据和微博数据等多种类平台数据。

• 熟练使用多样化方式实现爬虫，比如scrapy框架、request和urllib、urllib2等。

• 擅长爬虫架构设计，能够处理进行多个网站同时爬取难题，处理并发以此提高爬取效率。

• 进行实时抓取，对新增数据及时抓取入库，能够进行数据去重防止重复抓取。

• 实现项目部署，可监控爬虫进度，并在爬虫出现问题时发邮件通知。

• 有丰富反爬措施的实战经验。

• 可完成多样化的数据存储，包括MySql、MongoDB、Redis数据库或csv格式文件等。

• 具体爬取过多种数据类型，比如图片、视频、新闻、商品、企业信息等类型爬虫。

项目经验

作品名称：今日头条新闻爬虫
行业：新闻媒体
作品描述：
• 项目实现近上百万条新闻资讯入库存储。
• 实现增量爬取，对新增的新闻资讯或者新增板块进行及时抓取。
• 实现数据去重，对已经在库中的抓取过的新闻不再进行重复抓取。
• 使用百度云进行数据最终存储。

作品名称：多平台图片爬虫
行业：医疗健康
作品描述：
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方，包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后，要实现图片顺序编号入库。
• 要求能够实现关键字抓取，比如：餐桌、餐布、厨房等。

作品名称：南方Plus移动手机app爬虫
行业：生活服务
作品描述：
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道下的新闻资讯进行抓取。
• 项目已抓取了近90万条新闻资讯入库。
• 该项目采用广度优先方法，先抓取全部新闻频道下的url（网址），再对每个频道下具体的新闻进行采集。
• 爬虫维护，实现无论pc端或是手机端都能实时监控爬虫进度。
• 以上图片展示为数据抓取清洗过程。