• 熟练使用python语言进行项目开发。
• 熟练前端知识和网络通讯相关技能。
• 熟练抓取网页数据、app数据、微信数据和微博数据等多种类平台数据。
• 熟练使用多样化方式实现爬虫,比如scrapy框架、request和urllib、urllib2等。
• 擅长爬虫架构设计,能够处理进行多个网站同时爬取难题,处理并发以此提高爬取效率。
• 进行实时抓取,对新增数据及时抓取入库,能够进行数据去重防止重复抓取。
• 实现项目部署,可监控爬虫进度,并在爬虫出现问题时发邮件通知。
• 有丰富反爬措施的实战经验。
• 可完成多样化的数据存储,包括MySql、MongoDB、Redis数据库或csv格式文件等。
• 具体爬取过多种数据类型,比如图片、视频、新闻、商品、企业信息等类型爬虫。
作品名称:今日头条新闻爬虫
行业:新闻媒体
作品描述:
• 项目实现近上百万条新闻资讯入库存储。
• 实现增量爬取,对新增的新闻资讯或者新增板块进行及时抓取。
• 实现数据去重,对已经在库中的抓取过的新闻不再进行重复抓取。
• 使用百度云进行数据最终存储。
作品名称:多平台图片爬虫
行业:医疗健康
作品描述:
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方,包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后,要实现图片顺序编号入库。
• 要求能够实现关键字抓取,比如:餐桌、餐布、厨房等。
作品名称:南方Plus移动手机app爬虫
行业:生活服务
作品描述:
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道下的新闻资讯进行抓取。
• 项目已抓取了近90万条新闻资讯入库。
• 该项目采用广度优先方法,先抓取全部新闻频道下的url(网址),再对每个频道下具体的新闻进行采集。
• 爬虫维护,实现无论pc端或是手机端都能实时监控爬虫进度。
• 以上图片展示为数据抓取清洗过程。
角色 | 职位 |
负责人 | 爬虫工程师 |
队员 | UI设计师 |
队员 | 前端工程师 |
队员 | 后端工程师 |