ID:132593

T先生 有团队

爬虫工程师

  • 公司信息:
  • 百度
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 远程
  • 全区

技术能力

• 熟练使用python语言进行项目开发。

• 熟练前端知识和网络通讯相关技能。

• 熟练抓取网页数据、app数据、微信数据和微博数据等多种类平台数据。

• 熟练使用多样化方式实现爬虫,比如scrapy框架、request和urllib、urllib2等。

• 擅长爬虫架构设计,能够处理进行多个网站同时爬取难题,处理并发以此提高爬取效率。

• 进行实时抓取,对新增数据及时抓取入库,能够进行数据去重防止重复抓取。

• 实现项目部署,可监控爬虫进度,并在爬虫出现问题时发邮件通知。

• 有丰富反爬措施的实战经验。

• 可完成多样化的数据存储,包括MySql、MongoDB、Redis数据库或csv格式文件等。

• 具体爬取过多种数据类型,比如图片、视频、新闻、商品、企业信息等类型爬虫。

项目经验

作品名称:今日头条新闻爬虫
行业:新闻媒体
作品描述:
• 项目实现近上百万条新闻资讯入库存储。
• 实现增量爬取,对新增的新闻资讯或者新增板块进行及时抓取。
• 实现数据去重,对已经在库中的抓取过的新闻不再进行重复抓取。
• 使用百度云进行数据最终存储。



作品名称:多平台图片爬虫
行业:医疗健康
作品描述:
• 该项目为实现一图一物、一图多物识别的AI项目提供数据集。
• 图片来源有多方,包括百度图片、堆糖网等。
• 图片抓取入库近上十万张图片。
• 针对食物可能出现的场景进行图片抓取后,要实现图片顺序编号入库。
• 要求能够实现关键字抓取,比如:餐桌、餐布、厨房等。


作品名称:南方Plus移动手机app爬虫
行业:生活服务
作品描述:
• 项目对南方Plus app的首页频道、国际频道、体育频道等相关频道下的新闻资讯进行抓取。
• 项目已抓取了近90万条新闻资讯入库。
• 该项目采用广度优先方法,先抓取全部新闻频道下的url(网址),再对每个频道下具体的新闻进行采集。
• 爬虫维护,实现无论pc端或是手机端都能实时监控爬虫进度。
• 以上图片展示为数据抓取清洗过程。

团队情况

  • 整包服务: 微信小程序开发   PC网站开发   H5网站开发   UI设计   
角色 职位
负责人 爬虫工程师
队员 UI设计师
队员 前端工程师
队员 后端工程师

评价列表

该用户已被预约 3 次,预约方未评价,系统默认 5星 好评。

信用行为

  • 接单
    3
  • 评价
    0
  • 收藏
    2
  • 五星率
    100%
  • 退款
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服