ID:144832

Alive

爬虫开发工程师

  • 公司信息:
  • 上海澜思信息科技有限公司
  • 工作经验:
  • 6年
  • 兼职日薪:
  • 600元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 上海
  • 静安

技术能力

1、根据需求分析所要爬取的数据,并分析目标网站的结构和反爬机制。
2、通过requests、scrapy、selenium、splash、xpath、css等技术编写爬虫进行数据抓取,app以Charles、mitmdump、Appium抓取。
3、对爬取到的数据进行清洗,分表存储,主要以MySQL、MongoDB数据库为主。
4、编写IP代理池,定时检测IP可用性,剔除低质量代理IP,IP以Redis存储。
5、监测爬虫的稳定性及数据的准确性,优化爬虫程序。
6、使用Django编写接口等。

项目经验

爬取房地产交易中心新房数据:
项目描述:
项目用以爬取新房信息,数据量在400万左右,每天需要爬取4轮以上,以保证数据的实时性,总爬取量每天约2000万条。


1、采用页面渲染来抓取数据,目前使用scrapy-splash, 相对于selenium阻塞式速度更快。
2、组建splash负载均衡,减小单个splash服务的压力。
3、提取付费代理,搭建IP代理池,数据库使用redis有序集合,以分数来判断IP是否可用,默认分数为50,满分100,使用aiohttp异步请求库定时检测代理IP,IP可用分数加1,不可用分数减4。
4、所爬取的数据存储到mongodb数据库,并以阿里云DataWorks将每日更新的数据同步到MySql数据库。

除此之外还有微信公众号、新浪微博、平安车险、京东app等爬取经验。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服