ID:298714

Sn晨曦

爬虫工程师

  • 公司信息:
  • 河南金达电子商务有限公司
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 其他
  • 全区

技术能力

熟练使用 Python 的 Requests、Bs4、Selenium 等模块,爬取与工作相关的各类数据;
熟练运用 Python 的 Numpy、Pandas、Matplotlib、Pyecharts 模块完成工作项目中对数据的清洗、
分析、建模及可视化分析等各项功能;

项目经验

1、瓜子二手车有反爬,需携带cookie进行访问
2、requests底层没有封装url去重的方法,手动实现利用redis集合构造url去重(注:如果公司没有redis,可以利用python集合set,保存请求的url,再读取set中的内容写入本地文件,后面每次运行程序的时候,再将本地文件中的url读取到set集合中,可以实现简易的url去重)
3、选择md5加密,尽可能少的占用redis内存
4、请求中加延时,考虑网站能否打开和打开时间问题,一般需
要加异常判断、超时、retry等减少报错
5、增量式爬虫,将数据保存到数据库,对重复的字段对应的数据更新操作
6、构建USER-AGENT池,使用随机代理,随机IP采用阿布云动态IP
7、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服