ID:149188

高级python爬虫工程师

  • 公司信息:
  • 千锋
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(离职原因)
  • 所在区域:
  • 其他
  • 全区

技术能力

python爬虫,数据抽取及清洗,主要可以负责网页数据的定向爬取,获取相应的数据,并进行整理.精通爬虫框架scrapy.及爬虫技术urllib/selenium,精通各种网页源代码解析工具,如正则/Beautifulsoup/xpath.

项目经验

爬虫项目:

爬取淘宝网
软件环境:Python + Scrapy硬件环境:

项目描述:团队项目。淘宝网的数据可以反应用户更青睐哪种商品。对这些数据进行分析,能够让公司有针对性的进行制作合理方案,掌握最新的市场动向,把握先机,并且能够合理化的安排项目策划的进度。
技术描述:1. 主要使用scrapy框架进行抓取,在中间键里写了代理、header等,防止爬虫中断,由于部分网页采取了动态网页js加载,因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为,编写对应spider文件
4.利用xpath对数据进行抽取
5.编写中间件模拟客户端访问,编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池,防止ip被封获取不到数据,影响效率。
7.打开管道,编写pipelines文件。


爬取天猫网
软件环境:Python + Scrapy硬件环境:

项目描述:团队项目。天猫网的数据可以反应用户更青睐哪种商品。对商品的优惠券进行爬取,展示在微信公众号上面,让用户使用优惠价格进行购买.
技术描述:1. 主要使用scrapy框架进行抓取,在中间键里写了代理、header、cookie等,防止爬虫中断,由于部分网页采取了动态网页js加载,因此采用了Selenium进行了对动态html的处理。
2.根据网页数据在items.py中建模
3.定义爬虫行为,编写对应spider文件
4.利用re对数据进行抽取
5.编写中间件模拟客户端访问,编写User-Agent从中随机抽取用户头。
6.运用第三方ip代理池,防止ip被封获取不到数据,影响效率。
7.打开管道,编写pipelines文件。
8.编写邮件提示代码,让机器对异常错误进行邮件远程提醒.
9.对淘口令进行公众号和天猫网之间的商品购买.

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服