ID:306250

小张同学

爬虫开发工程师

  • 公司信息:
  • 天津神州信通讯科技有限公司
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

本人在原公司担任爬虫开发工程师,主要工作内容是根据需求对抓取的网站进行分析与设计爬虫流程,从结构化与非结构化的数据里提取有效信息;主要掌握python的语言开发,熟练使用requests、熟练使用数据解析方法:xpath、re

项目经验

拉勾网的数据抓取:首先要分析网站真实的request地址和内容,然后用scrapy_redis爬取,因为该框架实现url和数据去重、持久化,通过md5实现网页的去重和更新;使用代理ip解决封ip的操作;数据在json字符串中,转换成python字典提取数据;最后把数据保存到mysql中;
美团抓取:用 Scrapy 框架,在中间键里写了代理、header 等,防止爬虫中断,由于部分网
页采取了动态网页 js 加载,因此采用了 Pyppeteer 进行了对动态 html 的处理。 根据网页数据
在 items.py 中建模。定义爬虫行为,编写对应 spider 文件,模拟登陆使用验证码识别。利用
xpath 对数据进行抽取。编写中间件模拟客户端访问

案例展示

  • 京东网站产品价格的抓取

    京东网站产品价格的抓取

    我在本案例中是自己做的,因为比较简单,所以也是自己做的-,没有同其他同事一起合作,虽然这个项目用了我很长时间完成的,但是也是自己比较有成就感的

  • 大众点评数据的抓取

    大众点评数据的抓取

    这个比上一个做的时间长一点儿,因为自己在这上面也是很难找到突破点,然后向前辈学习了一下,自己慢慢琢磨出来的,因为也是项目比较小,自己就做了。

  • 大众点评数据的抓取

    大众点评数据的抓取

    这个比上一个做的时间长一点儿,因为自己在这上面也是很难找到突破点,然后向前辈学习了一下,自己慢慢琢磨出来的,因为也是项目比较小,自己就做了。

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服