ID:243740

小头里

爬虫

  • 公司信息:
  • 上海空眼
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 上海
  • 浦东

技术能力

1、scrapy框架使用,scrapy-redis设计分布式
2、bs4,lxml,re解析数据
3、有js逆向经验
4、有伪装浏览器,封IP经验
5、有使用OCR识别验证码,或验证码的其它解决方案经验
6、有数据存储csv文件,mysql经验

项目经验

一、天眼查爬虫
1、分析网页数据,考虑到数据量较多,采用scrapy-redis搭建分布式爬取数据,此框架搭建分布式比较方便且爬取更快,而且也实现了数据去重、增量处理

2、初次使用静态cookie进行数据爬取,后因静态cookie的时效性,采用了重写spider中的start_requests方法,并使用selenium、PhantomJS无界面模拟登录获取动态cookie信息

3、使用BeautifulSoup模块处理数据,用css选择器对数据进行抽取,解析

二、汽车之家
1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆

2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系

3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据

4、通过pymysql模块将爬取的数据保存到mysql数据库

案例展示

  • 爬虫,数据采集,数据处理

    爬虫,数据采集,数据处理

    scrapy-redis设计爬虫: 分布式爬取社交网站数据 scrapy,redis,mysql,python requests模块请求网页数据 selenium模拟浏览器登录 用scrapy-redis框架特性实现数据去重及数据增量

  • 世纪佳缘爬虫

    世纪佳缘爬虫

    1、对需要爬取的数据进行分析,思考解决爬虫中的难点问题,因数据量较多,使用多台主机部署爬虫 2、使用requests的post方法请求世纪佳缘登录页面,使用RequestsCookieJar方法获取动态cookie 3、构建代理IP池,使用BeautifulSoup模

  • 世纪佳缘爬虫

    世纪佳缘爬虫

    1、对需要爬取的数据进行分析,思考解决爬虫中的难点问题,因数据量较多,使用多台主机部署爬虫 2、使用requests的post方法请求世纪佳缘登录页面,使用RequestsCookieJar方法获取动态cookie 3、构建代理IP池,使用BeautifulSoup模

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服