ID:263004

Peanut

大基座-智能采集

  • 公司信息:
  • 安硕信息
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 其他
  • 全区

技术能力

爬虫技术,大的方面肯定像HTML、CSS、JS这些必须要能读懂页面结构,正则表达式、xpath提取页面元素(或者bs4、css)、爬虫库requests、框架scrapy、数据库msyql的增删改查、mongodb熟练运用,能根据需求,处理常见的反爬,抓取数据。

项目经验

瓜子二手车:
1.瓜子二手车有反爬,需携带cookie进行访问
2.requests底层没有封装url去重的方法,手动实现利用redis集合构造url去重(注:如果公司没有redis ,可以利用python集台set,保存请求的url,再读取set中的内容马入本地文件,后面每次运行程序的时候,再将本地文件中的url读取到set集合中,可以实现简易的url去里)
3、选择md5加密,尽可能少的占用redis内存
4、请求中加延时,考虑网姑能否打开和打开时间问题,一般需要加异常判断、超时、retry等减少报错5、塔量式爬虫,将数据保存到数据库,对重复的字段对应的数据更新摸作
构建USER-AGENT池,使用随机代理,随机IP买用阿布云动态P
使用logging模块请写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
拉勾网
责任描述:
编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip池,负责带新人项目简介:
项目概况:
爬取拉勾网一二线城市UI设计,前端、php、python.Java,数据分析、爬虫、人工智能等公司的名称、地址,网址、规模、招聘需求薪资状况等
遗到问题及解决方案如下:
1、分析目标网站真实request地址和response内容,使用代理试水网站反爬虫级别,检测是否有投毒数据。2,使用Selenium +PhantomJS模拟登陆获取cookie信息,携带cookie访问网页内容,架用隧道动态ip代理和随机USER-AGENT反反爬
3、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化,通过MD5加密,实现网页数据的去重和更新,构建塔量式爬虫程序
4,数据保存在json字符串中,转化成python字典,提取数据5、保存数据到MongoDB和CSv

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服