ID:298245

东方兄弟

python爬虫工程师

  • 公司信息:
  • 冰河网络科技
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 武汉
  • 全区

技术能力

1、参与分布式爬虫和数据采集系统的架构设计和开发;
2、负责反爬虫策略研究,代理IP、验证码识别等采集支撑服务建设;
3、负责大规模文本、图像数据的抓取、抽取,去重、分类,垃圾过滤,质量识别等工作;
4、负责公司爬虫的技术调研以及策略优化;
5、负责制定相关的反爬虫安全策略。

项目经验

负责根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段;
负责通过requests、selenium、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储,以供其他部门使用;
负责定期维护ip代理池,清除失效代理ip,根据爬取过程中遇到的一些反爬手段,优化自己的程序;
负责数据的去重,清洗,对于亚马逊ip反爬,检测验证码,制定具体应对措施。

案例展示

  • 笔趣阁小说爬虫

    笔趣阁小说爬虫

    爬虫程序能自动绕过网站的反爬策略,准确无误的爬取小说的每个章节,并清晰去除无关的字符,保持原有格式,并存储到本地文件夹,每个章节都会生成自己的标题,自动生成TXT文档供阅读

  • 爬取电影网站电影信息

    爬取电影网站电影信息

    爬虫程序自动绕过网站反爬策略,准确提取所有页面的电影信息,并用xpath准确解析电影资料,去除无用的字符,并按原格式输出,并保存到本地文件夹。

  • 爬取喜马拉雅小说网音频

    爬取喜马拉雅小说网音频

    爬取喜马拉雅小说网,荒村阴阳师音频,该网站有多重反爬策略,隐藏了真实的URL,构造URL就花了很长时间,后台数据通过ajax加载的,先构造每一集的url,然后通过遍历循环的requests方法,分别获取每一集的数据,并使用二进制方法存储到本地文件夹,从而得到MP3音频格式文件,

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服