ID:222766

阿刚

高级爬虫工程师

  • 公司信息:
  • 网易集团
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 深圳
  • 福田

技术能力

掌握Python、Java等编程语言,了解多线程、多进程、网络通信等编程相关知识;
掌握网页抓取原理,了解TCP/HTTP协议、Html/Js/Css、Ajax等技术,熟悉一般的网站登陆原理;
具有实际爬虫开发工作经验,熟悉常见爬虫框架和工具,比如pyspider, scrapy和Selenium等;
了解爬虫框架原理、有过APP抓包分析经验
具有Hadoop、数据挖掘、自然语言处理等经验
有大数据整体建设经验者,包含外部数据采集/对接,数仓建设,实时处理经验
对数据敏感,具备良好的逻辑思维能力以及优秀的问题解决能力
在互联网反作弊、反欺诈、数据分析等方面有工作经验;
对大数据处理有相关经验,熟练使用Spark SQL,Hive SQL或其他数据清洗工具,数据领域建模有经验

项目经验

WechatSogou - 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。
DouBanSpider - 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,选择评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。
zhihu_spider - 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
bilibili-user - Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
SinaSpider - 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
distribute_crawler [6]- 小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现,主要针对一个小说站点。
CnkiSpider - 中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    4
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服