猿急送>

深圳其它兼职程序员

ID：222766

阿刚

高级爬虫工程师

公司信息：
网易集团

工作经验：
5年

兼职日薪：
800元/8小时

兼职时间：
下班后
周六
周日

所在区域：
深圳
福田

技术能力

掌握Python、Java等编程语言，了解多线程、多进程、网络通信等编程相关知识；
掌握网页抓取原理，了解TCP/HTTP协议、Html/Js/Css、Ajax等技术，熟悉一般的网站登陆原理；
具有实际爬虫开发工作经验，熟悉常见爬虫框架和工具，比如pyspider, scrapy和Selenium等；
了解爬虫框架原理、有过APP抓包分析经验
具有Hadoop、数据挖掘、自然语言处理等经验
有大数据整体建设经验者，包含外部数据采集/对接，数仓建设，实时处理经验
对数据敏感，具备良好的逻辑思维能力以及优秀的问题解决能力
在互联网反作弊、反欺诈、数据分析等方面有工作经验；
对大数据处理有相关经验，熟练使用Spark SQL，Hive SQL或其他数据清洗工具，数据领域建模有经验

项目经验

WechatSogou - 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。
DouBanSpider - 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，选择评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。
zhihu_spider - 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo
bilibili-user - Bilibili用户爬虫。总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。
SinaSpider - 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
distribute_crawler [6]- 小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现，主要针对一个小说站点。
CnkiSpider - 中国知网爬虫。设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。