猿急送>

北京其它兼职程序员

ID：177273

A 颖

爬虫工程师

公司信息：
择居网络技术有限公司

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
可工作日远程

所在区域：
北京
海淀

技术能力

曾任职爬虫工程师3年,了解常见反爬虫策略及应对措施。
基本技能介绍如下：
1：熟悉windows与linux系统环境及相关配置。
2：熟练使用Requests网络库及Selenium测试工具
3：熟悉通过抓包及提交表单的方式提取数据。
4：熟悉各种反爬虫策略以及应对措施。
5：了解Scrapy框架下进行分布式爬虫开发及部署与监控
6：熟悉使用Scrapy crawlspider模板下进行通用爬虫开发及配置
7：灵活运用各种解析库,如正则表达式,Xpath,Css以及BeautifulSoup
8：熟悉使用scrapy-redis+BloomFilter的方式实现增量爬取
9：常用数据库：Mongodb, reids,可使用mysql实现基本操作。
10：了解前端Html,Css,及简单Js语句。
11: 个人可解决简单验证码识别。
12：了解wordpress,并拥有自己的个人博客
责任描述：负责抽取所需数据,清洗数据后根据需求存储。
常用工具：Pycharm, Selenium,Docker，Chrome,Mongdb,Fidder

项目经验

抓取公众号文章

项目描述

责任描述：
1：微信群发页面通过抓包获取接口信息
2：填写要抓取的公众号
3：使用Selenium模拟登陆自己的公众号获取Cookie并下载到本地
4：构建UA,读取本地Cookies并同过Requests上传到服务器
5：分析接口参数观察参数规律
6：将参数写入Data并同Requests传入
7 : 再次分析接口参数并传给新的url实现分页效果
8 : 获取公众号文章链接并抓取页面
9：通过BeautifulSoup对文章信息抽取及过滤
10：将公众号标题与文章进行存储

项目简介：
该项目通过输入要抓取的公众号，对该公众号发表的所有文章进行抓取。
优化文章结构后存储。

抓取北京区住建委数据2017.10-2018.3
项目描述

责任描述：
1,配置项目所需环境
2,分析网站制定爬虫系统结构
3,解析页面编写rule爬虫规则
4,根据需求构建item字段
5,编写spider获取数据
6:维护爬虫系统,根据需求添加rule及item字段
7:清洗并存储数据。
项目简介：
该项目抓取北京市住建委数据。
主要内容有数据统计，规划计划,标准规范等。