猿急送>

其他其它兼职程序员

ID：298406

BlacK.

网络爬虫

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
其他
全区

技术能力

Python中8种数据类型的精通使用；Python匿名函数、列表推导式、装饰器的熟练使用；Python中re、requests、beautifulSoup等库的熟练使用；Python爬虫框架Scrapy的熟练使用；Python爬虫伪装中代理IP、UserAgent的熟练使用；Python与scrapyt-redis分布式爬虫的基本使用；Python操作Mysql数据库增删改查；Python操作MongoDB数据库增删改查；Python建立数据库连接池提高效率

项目经验

项目名称：分布式爬虫爬取北京市企业信用信息网
项目描述：
项目介绍
这个项目是通过scrapy-redis搭建分布式爬虫爬取豆瓣top250，爬取列表页每一项下的子页获取数据
我的职责
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求，并通过scrapy.Request发送请求，用xpath匹配需要的信息。
同时循环创建下一页请求的form表单，通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中，
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。

案例展示

爬取汽车之家

1).对'https://k.autohome.com.cn/suva1/'网址发起请求，获取响应 2).转换格式之后，用xpath解析车名与评分，获取该数据 3).xpath语法解析详情页，获取到详情页的url(url不完整)，并对url进行拼接，再对详情页发起请求响应数
获取斗鱼直播数据

通过selenium来完成该项目，模拟点击直播栏目随后获取在线直播栏目里的数据；并进入第二页，获取同样的数据，并将数据以excel的形式保存下来
获取斗鱼直播数据

通过selenium来完成该项目，模拟点击直播栏目随后获取在线直播栏目里的数据；并进入第二页，获取同样的数据，并将数据以excel的形式保存下来