1.具备扎实的python基础,理解OOP编程思想,具有良好的编程习惯
2.熟悉主流的python爬虫主流框架scrapy
3.可以使用seleium(webdriver)自动化框架
4.熟悉使用Pycharm开发工具和Linux基本操作
5.熟练使用requests、Beautifulsoup、Xpath、selenium等模块
6.熟练使用Django框架
7.熟悉MySQL等主流关系型数据库,redis和MongoDB非关系型数据库也经常使用
8.熟悉re正则表达式
9.熟悉主流的python web框架,如Django、Tornado了解flask框架
10.了解web前端Html5、Css、JavaScript、jQuery、AJAX
熟悉SVN版本管理工具,git也使用过
项目名称:抓取易出行数据
项目介绍:此项目主要是通过城市的网格坐标进行车辆一定时间段内区域进过的车辆的信息坐标采集
责任描述:主要用到了requests、selenium、Queue、smtplib、代理ip等
难点是登录一定次数出现验证码、封代理ip、封qq号、城市坐标点的转换
通过seleium框架进行登录、添加了代理ip,循环登录qq,获得对应的cookie并返回,
利用cookie抓取宜出行后台数据,将传入的块转化为网页所需的表单,
添加邮件通知模块smtplib将爬取结果进行通知
将抓取的数据进行坐标转换生成sql文件
然后通过命令将所有的文件读取存入到mysql数据库中
项目名称:安居客租房信息抓取
项目介绍:此项目主要是抓取抓取安居客小区租房的信息以及商铺出租的信息
责任描述:主要用到了requests、代理ip、ocr库、进程、seleium等
技术难点是有滑动验证码,封代理,通过OCR库对验证码识别,
抓取的思路是先拿到所有城市的url,再获取到每页中包含的url生成新的url列表,
通过数据解析得到所需要的数据,最后将结果保存到mongodb数据库中,对数据进行去重,
项目名称:美团、饿了吗菜品、评论信息
项目介绍:此项目主要抓取美团饿了么的商铺菜品信息,
责任描述:负责抓取商品信息和评论信息
主要用到了requests、api接口
通过对读取文件名判断所抓取的是美团或者饿了么,读取里面的店铺ID通过传参拼接url
得到所需数据接口,通过对网页解析拿到里面菜品的信息
项目名称:抓取移动运营商个人信息
项目介绍:此项目主要抓取移动运营商客户个人信息,消费记录、通话记录详情
责任描述:主要用到了seleium框架进行手机号登录,需要接收手机号并输入验证码,
进入个人信息页面抓取通话详情时还会收到一条验证码,如果验证码出现多次错误会变成滑动验证码
这时把验证码通过seleium浏览器模拟滑动操作,最后数据保存成txt文本
项目名称:电商数据的抓取(淘宝、京东、生鲜,大众点评)
项目介绍:此项目主要抓取里面生鲜类和饮品吃食,以及评论信息
责任描述:主要用到了request,xpath,re、json
难点是封代理ip、json
解析需要找到对应的链接,将所需要的数据进行json解析,添加请求头,代理ip
然后通过命令将所有的文件读取存入到mysql数据库中