熟练Python基础操作,Python常用库,面向对象,协程,函数
熟练掌握Selenium,PahantomJS和Chrome无头浏览器进行自动化操作
熟练掌握Requests、Httpx、Xpath、Json、Re、BeautfulSoup、Requests_html等大量爬虫库
熟练掌握常见反反爬策略(IP封禁、Cookie登录限制、图片验证码与滑块验证码)有独立编写脚本破解滑块验证码并成功经验,可以独立分析Ajax动态数据)
熟悉Js逆向,字体加密
熟悉MySQL语句,hive语句,可进行数据库的增删改查
熟悉Redis基本知识(基本操作与基本数据类型),熟悉Redis配置文件
熟悉Fidder,mitmporxy抓包工具
熟悉Scrapy框架
熟悉操作Pyhcarm,office
了解HTML及Bootstrap,jQuery的应用
了解Redis构建IP,Cookie池,指纹去重url
了解Flask框架
了解Linux的操作
项目描述:
抓取网站中的企业信息,并将企业信息的企业状态与天眼查的企业状态同步剔除掉企业状态非正常的企业,然后入Hive资源库中进行下一步的清洗
技术描述:
使用Requests对url进行请求
设置ip代理
设置随机UserAgent
字体反扒
利用Time对爬取间隔设置间断
责任描述:
使用requests对目标网站进行访问并设置ip代理
设置随机UserAgen,对网站进行判断,状态码不等于200或者网站出现错误提示的话对ip和UserAgent进行变更
将加密的字字符串通过正则清洗出来并存储ttf格式,然后将ttf转换成xml格式,接着获取加密字符的动态变化值最后将结果通过字典传入并循环判断替换
用Xpath提取出所要抓取的信息,最后存储为csv格式
将抓取到的企业信息在天眼查进行抓取企业状态以及天眼查同步企业的的联系信息存储为csv格式
将最后的企业信息入到Hive资源库进行下一步清洗
项目描述:
爬取阿里巴巴找工厂
技术描述:
1. 解决反屏蔽
2. 通过selenium进行模拟登录操作
3. 通过xpath进行信息定位
4. 将爬取的数据进行存储入库
责任描述:
1. 提取网站的所有商品应的url
2. 更具获取到的url对其进行访问
3. 对每个工厂的工厂信息进行爬取
4. 将抓取到的企业通过天眼查对企业的营业状态以及天眼查上的联系方式进行抓取
5. 保留营业状态正常的企业
6. 将企业信息入到hive库中,做下一步的清洗去重
7. 最后将不重复的企业放入对应的hive资源库中
抓取中国 App Store 排行榜 - iPhone - 总榜
1.设置ip代理
2.对网站的参数的js解密
3最后.抓取 app名称 开发者 分类 价格 评分总量 评分星系 昨日下载量 最近更新时间 最早发布时间,然后存储csv
抓取 app名称 开发者 分类 价格 评分总量 评分星系 昨日下载量 最近更新时间 最早发布时间,然后存储,该网站使用ip代理以及参数的js加密,将网站的js构造研究以及改写后使用python对其进行操作抓取
项目描述: 抓取网站中的企业信息,并将企业信息的企业状态与天眼查的企业状态同步剔除掉企业状态非正常的企业,然后入Hive资源库中进行下一步的清洗 技术描述: 使用Requests对url进行请求 设置ip代理 设置随机UserAgent 字体反扒 利用T