熟练掌握关系型数据库,非关系型数据库
能熟练使用python模拟请求进行数据抓取(包括APP与WEB端)
熟练使用selenium以及fiddle等爬虫相关工具
熟练使用re,xpath,bs4对网页数据进行解析
熟练使用json包对json数据进行解析
山东KO订单数据自动化爬虫项目
对大润发,烟台振华,临沂九州三个平台的订单进行抓取,使用selenium + windows对订单平台实现自动化,每天定时抓取KO订单数据
1.分析页面请求结构和地址,通过检测响应侦测网站的反爬虫机制
2.使用selenium进行登入和网页的请求
3.验证码处理,PIL进行图像识别,接打码平台
4.使用代码获取到selenium请求下来的网页,利用xpath和正则截取需要的信息
5.将清洗出来的数据信息储存到mysql数据库中
大众点评店铺信息爬虫
根据需求抓取大众点评上的店铺信息包括:店名,店铺链接,店铺POI,支持服务,星级,
评论数,平均价,分类,地点,详情地址,口味服务环境,推荐菜等等,并将这些数据存储到数据库中。
1.分析页面请求结构和地址,通过检测响应侦测网站的反爬虫机制
2.解析网页的CSS文本偏移的规律,寻找CSS文本以及对应的偏移密码本
3.模拟真实浏览器,伪造UA,设置代理IP
4.写入计数以实现断点续爬
5.记录可能出错的日志文件
6.使用Xpath和正则进行数据提取
7.将抓取到的数据存储到mysql数据库