使用 scrapy 爬虫框架及模块 requests 爬取数据
使用 selenium 模拟登陆技术
使用 xpath、re 等进行页面解析
使用 mysql、redis、mongoDB 等数据库
使用技术破解常见的反爬机制
项目一:招聘网站爬虫+招聘网站开发+数据分析 开发工具:PyCharm+python3
技术模块:requests、xpath、re、pymysql、线程池、flask 框架、echarts
项目描述:爬取兼职猫所有招聘信息数据,mysql 建模,数据清洗后进行存储,flask 服务端程序搭建,echarts 统计数据可视化
职责描述:
1、使用多线程爬取兼职猫招聘网站信息;
2、使用 xpath、re 进行页面分析并提取数据;
3、将清洗后的数据按照表结构保存到 mysql 表中;
4、使用 flask 框架模拟兼职网站,将数据展示;
5、前端可进行筛选查询、职位信息查看;
6、使用 sql+python 进行信息进行统计,使用 echarts 展示网站统计数据。
项目二:二手车信息爬虫+数据分析开发工具:PyCharm+python3
技术模块:requests、xpath、re、redis、线程池、mongodb 项目描述:爬取华夏二手车所有二手车信息,对数据进行统计(品 牌分析、二手车品牌占比、折旧率分析等)
职责描述:
1、使用 requests、concurrent 线程池,queue 队列抓取网页数据;
2、购买代理 ip,实现代理 ip 池,定期检测 ip 的可用性,维护代理 ip 池的质量
3.通过正则、xpath 等清洗网页内容并保存数据到 mongodb;
1.根据需求在网站采集相关数据信息 2.将采集下来数据进行清洗并查重 3.将采集到数据存入公司的数据库
二手车信息爬虫+数据分析开发工具:PyCharm+python3 技术模块:requests、xpath、re、redis、线程池、mongodb 项目描述:爬取华夏二手车所有二手车信息,对数据进行统计(品 牌分析、二手车品牌占比、折旧率分析等) 职责描述: 1、使用 r