1.熟练掌握requests等请求库;
2. 熟练掌握xpath、正则表达式等定位语句
3. 熟练掌握python异步、asyncio、aiohttp、aiomysql等异步库
4. 熟练掌握scrapy、scrapy-redis等爬虫框架
5. 熟练掌握mysql、mongodb等常见数据库
6. 了解常见加密算法(rsa/des/aes/md5)
7. 了解常见反爬手段和机制(js混淆/webpack/ip封禁/)
8. 了解常见反爬手段的解决方案(日志插装调试/加密定位/调试干扰/补环境/ip封禁/扣代码)
腾讯招聘、阿里招聘
项目描述:爬取腾讯招聘和阿里招聘的岗位名称、信息
责任描述:编写爬虫程序,想出反反爬策路,数掘清洗,分表存储,维护代理ip池
项目简介:
1. 爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化、分布式比较方便
2. 采用隧道动态ip进行采集数据
3. 需要抓包并查找到对应的response
4. 数据保存在json字符申中,转化成python字典,提取数据
5. 在scrapy管道模块中,将数据保存到MongoDB
6. 使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
豆瓣、猫眼
项目描述:爬取豆瓣、猫眼电影名称、评分、导演主演和评论等信息
责任描述:编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip
项目简介:
1. 分析网页结构和所需数据的量,数据量少使用requests爬取
2. 使用浏览器开发工具对网页进行抓包,获取想要的数据
3. 对分析所获取的接口进行请求,将提取的数据存储为字典
4. 使用redis和hashlib模块,对数据做去重处理
5. 使用MongoDB和CSV对数据做持久化处理
6. 使用logging模块编写监控程序进行爬由监控,并根据日期定向输出日志到log文件