1.具备扎实的python基础知识
2.熟悉HTML、CSS、JavaScript前端技术
3.熟悉selenium自动化测试工具
4.熟悉scarpy框架
5.熟悉MySQL、MongoDB数据库
6.对面向对象有深刻的理解
7.能够对静态数据和动态数据作出不同方式的爬取
8.能够灵活运用xpath、pyquery、正则表达式提取数据
9.熟悉异步爬取,提高爬取速度
10.熟悉用户代理(User-Agent)、防盗链(Referer)、用户身份象征(cookie)反爬技术
11.熟悉代理池
1.给哔哩哔哩直播间发送弹幕:
使用scrapy框架进行操作,需要实现post请求。
2.爬取xiaojiejie网址图片:
使用scrapy框架进行操作,循环爬取166页,一共3306张,开启并发线程,20分钟爬完。
3.hao6v电影网址爬取信息:
使用scrapy框架进行操作,循环爬取所有页信息,涉及一个深度爬取。
4.爬取虎扑网址球员数据:
分别通过管道保存在Excel、MySQL、MongoDB中。
5.爬取拼多多手机端商品信息:
通过xpath解析数据进行爬取。
6.实现哔哩哔哩自动登录:
使用selenium自动化测试工具,后面有一个图片识别,通过超级鹰进行图片识别,创建动作链,遍历分别取坐标点击完成图片
验证。
7.爬取站长简历中的简历:
深度爬取,使用异步进行爬取,提高工作效率。
由于是一个小项目,所以是我一个人独立完成。当然,难度也不大,就是涉及一个深度爬取,使用scrapy框架10分钟就可以爬取完毕。
使用selenium自动化测试工具,实现自动找到登录页面,输入账号密码,找到验证图片给超级鹰识别,创建一个动作链完成图片验证,完成登录。 这也是一个小项目,由我一个人独立完成。