1 掌握 python基础知识,面向对象逻辑思维;
2 熟悉HTML+CSS;
3 掌握正则re解析,bs4解析,xpath解析;
4 requests动态爬取数据;
5 高并发(多进程,多线程,协程)爬取数据;
6 熟练运用selenium模块;
7 熟悉mysql,MongoDB和Redis三大主流数据库;
8 了解代理池原理;
9 掌握scrapy原理,熟练使用scrapy爬取数据;
10 熟悉分布式爬虫;
11 掌握JavaScript语法;
12 熟悉逆向爬虫的原理;(目前正在练习中,涉及到逆向爬虫的冬冬暂时还搞不定,请谅解)
13 掌握 Linux 系统的命令以及docker命令和 shell 的编写;
1. 对中国证券监督管理委员会官网政务信息中的政策公开规章数据和主动公开目录中的各项指标数据进行爬取。(公司项目)
说明:利用requests动态异步爬取网页内容。
2. 对中国古诗文网中的诗文,名句,古籍数据进行爬取。
说明:需要绕过登录验证,登录后利用bs4或者xpath爬取数据。
3. 对北京地区链家历年二手房成交记录进行爬取。
说明:需要绕过登陆验证后,在获取数据信息
4. 基于selenium模块开发12306自动抢票程序。
根据网站信息,按照信息栏划分为两部分:政策类和按主题划分类,按体裁文种类同主题类 执行主函数,会在对应目录生成该类主题所有的目录层级和doc文件,代码中是按照面向对象逻辑思想使用了ip代理池,捕获异常重复发送请求,获取所需数据。 第二种方案:还可以基于scrapy框架实现
爬取南方航空小程序中对应的国内和国外优惠价格信息和正常机票价格信息(活动期间) 利用selenium获取到网站的cookie信息,再去获取各个网页数据信息,筛选所需数据永久存储