1.Python中8种数据类型的精通使用
2.Python匿名函数、列表推导式、装饰器的熟练使用
3.Python中re、requests、beautifulSoup等库的熟练使用
4.Python爬虫框架Scrapy的熟练使用
5.Python爬虫伪装中代理IP、UserAgent的熟练使用
6.Python与scrapyt-redis分布式爬虫的基本使用
7.Python操作Mysql数据库增删改查
8.Python操作MongoDB数据库增删改查
9.Python建立数据库连接池提高效率
10.团队协作开发工具git的熟练使用
11.熟悉Linux日常工作环境,熟练掌握常用命令和调优监控手段
12.python机器学习库scikit-learn库的熟练使用
13.python科学计算库numpy、scipy和数据分析库pandas的熟练使用
14.还会使用Djang框架
1、引入库,初始化etree
2、创建存储数据的目录,确定爬取的URL,进行UA伪装
3、初始化数据容器,请求网页
4、初始化etree对象,调用xpath解析
5、请求下载网页,拿到下载链接
6、通过下载链接下载模板,将数据存入到本地
7、拿到数据
8、保存