Python中8种数据类型的精通使用
Python匿名函数、列表推导式、装饰器的熟练使用
Python中re、requests、beautifulSoup等库的熟练使用
ython爬虫框架Scrapy的熟练使用
Python爬虫伪装中代理IP、UserAgent的熟练使用
Python与scrapyt-redis分布式爬虫的基本使用
Python操作Mysql数据库增删改查
Python操作MongoDB数据库增删改查
Python建立数据库连接池提高效率
熟悉Linux日常工作环境,熟练掌握常用命令和调优监控手段
爬虫的增量爬取、断点续爬、去重等分享一下你的经验
通过网址池的概念去管理所有的 url
增量爬取就是补充下载已经下载过的,让网址池记住那些已经下载过的 url
断点续爬,就是场次还没有爬取的 url 这次接着爬,还是让网址池记住那些还没被爬取的 url
爬虫的去重,让网址池记录 url 的状态以避免重复爬取
第一个好处是协程像种在程序级别模拟系统级别的进程,由于是单线程,并且少了上下文切换,因此相对来说系统消耗很少,而且网上的各种测试也表明协程确实拥有惊人的速度。
导入模块,查看网页源代码确认url,发送请求,得到响应数据,解析,检查代码避免报错,保存合成,查看,