1.Python中8种数据类型的精通使用
2.Python匿名函数、列表推导式、装饰器的熟练使用
3.Python中re、requests、beautifulSoup等库的熟练使用
4.Python爬虫框架Scrapy的熟练使用
5.Python爬虫伪装中代理IP、UserAgent的熟练使用
6.Python与scrapyt-redis分布式爬虫的基本使用
7.Python操作Mysql数据库增删改查
8.Python操作MongoDB数据库增删改查
9.Python建立数据库连接池提高效率
10.团队协作开发工具git的熟练使用
11.熟悉Linux日常工作环境,熟练掌握常用命令和调优监控手段
12.python机器学习库scikit-learn库的熟练使用
13.python科学计算库numpy、scipy和数据分析库pandas的熟练使用
没有做过大项目,但是自己总结出来的经验:
能用常用的框架,必要时有能力修改框架自己写一个。熟悉多线程多进程分布式等,对爬虫任务调度有很好的解决办法。采集数据频率高,数据量大,范围广,能做深度抓取。爬虫遇到性能瓶颈,如何分析瓶颈并解决。熟悉并能解决常见的反爬措施,比如常见的图片验证,滑动验证,拼图,短信验证等。常见的封IP,封header等。比如给爬虫投毒喂假数据如何识别。熟悉数据结构和算法,拿到数据可以进行一些基础的清洗,比如如何在内存容量有限的情况下清洗亿万数据;比如如何从提取目标数据等。甚至可以做一些舆情分析,数据分析等。