有充足的编程能力,了解计算机网络、数据结构,Http/Https;
熟练使用MySQL数据库,熟悉Redis,MongoDB等NoSQL数据库;
熟练使用XPath、re、json模块进行数据提取;
熟练使用Selenium+PhantomJS实现动态HTML抓取;
熟练掌握Scrapy框架、了解scrapy-redis分布式组件;
掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux 系统;
熟悉JavaScript、Ajax、JQuery、CSS、HTML等WEB前端技术;
1、根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段,通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取
2、对抓取到的数据进行清洗过滤,结构化存到数据库,根据爬取过程中遇到的一些反爬手段,优化自己的程序
3、对爬取到的数据,通过matplotlib生成直方图、条形图、散点图、饼图、词云等,多维度展示分析数据,并撰写数据分析报告,供需求方对数据有直观的了解