熟练python语言,深入理解OOP编程思想
熟练使用Python Web框架Django,Tornado框架,了解Flask框架
熟练Django项目uwsgi服务器、分布式等项目部署操作
熟练使用Scrapy爬虫框架
熟练Linux/Windows平台
熟练使用MySQL/MongoDB数据库
熟练前端技术,Html,CSS,JS,JQuery
熟练基于urllib,urllib2,Requests,Selenium 各模块的数据抓取,了解scrapy-redis分布式组件
利用Xpath,BeautifulSoup,Re 的数据清洗
熟悉基于Socket 的网络编程,熟悉HTTP、HTTPS,TCP/IP等协议
熟悉验证码识别、模拟登陆、数据清洗、去重、入库、IP代理池等
有使用pycharm,sublime,vim等开发工具和fiddler抓包工具的使用
有反爬虫策略
抓取该项目中所有的文章的内容,需要我们首先获取到所有文章,其次便可以获取到文章中的所有的内容(作者、标题、评论、发布时间、标签以及评论内容等),获取数据时要需要进行解码操作,将获取到正确的数据存储到MONGO中。
1、使用fidder抓包;
2、分析页面结构,获取所有文章中的内容;
3、使用正则以及XPath来解析所有数据;
4、将数据根据文章的名称存储到mongoDB中;
5、设置代理IP绕过网站反扒机制;