熟练使用MySQL数据库,熟悉Redis,MongoDB等NoSQL数据库;
熟练使用XPath、re、json模块进行数据提取;
熟练使用Selenium+PhantomJS实现动态HTML抓取;
熟练掌握Scrapy框架、了解scrapy-redis分布式组件;
掌握常见的爬虫、反爬虫知识及应对措施;熟悉Django框架、熟悉Linux 系统;
熟悉JavaScript、Ajax、JQuery、CSS、HTML等WEB前端技术;
2022.06.-2022.08
项目名称:抓取新浪微博数据(利用移动端抓取数据)
过程:
1.分析url,找到正确的首页start_url,
2.引擎从调度器中抽取start_url用于抓取数据;
3.引擎把url封装成request传给下载器;
4.下载器把资源下载下来并封装成应答包Response;
5.解析Response,把item交给实体管道Pipeline进行下一步处理;
6.若解析了url则交给调度器等待抓取。