1.爬虫方面
熟练掌握Python语言,熟练使用Python标准库,可以快速学习上手流行的第三方库
熟练掌握MySQL,熟悉MongoDB,Redis等常见数据库
熟练使用Scrapy框架爬取数据
熟练掌握各种反扒机制
熟练使用requests等爬虫相关模块
熟悉HTML/JavaScript/CSS/Ajax等web技术知识
熟练掌握网页抓取原理及技术,熟悉基于正则表达式、XPath、CSS选择器、等网页信息抽取技术,从结构化的和非结构化的数据中获取信息
理解基于Cookie的登录原理,熟悉应用IP池、Headers认证等
熟悉scrapy-redis分布式,增量式爬虫
熟悉Django框架及web后端开发
熟悉Fiddler,charles工具抓取移动端APP数据
1.爬虫方面
熟练掌握Python语言,熟练使用Python标准库,可以快速学习上手流行的第三方库
熟练掌握MySQL,熟悉MongoDB,Redis等常见数据库
熟练使用Scrapy框架爬取数据
熟练掌握各种反扒机制
熟练使用requests等爬虫相关模块
熟悉HTML/JavaScript/CSS/Ajax等web技术知识
熟练掌握网页抓取原理及技术,熟悉基于正则表达式、XPath、CSS选择器、等网页信息抽取技术,从结构化的和非结构化的数据中获取信息
理解基于Cookie的登录原理,熟悉应用IP池、Headers认证等
熟悉scrapy-redis分布式,增量式爬虫
熟悉Django框架及web后端开发
熟悉Fiddler,charles工具抓取移动端APP数据
项目一:对唯品会网站数据的抓取 责任描述:编写爬虫程序,想出反爬策略,数据清洗分表存储,维护代理IP池 项目简介: 项目概况: 爬取唯品会分类下所有女装. 遇到问题及解决方案如下: 1、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化
项目一:对唯品会网站数据的抓取 责任描述:编写爬虫程序,想出反爬策略,数据清洗分表存储,维护代理IP池 项目简介: 项目概况: 爬取唯品会分类下所有女装. 遇到问题及解决方案如下: 1、爬取量较大,用scrapy-redis爬取,因为该框架实现url和数据去重、持久化
根据公司要求提取京东任意一商品的数据,要求是商品图片,名称,价格,链接,以及详情界面的轮播图,根据品牌抓取分类
根据公司要求,对亚马逊对任意一商品进行数据抓取,要求抓取品牌名称,商品图片,商品链接,价格以及详情界面的轮播图,商品详情图