1.python,2.request,3.Scrapy框架,4.XPath、re、BeautifulSoup4,5.Selenium,6.MySQL,7.HTML、CSS、JS,jq,ajax 8掌握常见的爬虫、反爬虫知识及应对措施9,js逆向破解,10,scrapy-redis
项目描述:爬取携程中国所有城市的景区相关数据
项目模块:
1.item:定义数据字段,2.spider:创建请求连接,请求参数,请求头等
3.middleware:用于配置ip代理或者user-agent,4.pipelines:储存数据到mysql数据库
技术要点:
1.用postman对请求url及相关数据包进行解析,2.Scrapy,3.jsonpath,4.mysql
项目简述:
1.最主要的步骤是用postman对请求url及请求参数做分析
2.由于返回的请求数据都是json格式所以用jsonpath进行数据解析
3.由于携程景区的数据分散在多个不同的数据包,所以需要多次回调进行提取数据
4.所有数据提取完毕后有pipelines模块对返回给scrapy引擎的数据进行存储
5.数据库用的with打开
Selenium爬取京东商品信息
项目描述:用selenium自动化输入商品名称并爬取该类商品的所有数据
技术要点:
1. Selenium,2. Xpath,3. Beatifulsoup4
项目简述:
1. 配置selenium文件对象(反爬手段),2. Selenium操作浏览器输入关键词并按下回车
3. 获取页面响应数据,4. 用xpath和beatifulsoup解析数据
5. 将数据保存到json文件中