通过python爬取各大网站信息
精通resquest,lxml,BS4,threading等与爬虫有关模块
熟练运用xpath提取网页数据
能够熟练多线程爬虫对各大网站信息进行抓取,并存放在MySQL,Mongo,Redis等数据库
做过的项目有利用爬虫获取汽车之家所有汽车配置信息,通过解析网页信息,利用xpath获取数据,其中包括型号,品牌,价格等信息,爬取过程中实现自动翻页,对获取到的数据进行去重后保存到MySQL数据库。
利用异步爬虫获取汽车之家汽车的数据信息,其中包括型号,品牌,价格等方面,进行数据去重后并将其保存在数据库中。 在爬取过程中用到了python中的异步模块
利用python的多进程爬虫爬取爱奇艺视频的数据信息,并保存到数据库中。 爬取过程中通过创建多个进程获取数据。