Python爬虫的requests,BeautifuSoup,pyquery,Selenium等爬虫库的熟练使用,善于对网站结构进行精确分析,善于利用CSS选择器,Xpath,搭配正则表达式精确定位想要的数据信息,并能对收集的数据进行分类。
上一周做过一个爬取网页图片的项目,该网页的图片一套有若干个图片,我将其每一套都自动化放在相应的文件夹,并且每个文件夹的名称都以这套图片的相关名称命名,一个下午的图片自动下载量可达到上万张(具体张数根据网速快慢)
编写的一个Pythonj脚本,可以对网页图片的批量爬取,并按照图片的名称对存储图片的文件夹进行自动创建和命名
利用爬虫爬取淘宝上的某个商品数据,最终保存到Mongo数据库,商品的图片也以二进制代码方式存储在该数据库中
利用爬虫数据抓取技术,可达到对淘宝网站上任意商品数据的抓取,抓取效率达到5000条/分钟,并对抓取的数据进行本地存储,进而进行可视化分析。