本人会前端页面编写,h5 css3,js本人还是擅长python爬虫,requests模块 lxml模块json模块jsonpath模块,会xpath语法,以及利用selenium爬虫,还会利用框架scrapy,以及scrapy-redis分布式爬虫,还会使用splash技术,js反爬会一点
比如数据采集淘宝,百度招聘,网易招聘,京东,携程等网站都做过数据采集,采集信息啊,采集图片啊,图片网站采集过http://www.netbian.com/等网站
在汽车之家论坛提取标题链接图片链接,以及名字日期,采用scrapy框架还有scrapy-redis分布式爬取,还调用splash框架进行js预加载
本作品使用scrapy爬虫框架进行抓取中国品牌网排行,利用splash框架进行js预加载处理,保存json格式,也可以写入数据库
利用request模块进行抓取,配合使用lxml进行数据抓取,使用xpath语法进行获取节点,然后保存到文件夹
利用request模块进行抓取,配合使用lxml进行数据抓取,使用xpath语法进行获取节点,然后保存到文件夹