1、熟悉HTTP协议,熟悉网页抓取原理,熟练掌握xpath、正则表达式等;2、精通python,有一定的HTML、JS基础;3、熟悉MongoDb、redis、Mysql等主流数据库;5,selenium, scrapy
曾参与开发百度爬虫项目,微博爬虫项目,知乎爬虫项目,今日头条爬虫项目,亚马逊爬虫项目,360爬虫项目,B站爬虫项目,使用过cookies,header构造,selenium模拟爬取等方式
有关b站爬虫功能,在项目中主要负责爬虫代码的编写,抓取B站相关数据,获取相关内容,从页面中提取相关文本
在百度爬虫项目中主要负责爬虫工程师,完成对百度相关数据的抓取和获取,解析和保存,并存入数据库或者execl
在百度爬虫项目中主要负责爬虫代码的编写,获取百度页面相关数据,分析网页结构,解析网页结构并存入数据库
在百度爬虫项目中主要负责爬虫代码的编写,获取百度页面相关数据,分析网页结构,解析网页结构并存入数据库