1两年以上爬虫开发相关经验,熟练使用Python进行开发
2. 熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
3. 熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;
4. 熟悉各种抓取技术,包括代理、PhantomJSselenium、验证码处理;
5. 熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,熟悉反爬虫技术,有分布式爬虫架构经验;
1,各大汽车网站车型车系的信息,汽车门户网站关于汽车的评价的爬取和入库
2,微博数据的爬取,通过搜索关键词,对微博的内容进行的爬取
3,各大电商网站的电商数据的爬取
4美团点评数据爬取