1.根据需要爬取的数据进行需求分析,分析目标网站的结构,和一些反爬手段,
2.通过request,selenium,scrapy,xpath,等技术手段编写爬虫程序进行内容爬取,
3.对爬取的数据进行清洗,过滤,分表,存储,
4.学习一些新的技术,适应客户的需求
拉勾网
责任描述:
编写爬虫程序,想出反反爬策路,数据清洗,分表存储
项目概况:
爬取拉勾网一二线城市前端,php,python,Java,数据分析,爬虫,人工智能招聘需求,薪资状况等
豆瓣、猫眼
责任描述:
编写爬虫程序,想出反反爬策略,数据清洗,分表存储
项目概况:
爬取豆瓣.猫眼电影信息