1.熟练掌握爬虫原理,熟练使用urllib、request、scrapy模块从浏览器爬取数据,对request做过简单封装,熟练使用re、xpath解析网页;
2.熟悉使用asyncio做异步爬虫;
3.熟悉常见反爬和突破手段如:对用户行为的反爬技术;
4.用户信息采集系统采集人人网、百合网、世纪佳缘网等各社交类网站用户信息,数据量将近一亿。 数据采集后,存入 hadoop 体系下的 hbase 中
5.对爬取的数据 做数据清洗,熟练sqoop于mysql做数据交互,熟悉word,excel等离线数据的清洗以供其他部门使用;
用户信息采集系统采集人人网、百合网、世纪佳缘网、51job、58招聘、boss直聘、乐职网、招聘狗、万行教师、智联等网站用户信息,数据量将近一亿。 数据采集后,存入 hadoop 体系下的 hbase 中,展示到Web页面。