1、做过数据采集(爬虫)和数据分析工作
2、远程给一些公司做过爬虫工作
3、解决ip限制问题
4、基于cookie的登录验证
5、简单验证码(深度学习或对接打码平台)
6、熟练提取结构化和非结构化网页内容
工作中爬取过二手汽车网站,如:易车、汽车之家、百姓网、赶集网、58同城、瓜子、人人车、大搜车、淘车等等;
爬取过房产相关网站,如:链家(各个市的链家)、房天下、安居客、58、赶集、百姓等等(记得有个网站按照地区分类,包含了全国各个地方的房产相关信息,但我忘了是哪个网站了。。);
爬取过社交类网站,如:微博、微信、搜狗等等;
爬取过政府网站,如:各市环保局的行政处罚信息;
不再一一列举。
另外,国外网站也可采集。
使用api爬取过地图:百度地图、高德地图。