1.熟悉Python、计算机网络,熟悉使用多线程,熟悉Scrapy等常用爬虫框架;
2.熟悉Linux操作、正则表达式、Mysql、MongoDB、Redis等常用数据库及缓存;
3.能解决封账号、封IP、验证码识别等问题。
1.大众点评数据采集项目:开发大众点评爬虫脚本,采集16个城市人均100元以上的日料店基本信息,字段包括店铺名称、评价数、人均消费价格、推荐菜、团购优惠、店铺评分、地址、营业时间等,在开发大众点评爬虫脚本时,需要解决字体反爬、IP封禁、Cookie加密等问题,最后成功采集到了16个城市的上万条数据。
2.链家网数据采集项目:开发链家网爬虫脚本,采集北上广深各个小区的房价、户数等信息,在过程中需通过多线程的方式来提高爬虫效率,最后成功采集上万条小区数据
大众点评爬虫脚本,将大众点评相关店铺信息数据抓取后进行清洗并存入数据库中,店铺信息包括但不限于店铺名称、评分、人均消费、评论等
链家网多线程爬虫脚本,抓取各城市小区的基本信息,包括但不限于小区名称、房价、栋数、户数等,将基本信息清洗后以excel文件形式导出