需求描述:
Yelp是美国类似大众点评的一个平台,要对已有的6000家左右的餐厅爬取评论数据,现在已有每家餐厅的链接。
因为数据量较大,需要能够破解反爬虫机制,普通的更换ua和休眠时间可能不行。
价格可议。
数据规模:
6000家餐厅,每家餐厅约有150条评论,总计在100万条评论左右。已整理成csv文件,有成品的格式样例,有现有的爬虫程序(可以运行但是无法破解反爬)。
人才要求:
爬虫相关技巧熟练,能够应对反爬虫机制,具有数学、统计、计量等相关知识背景的程序员更佳。