精通python,java
精通scrapy。beautifulsoap,selenium等爬虫框架。
熟悉redis,mysql,hbase等数据库
熟悉Linux
熟悉supervisor,scrapyd等服务器部署
分布式爬虫。
对携程,美团,飞猪等网站进行抓取相关信息,对50多万家酒店进行横向匹配,每天爬取的酒店量在5000万左右。根据城市级别等其他策略爬取。对爬回来的数据进行数据挖掘,机器学习,来预测酒店房间的空置率等信息
技术架构:scrapy+selenium+redis+djcelery+supervisor+mysql