1. 根据项目的需求抓取京东、天猫、淘宝的手机商品信息及评论人、评论时间、评论属性。首先获取网址,查询该网站URL接口,使用requests模块获取网站源码,在使用Beautifulsoup标签定位来获取浏览量和评论量及评论属性,通过好评、中评、差评,来给评论属性进行明确区分,根据评论分类进行排序,按项目需求存放到数据库。抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。
2. 设置定时任务进行抓取数据。将有价值的数据进行入库,监控日志信息。基于django + echarts做数据的可视化。构建自己爬取ip代理池或公司购买的稳定ip代理,应对限制访问频率。定期维护代码。用python的smtp定时发邮件汇报爬虫获取数据的情况。