语言:python,java,js,
数据库:redis,mongodb,mysql,elastic search,
后端:django,springBoot+Mybatis,node.js
前端:vue.js
Scarpy- -s redis 实现知乎用户信息的分布式爬取与存储:
具体实现:通过对知乎用户“轮子哥”的关注列表与粉丝列表信息的爬取与解析,获得这些用户的 url-token,得
到其个人主页,关注列表,粉丝列表,从而进行裂变式的迭代爬取,理论上可获得所有较为活跃的知乎用户。使用
scrapy-redis 组件实现分布式爬取。项目还在改进,计划通过 ElasticSearch 来进行查询,索引,搭建搜索引擎,
进行关键字查找。
通过对知乎用户“轮子哥”的关注列表与粉丝列表信息的爬取与解析,获得这些用户的 url-token,得 到其个人主页,关注列表,粉丝列表,从而进行裂变式的迭代爬取,理论上可获得所有较为活跃的知乎用户。使用 scrapy-redis 组件实现分布式爬取。项目还在改进,计划通过 E
通过对用户评价数据的清洗与挖掘,找出用户评价的星级,用户评论之间的关系,从评论中找到 潜在的商品间竞争的影响因素与可改进功能。 处理过程:python 进行数据清洗,关联度分析,特征降维,数据归一化处理,特征 one-hot 编码,BP 神经网络分类 预测
通过对用户评价数据的清洗与挖掘,找出用户评价的星级,用户评论之间的关系,从评论中找到 潜在的商品间竞争的影响因素与可改进功能。 处理过程:python 进行数据清洗,关联度分析,特征降维,数据归一化处理,特征 one-hot 编码,BP 神经网络分类 预测