1、能够利用Python爬虫技术获取微博、大众点评、中国知网等数据
2、能够利用python中的pandas、numpy进行数据处理和分析工作
3、熟练使用python进行lda、bertopic主题分析
4、熟练使用python进行文本分析、文本处理和自然语言处理等任务,例如利用word2vec、bert等语言模型进行词向量训练、文本相似度计算、文本分类、词频计算等任务
1、利用python爬取微博用户评论,利用pandas进行数据清晰,利用word2vec训练词向量筛选关键词,构建关键词词典,利用内容分析法构建影响因素体系。
2、利用python爬取大众点评用户评论和图书馆信息,利用pandas进行数据清晰,利用bert和word2vec等深度语言模型进行情感分析,利用高频词获取用户满意度影响因素
3、七麦数据网站下载22万余条用户评论和1千余条更新日志,利用pandas进行数据清晰,利用LDA和BERTopic进行动态主题演化分析
为了了解在不同时间段开发者和用户更加关注的应用功能分别有哪些,以及二者关注的差异和共同点有哪些。首先,分别绘制用户评论和日志更新下项目文本数据主题数目与主题一致性变化图,从而确定主题数目;分别获得用户评论和日志更新项目文本数据的主题描述;最后根据主题描述和原始文本进行主题命名,并
首先,利用Bert模型进行文本向量表征,接着利用余弦相似度方法计算两个语句之间的相似度值,最后给定一个相似度阈值sim0,如果用户评论u和更新日志d计算出来的余弦值大于这个阈值sim0,就认为这条用户评论与更新项目相似,即用户评论与更新项目匹配上。