该项目是大学生创新创业项目,目的是打造一个基于科技文献数据的技术挖掘的软件平台。通过关键词提取、聚类技术分析及特征库构建, 发现新兴技术,综合评估技术发展前景并实现技术预测功能平台化。
项目负责:
分析常见文献网站如中国知网,万方数据库等网页的html,使用selenium自动化测试爬虫技术应对请求头反爬、动态网页、iframe嵌套网页反爬等手段,实现文献关键词、作者、发表时间、摘要等数据爬取,并调用openpyxl库存入本地excel中
使用自然语言处理nlpir、textrank关键词提取技术,实现对语义文本进行处理并构建特征词库
使用pyqt进行应用程序界面开发,实现程序功能平台化