1. 编程技术:熟练掌握python、C++
2. 深度学习技术:掌握主流深度学习编程框架Pytorch、TensorFlow;擅长使用经典深度学习网络架构CNN、RNN、LSTM、GRU、Transformer和高级网络架构如BERT、GPT、ResNet等,针对具体应用场景构建深度应用;了解人工智能领域前沿应用技术及其实现
3. 机器学习技术:掌握主流机器学习编程框架scikit-learn;掌握数据降维、欠/过采样、正则化、归一化/规范化等数据预处理技术;擅长线性回归、决策树、集成学习(随机森林、Adaboost、Xgboost)、贝叶斯分类、聚类分析、特征选择等机器学习技术
4. 数据收集与分析:掌握主流Python爬虫框架,掌握主流数据分析处理库Pandas、Numpy,掌握数据可视化库matplotlib
5. 医学人工智能经验:从事医疗相关的人工智能技术开发工作,对处理医学文本、体检表格、电子病历、医疗影像中的特定问题有一定经验。
1. 数据收集与分析:利用python爬虫实时收集会议期刊文献列表并进行作者和标题关键字的热度分析;收集指定公众号的推文标题、阅读量、点赞数和评论;收集维基百科、谷歌学术等网站百科信息
2. 基于深度学习的蛋白质序列分析:构建基于LSTM的蛋白质序列分析模型,根据氨基酸序列预测功能片段位置信息,并在相关比赛中获得优胜奖
3. 电子病历结构化和辅助诊断:对电子病历构建高精度的命名实体识别模型和辅助诊断模型
4. 异构信息网络聚类分析:基于PageRank算法设计异构的物品信息网络聚类模型,同时对物品热度进行排名。
构建带噪电子病历的结构化模型,模型主要分为实体识别和关系抽取两部分,实体识别主要提取病历中的关键术语并对术语按照预定义的类别进行分类;关系抽取模型则预测实体之间可能存在的关系,并对关系进行分类。在测试数据上的表现接近于人工标注,且召回率和准确率均超过90%
各类媒体数据收集 1. 公众号推文实时收集:包括标题、时间、阅读数、点赞数、在看数、评论、链接 2. bilibili网站新番列表收集:包括番剧标题、当前剧集数、第一集链接、最后一集链接 3. 谷歌学术主题文献收集:在指定主题下搜索文献,包括标题、作者列表、年份、期刊会议、