3年以上金融领域机器学习经验。
✓ Python 编码(脚本、Jupyter、google Colab)
✓ Python 常用数据分析库(scikit learn、pandas、numpy、matplotlib)
✓ 自然语言处理工具和包(gensim、spacy、nltk)
✓ 深度学习库和工具箱(TensorFlow、Pytorch、Keras)
✓ 熟悉机器学习算法及其优化(XGBoost、K-means、BERT、CNN)
✓ Flask、HTML、CSS、Docker、GitHub
✓ 熟练使用数据库(mysql、mongodb、arangodb)
以前的项目:
➣ 从PDF/MS Word/网站中提取文本信息。
➣ 新闻情绪分析任务的句子分类。
➣ 构建数据Pipline:从文本到结构化数据库
➣ 非结构化数据的结构化数据分析
➣ 使用neo4j和arangodb从零构建知识图系统。
港交所数据结构化平台(2018.3 - )北京阿博茨科技有限公司
项目简介:使用基于词频和位置等信息为特征的,正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。
个人职责:负责样本预处理,生成特征,特征选择,模型训练,模型的选择和评价。
所用技术:
1. 做Under Sample 和 Over Sample 处理正负样本不均衡问题,做交叉验证;
2. 对关键词周围的词频生成语言模型,用卡方和PCA做特征选择和降维。
3. 对比XGboost和Adaboost在效率和效果的表现,决策树作为弱分类器的机器学习模型,在少样本和样本不均的数据集上表现良好;
4. 构建模型评价模块,绘制在训练集,验证集,测试集上的PR,AUC曲线,混淆矩阵。计算准召率,F1得分等;
项目简介:抽取对应实体识如(转让人,受让人,转让价,成交价,日期等),文本中使用基于BERT的序列标注模型,定制化实体识别; 个人职责:负责样本预处理,模型的训练及评价,基于tensorflow搭建网络模型,模型结构基于 BERT+BiLSTM+CRF,模型训练,模型的预测和评
项目简介:使用基于词频和位置等信息为特征的,正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。 个人职责:负责样本预处理,生成特征,特征选择,模型训练,模型的选择和评价。 所用技术: 1. 做Under Sample 和 Over Sample 处理