猿急送>

北京后端兼职程序员

ID：256265

王二

NLP算法工程师

公司信息：
abc

工作经验：
4年

兼职日薪：
800元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
北京
海淀

技术能力

3年以上金融领域机器学习经验。

✓ Python 编码（脚本、Jupyter、google Colab）
✓ Python 常用数据分析库（scikit learn、pandas、numpy、matplotlib）
✓ 自然语言处理工具和包（gensim、spacy、nltk）
✓ 深度学习库和工具箱（TensorFlow、Pytorch、Keras）
✓ 熟悉机器学习算法及其优化（XGBoost、K-means、BERT、CNN）
✓ Flask、HTML、CSS、Docker、GitHub
✓ 熟练使用数据库（mysql、mongodb、arangodb）

以前的项目：
➣ 从PDF/MS Word/网站中提取文本信息。
➣ 新闻情绪分析任务的句子分类。
➣ 构建数据Pipline：从文本到结构化数据库
➣ 非结构化数据的结构化数据分析
➣ 使用neo4j和arangodb从零构建知识图系统。

项目经验

 港交所数据结构化平台（2018.3 - ）北京阿博茨科技有限公司
项目简介：使用基于词频和位置等信息为特征的，正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。
个人职责：负责样本预处理，生成特征，特征选择，模型训练，模型的选择和评价。
所用技术：
1. 做Under Sample 和 Over Sample 处理正负样本不均衡问题，做交叉验证；
2. 对关键词周围的词频生成语言模型，用卡方和PCA做特征选择和降维。
3. 对比XGboost和Adaboost在效率和效果的表现,决策树作为弱分类器的机器学习模型，在少样本和样本不均的数据集上表现良好；
4. 构建模型评价模块，绘制在训练集，验证集，测试集上的PR,AUC曲线，混淆矩阵。计算准召率，F1得分等；

案例展示

金融研报文本信息抽取

项目简介：抽取对应实体识如（转让人，受让人，转让价，成交价，日期等），文本中使用基于BERT的序列标注模型，定制化实体识别；个人职责：负责样本预处理，模型的训练及评价，基于tensorflow搭建网络模型，模型结构基于 BERT+BiLSTM+CRF，模型训练，模型的预测和评
数据结构化平台

项目简介：使用基于词频和位置等信息为特征的，正负样本不均衡样本集的机器学习分类任务。基于正则表达式抽取后进行实体分类。个人职责：负责样本预处理，生成特征，特征选择，模型训练，模型的选择和评价。所用技术： 1. 做Under Sample 和 Over Sample 处理