ID:321900

Johnson 身份已认证

自然语言处理算法工程师

  • 公司信息:
  • 三星中国研究院
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 700元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 所在区域:
  • 北京
  • 海淀

技术能力

1. 掌握语言:python
2. 工作方向:机器学习,深度学习,数据处理,数据挖掘,自然语言处理,大语言模型微调
3. 开发经验:
3.1 数据处理:熟悉python及常用数据处理库,包括numpy,pandas,re等;熟练使用matplotlib和seaborn绘图库;
3.2 模型开发:熟悉sklearn,lightgbm,使用过异常处理算法LOF,CBLOF,IForest, COPOD,采样算法随机降采样,随机上采样,ENN,SMOTE等;熟悉pytorch和tensorflow深度学习框架,开发过CNN,RNN,LSTM等基础模型,T5, ChatGLM2-6B,Llama-7B预训练模型微调(ChatGLM2-6B + ptuningv2, ChatGLM2-6B + lora, Llama2 + lora),复现过Yolo v5,Ernie-layout开源模型;
3.3 Demo开发:开发过基于python+django框架的web展示,有linux系统深度学习开发经验。

项目经验

项目1:Multi-Model Machine Reading Comprehension2023/1-2023/9
项目描述:
项目介绍:为了优化三星各类产品用户的用户体验,本项目基于三星产品手册,通过预训练模型微调,在下游完成多个任务,即对用户问题答案的页面检索与答案生成,其中答案包括与该问题相关的手册页面所在区域以及基于此区域信息的生成内容。本课题目前已通过总部验收。工作内容如下:
1.负责机器阅读理解任务数据重构。开发 pdf 文档自动化标注工具,抽取 pdf 文档中的文本和图片数据,在注入 QA 问题答案对之后转换成模型训练所使用的 jsonl 格式;
2. 负责对 QA 问题答案对数据增强。主要通过基于三星内部的 Utrans 翻译工具的回译和基于 Meta 开源的 llama 大语言模型 zero-shot 生成新的 qa对,以扩展数据,帮助模型提升泛化能力;设置生成 QA 问题答案对的任务,使用基于 llama2-7B在原数据集上进行微调出 llama2-pm-7B,再基于 llama2-pm-7B zero-shot 在三星22本家电类别产品手册上生成 QA 问题对;
2.负责机器阅读理解模型
-基于T5预训练模型的开发和调优。在基础T5模型的基础上增加适用于本任务的三个模块,分别是基于输入问题的页面检索、基于输入问题和金标页面的文本问答以及输入问题和金标页面的视觉问答。并尝试将检索结果 top 3拼接后输入后两者进行训练和推理;
3.基于 django在 aws 搭建前端 demo 。开发模块如下:指定文档问答、上传文档自动解析、已上传文档管理。

项目成果:
1. 数据增强:通过实验发现,基于 Utrans 回译优于基于 Llama-7B zero-shot 方法。将基于 Utrans 回译生成的数据按照与原训练集1:1的比例扩充,同时通过回译扩充测试集。经过训练后,在该测试集上 Bleu 4相比于不使用数据增强的模型提升1.7;
2. pdf 文档自动化标注工具能从未人工标注的产品手册中抽取文本和图片数据,并可直接进行推理。基于 llama2-pm-7B的 zero-shot 数据训练的模型在页面检索任务 top 1准确率上提升5.4%;
3. Web端 demo 通过中期项目验收;测试集页面检索准确率和 Bleu 4分数达到项目验收要求。

项目2:三星健康抑郁症检测2022/1-2022/7
项目描述:
1.负责清洗实验者监测数据,包括缺失值填充;
2.负责数据预处理,将离散的结构化数据提取成为期5天的时序数据;
3.利用Tensorflow搭建双向lstm三任务网络,实现一次输入同时预测用户抑郁、焦虑以及压力水平。
项目成果:
1. 发表论文,并出席完成汇报
Zhang, S., Tu, M., Yan, Y., Zhuang, Y., Ge, L., Wei, G. (2022). Detecting Depression, Anxiety and Mental Stress in One Sequential Model with Multi-task Learning. In: Duffy, V.G., Gao, Q., Zhou, J., Antona, M., Stephanidis, C. (eds) HCI International 2022 – Late Breaking Papers: HCI for Health, Well-being, Universal Access and Healthy Aging. HCII 2022. Lecture Notes in Computer Science, vol 13521. Springer, Cham.

案例展示

  • 论文见刊

    论文见刊

    三星健康抑郁症检测2022/1-2022/7 项目描述: 本项目在北京三星通信技术研究有限公司实习期间进行。 工作内容: 1.负责清洗实验者监测数据,包括缺失值填充; 2.负责数据预处理,将离散的结构化数据提取成为期5天的时序数据; 3.利用Tensorflow搭建双

  • 华融个人不良资产信用评分研究

    华融个人不良资产信用评分研究

    北航-华融金融科技联合实验室 项目描述: 1. 数据处理:对以个人信贷为主的个人不良资产进行数据分析(数据规模:80w条数据,150项特征):在数据预处理阶段,删除缺失比例超30%的特征;其余缺失特征以平均值填充;观察每一个剩余特征的数值分布,对照数据字典识别异常值;对华融消

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服