- 熟悉数据结构和算法,以及常用的机器学习模型;
- 熟悉人脸识别、爬虫、前端等不同领域的项目;
- 技能标签:Python / C# / Flask / Linux / MySQL / Redis 等。
(苏州微软)
云计算平台开发
(杭州某互联网)
相册人脸识别
- CV 项目:采用 HOG+ResNet 对用户照片中的人脸进行检测和识别。
- 在此项目中,我负责人脸识别的应用场景落地,开发和部署照片实时处理的相关服务。将计算和匹配的过程分开,在保证识别准确度的同时,显著提升了 API 的响应速度和并发性。
政要校友信息挖掘
- NLP 项目:前期用 Scrapy 抓取大量网页,中期用 Random-Forest 判别和筛选数据,后期用 CRF 识别人物实体和抽取信息。
- 在此项目中,我负责技术方案、整体架构的设计,打造高效的爬虫模块,评估和优化模型的精度。制定了层级、深度爬取策略,使得项目的数据覆盖度高、结构清晰、易维护;并发策略,数倍提升了爬虫效率。
文章推荐系统
- NLP 项目:采用 LDA+KMeans 的无监督学习方法,对20w篇文章进行了标注和推荐。
- 在此项目中,我负责文本预处理、特征提取、模型训练、数据库存储的全流程。采用 simhash+joblib 实现了文章的增量去重,对海量数据的去重有了较深认识。
(上海华为)
5G 持续集成组
- 作为CI团队的主要成员,我负责开发代码质量防护工具,用多进程将运行时间缩短了 60%。
- 在日常的运维中,我提炼和重构常用的工具类,将任务落实为自动化脚本;提升了整个团队的工作效率,荣获部门的“明日之星奖”。
运营商 GUI 项目
- 界面可视化项目:采用 wxPython 框架,便于用户对 license 文件进行操作。
- 在此项目中,我负责数据分析、处理、存储等模块的开发。采用 gettext 实现了中英文切换,参与团队代码的交叉 review,设计和编写 test-driven 代码,使得项目零缺陷交付。
以前开发过一个数据挖掘项目,前期的数据来源是爬虫,中期的数据筛选是Random-Forest,后期的数据提取是NER(命名实体识别)。我花了不少功夫在完整的爬虫上,以scrapy作为项目框架。
研二暑假在华为实习时的前端项目。按功能分了几个主要模块:测试框架、用户登录、模糊效果展示,以及最终的前后端联调。
技术扎实,值得信任