1、Python 爬虫, 开发过公司自研爬虫框架, 对基本网页爬取问题, 轻松搞定。
2、顶尖大数据处理能力。在网易和搜狗等大公司, 都处理过各种大数据问题。
3、扎实的C语言编程能力, 遇到性能瓶颈, 直接改写成C 语言。
4、多年大公司机器学习算法经验 , 对 自然语言处理 问题特别熟悉。 目前正在从零研发一套机器翻译系统。
项目: 某大公司的 NLP 命名实体识别
介绍:
公司需要对用户数据,提取对应的便签, 以更好地完成用户画像。
旧的方法采用规则+语言模型的办法, 准确和召回都有很大问题。我接手以后,对其进行全面的升级,采用当时最先进的深度学习模型, 极大地提升了模型性能。使得公司多召回了接近一亿(5%) 的高质量实体。