熟悉流式计算。掌握Flink的设计思想,包括端到端的exactly-once、sql层的批流统一、状态管理、window操作等核心功能。
熟悉分布式,参与百度集群操作系统Pass层的服务托管(20w+),包括在线服务(大搜、凤巢等)的批量部署、自动扩缩容、自动迁移、多维度调度及调度算法等。
掌握常见深度学习算法。熟悉词向量、CNN、RNN,自学完成斯坦福课程CS231n和CS244d。
熟悉视频编解码算法。在 VCIP 上发表《Fast Rate Distortion Optimized Quantization for HEVC》。
2018.6-至今 快手数据架构组
负责Flink的开发和维护。构建数据清洗、数据聚合、数据管理的实时计算平台;构建快手flink sql平台,支持ddl、protobuf转换等功能;优化rocksdb上TB级数据seek慢的问题;开发数据源同步功能,解决数据不同步造成的反压、卡死等性能问题。
2017.4 -2018.6 百度基础架构部
参与服务托管项目Solaria的迭代更新。功能研发上,增加了任务重做、按filter调度、HostDaemon类服务管理、自动保活等功能;性能优化上,增加批量处理功能,改用异步Rpc调用。
基于openstack进行百度云计算的迭代和开发。搭建unittest测试框架和集群测试环境;开发ssh密钥登陆、虚机绑核、资源调度等功能;构建资源清理模块,清除垃圾资源,保障数据一致性。
2015.12-2016.10 搜狗NLP实习
改进word2vec模型。在原模型基础上加入pair对约束条件,,并利用MPI集群通过数据分块、模型共享、同步更新来训练词向量,mrr指标提升5%左右。
CNN模型训练比较title相关性。基于title+、title-对query的相关性建立损失函数,通过卷积层、pooling层等过程将句子映射为低维向量,继而进行全连接的神经网络训练,验证集上正确率为78%。
态度很好,很有耐心,技术过硬