掌握大数据相关的技术栈:Hadoop、spark、hive、kafka、hdfs等,有过海量数据处理的经验,并掌握hive、spark优化
数据库:mysql、redis
搜索引擎ES
开发语言:python、go
基于linux开发、熟悉shell脚本及linux命令,及sql语言
爬虫相关技术:scrapy
1、三角兽科技有限公司流批数据处理平台的搭建
搭建的实时流和批处理平台,用大数据相关技术处理解析日志,并以可视化看板形式展现各种指标。
2、三角兽科技有限公司分布式爬虫系统的搭建
稳定爬取百度贴吧、豆瓣、B站等各大网站
3、腾讯微视搜索相关垂类数据开发
包括用户搜索、微剧搜索、影视综搜索、直播搜索、发布器推荐和搜索等实时数据链路开发
4、腾讯视频与微视合作的短带长视频开发,负责数据部分开发
5、腾讯看点和微视合作的短视频优化项目,负责数据部分开发
6、腾讯微视搜索质量指标体系的搭建
公司某app下的评论质量不太好,需要爬取b站高质量的评论,经过数据清洗后提供给算法侧的模型,进行训练优化。 我主要担任数据评论的爬取,整个爬取是我独立负责。
公司智能聊天机器人需要实时的语料更新,分布式爬虫系统爬取百度贴吧、豆瓣、水木社区等数据源,将获得的数据进行清洗入库 我负责整个爬虫系统的搭建、数据的稳定爬取、数据清洗入库。整个项目是我独立负责。