熟悉python语言,熟悉spark、sparkstreaming、kafka、amq、redis等框架和开发流程;熟悉大数据框架,独立搭建并使用ambari+hdp大数据集群;熟悉hdfs、hive等操作;熟悉neo4j图数据库;熟悉机器学习算法,参与多个机器学习项目;熟悉自然语言处理基本流程,熟悉jieba分词,文本分类等。
参与航班到达时间预测,分别采用xgboost和LSTM建立预测模型,xgboost基于spark建立,可处理大批量数据,提升处理效率;lstm模型基于ADSB时序数据,预测准确度更高;
参与民航知识图谱建立和机场相关自动问答模型建立,针对首都机场,抓取机场信息,采用人工规则和deepdive来做信息提取,将值机、安检、餐厅、停车位、候机楼等等信息提取出来,建立关系,存入neo4j数据库,建立知识图谱等。