猿急送>

上海其它兼职程序员

ID：255373

于伟

图谱工程师

公司信息：
腾讯

工作经验：
5年

兼职日薪：
1500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
上海
浦东

技术能力

1. 熟练使用linux命令
2. 精通python
3. 熟悉scrapy框架，熟练使用python进行爬虫开发
4. 熟悉Redis、MySQL、neo4j、es等主流数据库及python与数据库交互
5. 熟悉hadoop/spark大数据计算组件,熟练使用spark进行数据处理
6. 精通基于cnSchema规则的图谱创建生产

项目经验

项目一：金融知识智能服务平台
时间：2020.6-2021.4
项目名称：金融知识智能服务平台
开发环境：Linux、hdaoop、spark、Redis、neo4j、es
项目简介：
1.行内环境为封闭式网络，公网数据通过前置机从公网获取并传输到内网。传输方式为aws s3
2.理财等数据直接通过python脚本入到mysql，有利于增量更新；工商涉诉数据量较大，工商涉诉数据通过spark脚本进行清洗排列，入到hive。
3.根据场景总共生产3套图谱，分别为理财问答、监管预警，风险预警。风险预警图谱包含工商、涉诉、反洗钱，贷款逾期等风险信息。图谱制作过程主要包含数据集导入，本体设计，图谱生产，图谱融合，图谱分析，图谱校验，图谱发布
a)数据集导入：数据类型主要为关系型数据库（mysql、hive等）和关系型文件（csv，excel等），也可以是单层的json结构
b)本体设计：本体设计主要是实体，关系，属性三元组，实体和关系会有属性，实体之间通过关系连接。
c)图谱生产：根据设计的本体，将数据生产成符合设计格式的数据并存档。
d)图谱融合：多个图谱重复相同的实体通过主键融合，融合方式包含覆盖，交集，并集，根据条件优先等多种方式
e)图谱分析：对图谱进行pagerank、社区发现、连通图等计算
f)图谱校验：对图谱数据中实体、关系、属性的覆盖率及数量进行校验，校验数据是否符合本体设计的数据格式
g)图谱发布：图谱数据发版到redis/neo4j/es
4.图谱生产合格后，每日定时进行跑批更新