ID:144889

jstarseven 有团队

高级java开发工程师,高级数据采集工程师

  • 公司信息:
  • 任子行网络技术股份有限公司
  • 工作经验:
  • 4年
  • 兼职日薪:
  • 1000元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 北京
  • 海淀

技术能力

目前担任公司高级数据采集分析工程师,参与公司内部法律大数据项目的开发。
任务职能:参与设计公司内部大型数据分析系统,包含建立维护可靠稳定的分布式云采集系统,建立维护稳定可靠的数据分析过滤清洗系统以及数据存储等。
就业技能:
1)后端:springboot,springmvc,爬虫开发(jsoup,htmlunit,webdriver,phantomjs),数据库(mysql,Oracle,DB2)hadoop,云计算,word2vec,Python,web应用,app开发分析/采集,微信公众号,小程序开发
2)前端:vue.js jquery css3 浏览器插件
项目经历:本人熟悉各种数据采集模式,参与过多种大型项目的设计与开发,先后参与开发互联网金融风险分析技术平台,hummer智能采集云平台,全国企业风险查询系统,上海广电监控系统等.
个人主页:http://www.jstarseven.com/

项目经验

互联网金融风险分析技术平台<内部宣传主页:https://www.ifcert.org.cn/>
软件环境: tomcat7.0、nginx、mysql、redis2.4.5、elasticsearch
硬件环境:windows7
开发工具:idea
项目职责:
1.全国互联网金融平台发现:
1)ICP备案信息采集分析<周期性> 2)外链抽取<周期性> 3)快照采集<周期性> 4)元搜索:百度+360+bing+搜狗<周期性>、
5)独立词+svm方式识别金融平台
2.确认金融平台数据采集:
1)首页ICP备案信息定时巡查
2)产品线信息采集
3)项目信息采集
4)网站公告采集
3.互联网金融数据:分析同步+统计
采集数据去重过滤、字段分析处理,同步入ES+redis+mysql
确认金融网站日统计/周统计/月统计
地区分布维度,用户总量维度、、、等
项目描述:系统为国家互联网金融风险分析技术平台提供强大的基础数据来源;实现从多种渠道采集互联网网站数据;研究网站分类技术,开发高效地网站分类程序功能模块,实现对海量的网站数据进行初步的分类并发现金融网站;基于金融平台背景、平台诞生及消亡、备案等情况进行标识,实现对金融平台多维度标识功能;获取工商注册数据,建立互联网金融平台关联图谱;最终本项目开发的子系统实现为界面子系统提供展示所需的数据功能。核心目标是采集并研究分析互联网金融平台网站特征,实现平台不同金融业态类型的初步分类,实现平台多维度标签标识。
主要模块划分如下:
事前摸底<总体态势、平台画像、互金地图、今日新增>
事中监测<运行监测、资金监测、舆情监测、网安监测、异常检索>
事后跟踪<事件发现、事件跟踪、舆情溯源>
综合分析<平台排行、生命周期、专报定制>
业务探索<虚拟货币、尾盘交易、网络催收>
综合管理<异常审核>

hummer智能采集云平台<内部>
软件环境: tomcat7.0、redis2.4.5、mysql、phantomjs、linux、NFS
硬件环境:windows7
开发工具:idea
项目职责:整体完成项目的需求分析、数据库设计、详细设计、框架搭建,任务分配,开发。
项目描述:主要划分为以下三个子系统
任务配置管理系统:
1-->.手动配置
单页采集<抓取页面快照展示、配置单页任务>
列表+分页采集<抓取页面快照展示、配置列表+分页任务>
列表+详情采集<抓取页面快照展示、配置列表+详情任务>
数据展示<及时显示任务采集数据>
2-->.自动采集
列表+详情+自动发现采集<自动发现网页列表+详情主要区域、采集数据分字段存储>
网页快照下载
网页内链抽取
网页文本抽取
3-->.任务周期定时
4-->.任务异常上报
5-->.采集数据对外<API调用+文件下载>
任务分发系统:
1-->.接收任务
2-->.下发任务<下发至执行机任务数最小节点>
3-->.监测任务执行状态
4-->.任务NFS文件存储系统管理<任务数据默认留存20天>
任务执行采集节点:
1-->.执行任务<分解任务步骤、采集>
2-->.任务数据文件生成
3-->.任务执行状态上报
4-->.任务超时重试
5-->.任务日志+截图留存
6-->.失控phantomjs进程处理。

全国企业风险查询系统<内部>
软件环境: tomcat7.0+nginx负载均衡、redis主从、mysql集群、es集群、keepalived双机热备
硬件环境:windows7
开发工具:idea
项目职责:整体设计,数据采集,分析处理,接口开发。
项目描述:企业风险库,针对全国范围内的企业行政许可,行政处罚等其他信息,建立起风险库。系统主要分为四个大的模块,双公示信息采集模块,工商信息采集模块,裁判文书信息采集模块,数据去重入库模块。支持对企业许可,处罚等信息,定期分析,统计,数据展示,以及系统后台对企业风险库业务运营的管理。
主要模块划分如下:
1)双公示数据采集<爬取信用中国各省市县信用许可与信用

团队情况

  • 整包服务: 微信公众号开发   微信小程序开发   PC网站开发   H5网站开发   App开发   WebApp开发   DBA开发   其他开发   
角色 职位
负责人 高级java开发工程师,高级数据采集工程师
队员 产品经理
队员 UI设计师
队员 iOS工程师
队员 安卓工程师
队员 前端工程师
队员 后端工程师

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    2
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服