熟练使用 Webmagic、Scrapy、Request-html、Selenium、Puppeteer 等爬虫框架,熟练使用 Flask 框架、简单使用 springBoot 对数据接口进行开发,对于数据分析使用 Pandas 进行分析并通过 Echarts、FineBI BI 进行图表绘制及数据展示,熟练使用 Fiddler 对网页、手机 APP、微信小程序等接口进行破解抓包,使用 kettle 进行数据清洗作业开发。掌握并使用 Linux 服务器进行作业集群部署与调度,使用基于 redis 的 redisGraph图数据库对热点数据进行图查询展示,对大数据框架 Hadoop,spark,等有所了解并可使用 python API 进行简易作业开发,并能使用 python 版本 mrjob,dpark等进行作业调度开发。
陕西省物流集团-陕西数图行信息科技有限公司
【陕西省商机信息采集】
使用 scrapy 框架、selenium框架对陕西省内20多个招标类网站信息持续进行采集,并使用flask搭建公司内部商机信息平台,对接钉钉消息推送,让销售部门能第一时间掌握整个陕西省最新商机情况。其中对最核心商机平台进行了破解:中国采购招标网爬虫采集破解
开发技能::Python scrapy框架,Mysql数据库,selenium,flask框架
【陕西省工会城市困难职工解困脱困数据分析】
对陕西省内11个地市,108个区县的城市困难职工数据进行100多项维度统计分析,产出多项数据报表,并为《陕西省解困脱困报告》提供数据分析结果支撑。
开发技能:Mysql数据库,Davinci数据报表
【西安市特种设备电梯数据库分析】
对西安市内特种设备监督管理局所管辖西安市电梯数据库进行优化分析,并提供优化建议报告;对于特种设备电梯数据与其他(锅炉、游乐场等共计8项特种设备)数据进行分析处理,并采用kettle工具进行历史数据库与新版本数据库进行迁移。
开发技能:Mysql数据库,kettle工具
【物通陕西平台数据工作建设】
作为陕西省第一个大宗商品物流平台,提供多方面数据支持,包含统计局、年鉴网、知县网等108个若干数据类网站进行数据采集与清洗,对于合法合规数据进行平台化处理,对陕西大宗商品物流提供强有力数据支持服务。针对持续性数据更新工作,自研一套数据采集系统,持续监控陕西省内多项政府类网站,垂直行业类网站等,做到数据实时更新。
开发技能:Mysql数据库,kafka、MongoDB、ocr图片文字识别、Linux服务器、davinci数据驾驶舱
在大数据领域及软件开发科技服务内容方面自工作以来,先后在国内专业技术论坛——CSDN技术论坛发布技术研究类博客达43篇,博客累计访问量达189347次、累计粉丝人数108人、国内博客排行榜排名43567位,在全球技术开源代码平台累计发布开源代码24次,其中2020年开源的两个代码
系统主要分为: 1、公司内部云文档管理,按部门角色划分,支持在线查看,权限分配,批量上传与下载等功能。 2、公司云知识分享平台,各部门可灵活配置需要日常关注的热点站点,背后采用灵活数据采集方式对站点进行跟踪,并自动采集推送。 3、大屏统计展示,对日常各类数据采集源采集数据量