业技能:
1. 程序语言:能熟练使用python,java,会使用django web 框架,scrapy爬虫框架和spring boot web;在校期间使用c语言完成计算机网络,操作系统,等课设项目;学习过c++;能读懂javascript脚本语言并简单编写函数...
2. 传统数据库:能熟练编写sql语句,了解相关mysql引擎与数据表,sql语句优化
3. nosql数据库:熟练使用redis并能搭建redis集群实现分布式,搭建redis消息队列,熟悉redis各数据类型;了解并在工作中使用过neo4j和mongodb数据库
4. 数据结构与算法:熟悉链表,堆,栈,树,图等数据结构,会分析各类数据结构增删查改时间复杂度,空间复杂度;了解并能较熟练使用各种数据结构的动态规划,递归和分治算法等...
5. 机器学习算法:了解部分常用机器学习算法数学原理推导并转化为代码;会使用python自带sk-learn库调用对应机器学习算法及参数调优,能快速将现有机器学习模型投入实际中使用。
6. 运维部署:熟悉常用linux指令;能使用docker容器运维部署项目
7. 协同开发:会使用gitlab进行小组协同开发,了解常用git(版本控制工具)指令
垂直搜索引擎数据采集系统
爬虫架构设计,爬虫代码编写与维护
所在公司: 重庆信科通信工程有限公司
项目描述: 针对本行业的垂直化搜索引擎
项目职责: 1. 设计分布式爬虫,利用scrapy框架对特定网站上的数据进行爬取;
2. 通过docker运维爬虫项目,并搭建监控平台;
3. 网页解析: 针对不同网页设计不同解析规则(xpath,bs4...);
4. 反爬机制: 对部分有反爬机制的网站进行反爬处理(验证码,代理IP池...);
5. 网页去重: 对爬取的网页进行去重处理(scrapy-redis,redis-cluster)
6. 验证码处理: OCR模块识别,打码平台
7. 结构化数据储存: 设计数据实体类字段储存提取自网站的数据
8. 数据清洗: 对数据格式进行转化,清洗数据,使数据与mysql中数据类型对应
9. 数据提取: 编写正则表达式提取更多的数据信息
项目业绩:
1. 设计分布式爬虫整体架构;
2. 爬虫项目,scrapyd服务运维;
3. 搭建维护Redis集群;
4. scrapy爬虫脚本结构设计及编写;
5. 网页去重,防封策略,网页解析,验证码处理;
6. 编写python脚本清洗数据,储存数据,结构化数据提取;
客户关系管理系统(crm) 2018.12-2019.01
后台数据处理
所在公司: 重庆信科通信工程有限公司
项目描述: 公司内部客户关系的可视化展示与分析
项目职责:
1. 在linux云服务器搭建neo4j图形数据库
2. 实现数据库从sql server到neo4j图形数据库的同步
3. 抽取数据并实现数据转换
4. 为数据可视化展示提供web接口
项目业绩: 1. 数据同步,将数据从sql server同步到neo4j图形数据库
2. neo4j sql语句编写并测试
3. 数据转换,将查询自neo4j的数据集转化为json数据
4. 使用java spring boot框架整合后台项目,为d3数据可视化提供数据接口
项目经验
办公流程自动化 2019.11-至今
办公流程需求分析与设计,编写脚本实现自动化部分流程
所在公司: 德勤华庆商务服务有限公司
项目描述: 办公数据多,人工录入繁琐,采用流程自动化(rpa)以减少办公人员负担
项目职责:
1. 熟悉对应流程,拟定相应需求
2. 跟踪流程页面从登陆到结束的跳转与转换
3. 数据文件按结构读取
4. 自动导入数据到流程
项目业绩: 1. 追踪流程,以此设计脚本访问页面的过程
2. 编写对应代码,从进入网站并自动追溯到流程提交页
3. 利用python内置工具(pandas等),结构化提取excel等文件中的数据
4. 根据页面对应标签,模拟浏览器行为填写数据