熟练 python 语言
熟练 tornado, django 框架
熟练 mysql, mongodb 和 redis 数据库
熟练 nginx, uwsgi
熟练 ELK 技术
熟练 celery 异步任务队列
熟练 shell, awk
熟练 scrapy, scrapy-redis 爬虫
熟练 app 爬虫 appium, mitmdump
熟练 docker , thrift rpc
了解 Go语言
了解大数据组件 spark, hadoop, hive
2018.05 - 至今 蓝羚网络科技 (北京 ) 有限公司 python 数据开发工程师
项目名称 : Ajmall
项目描述 : Ajmall 是个电商app, 主要销售衣服, 鞋子, 包, 饰品等日用商品
实践内容 :
1、基于 scrapy 的电商网站爬虫
使用scrapy-redis 搭建分布式爬虫系统, 爬取1688网站店铺信息
asyncio, aiohttp异步爬取商品详情页面, 大大提高爬取速
appium, mitmdump配合, 模拟人工操作爬取shein, fordeal等竞品app
爬取的商品数据存储在mongodb数据库, 每4个小时爬取全量40w左右商品数据,更新商品信息
通过限制频率, ip代理, 模拟浏览器等应对反爬
2、Thrift RPC 服务搭建 , 为 Ajmall 提供原始商品数据
爬取的数据需要提供给业务组同学,转化为自己的商品数据, 在app上展示
业务组使用mysql数据库, 开发语言java, 综合考虑使用RPC进行数据同步
3、CDH 数仓服务
考虑到数据量越来越多, 搭建数仓进行数据分析
3节点的centos 机器搭建集群
通过sqoop 定时把业务mysql数据同步到hive 表通过 load data 把日志文件 定时导入hive 表
spark 程序读取hive
表数据进行MR操作, 结果存入mysql
使用开源BI工具superset 进行可视化分析
2017.05-2018.05 北京流体网络科技公司 python工程师
项目名称: 闪电盒子
项目描述: 闪电盒子是一款内容聚合类app, 有信息流服务, 小说, 电影, 视频等资源, 用户还可以做做任务领取红包.
技术上
1, 使用flask 框架
2, 阿里云 Mongodb 复制集数据库, redis 数据库,
3, cdn缓存服务器, 存储apk, 图片, js,css等文件
4, 阿里云SLB 负载均衡后端4台服务器
5, nginx, uwsgi 部署服务, celery 异步队列处理耗时任务
6, elasticsearch 存储客户端上报的埋点数据, 通过kibana分析用户行为
我主要负责的任务是
1, 业务方面的api接口开发,
2, 服务器数据库的维护和设计,
3, 用户行为的数据分析
4, 头条, 快手等平台 投放广告
项目链接:http://www.shandianhezi.com
2015.09-2017.05 艺术云朵信息科技(北京)有限公司 python工程师
项目名称: 买买艺术
项目描述: 开发的一个线上艺术品交易的app买买艺术, 公司签约艺术家, 通过他们的授权出售或租赁原作的复制品.
技术上,
使用阿里云服务器
使用django框架
数据存储采用阿里云mysql
使用阿里云 oss存储图片, js, css文件
使用redis做缓存
使用celery做任务队列, 负责发推送, 发邮件, 上传图片, broker使用rabbitmq
对接微信, 支付宝, 开发在线支付功能
使用uwsgi, nginx部署
我主要负责 图片处理, 订单管理, 在线支付,数据库,服务器维护的工作