前端技术:熟悉 Html、Css、Javascript、Jquery、Bootstrap 等 Web 前端技术。
后端技术:熟悉Django,Flask等web后端框架 。
语言:Python,MarkDown等。
数据库:熟悉 Mysql 及 Nosql。
网络编程: HTTP,TCP,UDP 协议。
爬虫:Requests、Urllib、Scrapy框架。
Python 库:Numpy、Matplotlib、Pandas、Scipy及机器学习库 Scikit-learn。
算法模型:线性回归、逻辑回归、决策树、KNN、分类聚类、时间序列等。
项 目 一:鲜花交易平台
项目描述: 该项目是一个线上鲜花交易的B2C平台,即时发布鲜花新鲜资讯和促销活动,为客户提供一站式购物服。采用MVT设计模式,分为用户模块,商品模块,购物车模块,订单模块和支付模块;其中采用Celery完成异步任务,Elasticsearch搜索引擎。短信验证码代码逻辑的编写;用户注册登录功能和短信发送。
技术实现:Djang + MySQL + Pymysql+Apache2
通过Django框架构建前后台应用,在model.py中分别构建用户类,商品类,商品类别类,订单类,订单详情类,收 货人信 息类,实现在Mysql数据库的建表,在views视图函数中分别建立商品,订单,分类,后台的views.py文件进行分类管理,降低耦合,在url路由函数中采用软编码的方式,方便系统维护,对Mysql存储进行优化
项目总结:花您鲜花通过对项目不断开发和优化,使我对MySQL数据库、Django框架和前端的一些技术有了更深刻的掌握,例如,防止慢查询和SQL注入,Django中view在逻辑交互中的逻辑错误,在Apache配置和代码逻辑中注意细节,一个小错误都可能浪费很长时间;
项目二:招聘信息数据爬取
项目描述:使用分布式爬取知名招聘网站,整站资源,爬取字段包含:岗位,工作地点,公司名称,薪资,发布时间,岗位详情,公 司详情,信息来源,分布式使用 redis 实现,底层存储 mongodb
项目技术:分布式使用 redis 实现,redis 中存储了工程的 request,item 信息,能够对各个机器上 的爬虫实现集中管理, 这样可以解决爬虫的性能瓶颈,利用 redis 的高效和易于扩展能够轻 松实现高效率下载使用 scrapy-redis 分布 式爬虫框架爬取数据避免爬虫被禁的策略:禁用 cookie,实现了一个 download middleware,不停的变user-agent使用正则获取网页职位 url,再次发起请求,职位详情页面信息采用的是 xpath 进行提取,存储到字段中
项目总结 : 项目中发现,数据最多显示 2000 条,并非整站资源,解决方法:通过分析条件搜索时 url 的变化,采用地域, 薪资,公司性质三个方面作为数据请求条件,这时数据显示低于 2000 页,即为整站资源
项目三:针对游戏数据库一定时期内各用户最后一次上线时的行为数据,分析出流失用户流失前的行为特点, 并预测出处于流失边缘的用户,并给予用户挽留措施的建议及意见。
数据清洗:使用 Jupyter notebook 编辑器利用 Pandas 公司业务环境范围内 TB 级的运营数据、用户数据及终端数据进行清洗,通过分组聚合、转换、合并、重塑,得到有效数据。
数据分析:利用 SQL 语句对数据仓库日常运营数据、用户数据、渠道数据及活动数据进行提取、进行多维度汇总整理、通过 Matplotlib 绘制相应的直方图、线型趋势图、占比图、散点分布图等,通过数据可视化呈现流失用户流失前的行为特点,初步分析用户流失的原因,输出相应分析报告,为公司业务决策提供相应数据支持。
数据建模:熟练多种算法建立数据模型,满足运营部门的需要,从而提升运营 KPI 水平,预测流失边缘用户。
利用综合评价法和目标优化矩阵法对各行为数据设定权重计算加权平均值后进行分类标注,将原始数据与数据类别组合到一起形成数据集。
利用决策树和逻辑回归模型对数据集进行训练、测试,并建立模型。
产品优化:分析用户在游戏各操作步骤中流失的各原因情况,定位问题所在,优化用户体验,提升玩家留存率, 降低用户流失率 。
报表体系搭建:理清公司数据构成,根据公司运营需要,抽样采集业务环境下多维需求,确定关键指标,定义数据并提取,搭建自动化数据需求报表,制作日报及周报。
角色 | 职位 |
负责人 | python开发部门 |
队员 | 产品经理 |
队员 | UI设计师 |
队员 | iOS工程师 |
队员 | 前端工程师 |
队员 | 后端工程师 |