爬虫,数据分析,机器学习,图片验证码破解等
熟练在Linux环境下使用Python面向对象编程,遵循PEP8编程规范,具有良好的编码习惯
熟练使用 Django,Flask web 开发框架,熟悉 Restful 设计风格
熟练使用 Mysql,Redis , Mongodb数据库, 了解基本的设计,调优原则
熟悉使用 Celery 服务器处理异步任务,crontab定时任务,Elasticsearch,FastDFS,Docker
熟悉掌握Python多线程, 多进程,协程编程
熟悉 HTTP/HTTPS、TCP/IP 等网络通讯协议,了解WS、WSS协议
熟悉 Git 分布式版本控制系统, Uwsgi+Nginx 服务器项目部署
熟悉常用的Python数据分析相关库, 如scikit-learn,numpy, pandas, matplotlib, 并使用echartsjs可视化
了解分类,回归,聚类,降维,模型选择等常见机器学习算法的产生的原因,数学推导,参数的意义
了解TensorFlow框架和jieba工具包,对图片验证码识别,手写数字,文本分析,唐诗生成有自学过相关项目案例
了解数据结构与算法,计算机组成,微机以及网络的基本原理
有C++和java基础,有虚幻4游戏引擎开发经验
酒店高价值顾客预测,新闻批评爬下去,并进行建模,分类
1.根据某渠道获取全网新闻数据(SogouCA)
2.数据探索和分析,数据预处理,对数据清洗和缺失值进行处理
3.利用 jieba 分词进行关键字提取,使用 LDA 构建主题模型可直观展示每篇文章的关键词
4.把分类标签和分好词的文章转换成向量,使用 MultinomialNB 分类器建模并作分类和预测
5.对数据进行探索及清洗,对数据进行数据标准化
6.利用 K-means 聚类算法,设定聚类个数 K,最大迭代次数,根据欧氏距离进行聚类
7.利用 pandas 和 matplotlib 绘制不同客户群的概率密度函数图,通过图形直观比较不同客户群的价值,通过聚类可视化工具 TSNE 直观展示聚类效果图