编程能力:熟练掌握 Python,C语言,具备良好的编码习惯和代码质量意识
爬虫技术:熟练掌握 Scrapy、Requests、selenium 等爬虫框架工具,能够灵活运用。
数据提取优化:熟悉 Xpath ,正则表达式等提取技术。
数据处理:熟悉 Mysql 的基本语言及使用
大数据集群:了解 hadoop、spark、hive 等分布式集群搭建
数据分析技术:熟悉数据分析的 Numpy、pandas、pyecharts、matplotlib 等数据分析方法
有需求的可以加我微信,微信同手机号
基于稀疏判别分析和神经网络的语音识别
内容:
该项目提出了一种基于稀疏判别分析和神经网络的高精度语音识别技术。主要分为两
个方面,即语音识别中的特征提取和语音识别系统的搭建。主要具备的功能是对于语音识别模型的搭建、训练和测试,实现通过训
练完成的语音识别模型对传入的语音进行文字化的转化。
业绩:
在此项目中采用稀疏判别分析(SDA )来进行特征提取。相较于传统的线性判别分析(LDA),SDA 通过引入 L1正则化,限制模
型参数的大小和数量,得到更具有稀疏性、鲁棒性和可解释性的结果。
在语音识别模型训练和语音识别系统的搭建方面,采用 Tensorflow.keras 框架并通过 DNCC+CTC 模型来进行训练,以提高语音
信号的识别效果。
同时,为方便用户使用,采用 PyQT5实现 GUI 界面,使得语音识别技术更加易于操作。
印度作物数据分析
内容:
该项目主要是通过爬取印度04年到11年的作物数据,并通过数据处理、数据可视化进行印度作物数据分析,并通过分析结果提出
一些作物种植的建议。
内容:
1、数据准备:主要收集到了五个印度作物相关数据文件;
2、数据处理以及数据分析:主要运用 numpy、pandas、matplotlib、plotly 等数据处理、数据分析方法;
3、分析结果得出结论。
业绩:
本项目通过 Python 语言,运用数据处理、数据分析方法,根据不同作物在不同州的产量、不同年份不同作物的生产率、不同作物
的种植成本、州产量等指标来进行数据可视化,并通过绘制出的表格、动态图来对印度作物的种植得出相对应的结论以及可以提出
的建议。
东方财富网上证A股、美国市场中国概念股股票数据爬取
内容:
该项目是爬取东方财富网的股票数据信息
内容:
1、主要利用python爬虫中的requests、json和openpyxl等第三方库进行数据爬取
2、分析东方财富网的html信息,得到需要的数据所在位置,通过json数据提取语法 提取到数据
3、将得到的数据保存到excel文件中
业绩:
本项目通过requests、json等相关第三方库进行东方财富网的股票数据爬取、并加入相应的反爬措施,包括cookies、UA、para
ms等去模拟正常用户登录网站,将得到的数据进行保存,以便于后续的数据分析与挖掘。
selenium抓取苏宁图书数据
内容:
该项目是通过爬虫自动化框架selenium实现苏宁易购网站的图书数据爬虫
内容:
1、利用selenium、lxml、re、json等python爬虫第三方库
2、分析苏宁易购图书数据网页html、并通过xpath得到需要的数据,在本项目中主要爬取了书名和价格两个数据
3、将得到的数据进行文件的保存 主要保存方式有mongodb、json、excel表格
业绩:
本项目通过selenium框架,绕过js,实现对苏宁易购电商网页图书数据的爬取,并将获得的数据保存在json文件中,能够为后续
的数据分析提供完整数据
内容: 该项目提出了一种基于稀疏判别分析和神经网络的高精度语音识别技术。主要分为两 个方面,即语音识别中的特征提取和语音识别系统的搭建。主要具备的功能是对于语音识别模型的搭建、训练和测试,实现通过训 练完成的语音识别模型对传入的语音进行文字化的转化。 业绩: 在此项目中
内容: 该项目根据资金流入流出历史数据,对蚂蚁金服公司余额宝资金未来30天流入流出的预测问题进行研究。主要任务是根据 1、用户信息表 2、用户申购赎回数据表 3、余额宝收益率表 4、上海同行业拆解利率表四个数据表中的时间序列数据信息进行预测,主要目的是预测所有用户每天的
此项目是通过selenium进行的网页交互的数据爬取,主要爬取了商品的店铺名称、京东价格、正式商品名称、商品品牌、商品编号等数据,其中对网页进行了分析并通过xpath提取到需要的数据。利用openpyxl、pymongo进行了数据的表格、数据库的存储