熟悉Python,Linux 操作系统,熟悉网络和系统编程,熟悉Git。熟悉SQL。
项目经历:
1.医疗问答机器人(创新工场)
基于Python构建Neo4j图形数据库,构建医学药品分类知识图谱KG;
2.英国超市的数据转换 基于AWS(S3,dynamoDB,cloudwatch)+Bitbucket+Docker+Jenkins
根据英国客户需要,开发相应接口,将源数据转换成目标数据,上传至AWS并完成测试。
3.同城票据网 实时数据爬取 requests+Django+mongodb+html+javascript+css
模拟发包,通过接口,获取该网站里的实时数据,存储到mongodb中,在views.py处理数据,
进行过滤,清洗,在templates渲染。(难点:保证数据不遗漏,页面数据更新较快)
量级:每天大概15万数据,4G内存的照片
4.票易安 数据爬取 selenium+pillow
爬取银行信息,获取票面照片,使用百度ORC API接口识别图片,获取关键信息,导入Excel
中。
熟悉反爬机制,处理过各种验证码,能够实现模拟登陆。了解Scrapy,Scrapy-Redis。
自学部分:
掌握基本的机器学习算法,了解Scikit-Learn,Numpy,Pandas和Matplotlib,了解神经网络。
1).基于Tensorflow,使用卷积神经网络对MNIST数据集分类;
2).使用NLTK包进行微博情感分析,Bayes算法训练模型,对数据进行处理清洗;
3)美国总统大选民意调查数据统计(Kaggle);
---------------------------------------------------------- 获奖 及荣誉
熟悉Python,Linux 操作系统,熟悉网络和系统编程,熟悉Git。熟悉SQL。
项目经历:
1.医疗问答机器人(创新工场)
基于Python构建Neo4j图形数据库,构建医学药品分类知识图谱KG;
2.英国超市的数据转换 基于AWS(S3,dynamoDB,cloudwatch)+Bitbucket+Docker+Jenkins
根据英国客户需要,开发相应接口,将源数据转换成目标数据,上传至AWS并完成测试。
3.同城票据网 实时数据爬取 requests+Django+mongodb+html+javascript+css
模拟发包,通过接口,获取该网站里的实时数据,存储到mongodb中,在views.py处理数据,
进行过滤,清洗,在templates渲染。(难点:保证数据不遗漏,页面数据更新较快)
量级:每天大概15万数据,4G内存的照片
4.票易安 数据爬取 selenium+pillow
爬取银行信息,获取票面照片,使用百度ORC API接口识别图片,获取关键信息,导入Excel
中。
熟悉反爬机制,处理过各种验证码,能够实现模拟登陆。了解Scrapy,Scrapy-Redis。
自学部分:
掌握基本的机器学习算法,了解Scikit-Learn,Numpy,Pandas和Matplotlib,了解神经网络。
1).基于Tensorflow,使用卷积神经网络对MNIST数据集分类;
2).使用NLTK包进行微博情感分析,Bayes算法训练模型,对数据进行处理清洗;
3)美国总统大选民意调查数据统计(Kaggle);
---------------------------------------------------------- 获奖 及荣誉