某985在校研究生,善于数据挖掘,数据分析,数据爬虫,空余时间较多,赚点外快。
Python中re、requests、beautifulSoup等库的熟练使用,Python爬虫框架Scrapy的熟练使用,Python爬虫伪装中代理IP、UserAgent的熟练使用,Python与scrapyt-redis分布式爬虫的基本使用能熟练掌握
Python科学计算生态工具包(Numpy,Scipy,Pandas,Scikit-Learn 等),并结合Hive,Hbase,Redis,Spark 做数据挖掘以及工程化。
熟悉各种常用机器学习模型,熟悉数据处理分析技术,并亲手实现过神经网络,随机森林,adaboost 等。
商品点击预测项目
利用pyspark读取、合并超过100GB的商品以及用户点击数据,并且进行数据清洗,如剔除异常数据点
根据word2vec模型提取商品中的文本信息,构建词向量特征;使用SMOTE解决非平衡数据的问题
使用python训练xgboost+lr分类模型,并通过交叉验证对模型进行调参优化
分布式爬虫爬取北京市企业信用信息网
这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网