ID:174176

lengend123_77254

研究生

  • 公司信息:
  • 某985
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 广州
  • 番禺

技术能力

某985在校研究生,善于数据挖掘,数据分析,数据爬虫,空余时间较多,赚点外快。
Python中re、requests、beautifulSoup等库的熟练使用,Python爬虫框架Scrapy的熟练使用,Python爬虫伪装中代理IP、UserAgent的熟练使用,Python与scrapyt-redis分布式爬虫的基本使用能熟练掌握
Python科学计算生态工具包(Numpy,Scipy,Pandas,Scikit-Learn 等),并结合Hive,Hbase,Redis,Spark 做数据挖掘以及工程化。
熟悉各种常用机器学习模型,熟悉数据处理分析技术,并亲手实现过神经网络,随机森林,adaboost 等。

项目经验

商品点击预测项目

利用pyspark读取、合并超过100GB的商品以及用户点击数据,并且进行数据清洗,如剔除异常数据点
根据word2vec模型提取商品中的文本信息,构建词向量特征;使用SMOTE解决非平衡数据的问题
使用python训练xgboost+lr分类模型,并通过交叉验证对模型进行调参优化


分布式爬虫爬取北京市企业信用信息网

这个项目是通过scrapy-redis搭建分布式爬虫爬取企业信用信息网公布栏,爬取列表页每一项下的子页获取数据
首先爬取首页后通过xpath匹配每个的信息块的span后构建请求,并通过scrapy.Request发送请求,用xpath匹配需要的信息。
同时循环创建下一页请求的form表单,通过scrapy.FormRequest发送POST请求。所有爬取的信息缓存到redis数据库中,
最后通过编写python脚本将redis数据库中数据读取出来加入mysql数据库。
其他爬取的网站:搜狐新闻、豆瓣、腾讯新闻网

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服