ID:114426

数据挖掘&算法工程师

  • 公司信息:
  • 支付宝
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日远程
  • 所在区域:
  • 上海
  • 全区

技术能力

良好编程&问题解决能力:用python爬取数据&后台算法开发经验,熟悉elasticsearch、tornado、request、redis、lxml、supervisor等工具
熟练在hadoop、mysql、mongo数据库中进行数据准备
使用自然处理算法处理新闻数据
使用分类算法对用户进行画像
良好的英文能力:英语六级、能无障碍阅读外文技术资料、日常口语交流

项目经验

机器人问答系统
1、知乎爬取
项目目标:爬取知乎的所有问题及答案
用到的软件及主要python包:python2.7、mysql、redis、beautifulsoup、requests、lxml、rq
功能模块:
    1.1、知乎模拟登陆
    1.2、构建mysql数据库及表格
    1.3、通过话题id爬取知乎所有的问题(问题id、问题标题、该问题关注人数,该问题回答数量、更新问题时间、爬取问题时间、是否爬完该问题下的所有答案)
    1.4、通过rq分布式爬取知乎所有的答案(问题url、问题的标题、问题的描述、问题所属的话题、答案url、回答用户id,回答内容、赞的数量、用户主页url、爬取时间、更新时间)
2、mysql数据导入到elatisearch中,根据用户问题与知乎问题匹配度,返回一个相关答案

新闻爬取&后台api开发
项目目标:为头条百家新闻客户端提供数据支持
用到的软件及主要python包:python2.7、scrapy、lxml、tornado、mongo
    1、门户网站新闻爬取(地球图辑队、谷歌新闻、观察者网、网易图片新闻)
    2、爬取网易新闻、凤凰网新闻的评论(用新闻标题在百度、Google中搜索)
3、根据前端需求提供一些api接口(用户登录、新闻详情页、新闻主页等)

EAY(夫妻账号对预测)
  
完成支付宝账号对之间发生的行为(代收货、代充值手机、代购买母婴类商品等等)数据准备
 用sas建立logistic回归模型(ks为40%左右)

新闻聚类(将相似的新闻聚成一个类)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服