职位ID:106852

爬虫推特,NLP处理文本

  • 合作方式:
  • 项目制 全国远程
  • 预估日薪:
  • 500
  • 预估总价:
  • 500元
  • 预估工时:
  • 1天
  • 所在区域:
  • 全国远程

需求描述

爬取推特一个指定用户的信息,包括这个用户的用户名,还有@后面的东西,个人简介,加入推特的时间,地理位置,这个用户的推特ID(每个用户还有一个的纯数字的),以及最近的3000条推特,推特内容我只需要文字内容,带链接的或者视频图片的不需要,纯文字内容需要,再处理一下文本,把一些文本无关的内容去除,比方说,“How about a game to start your Saturday morning! See if you can stop @TroyTheMascot in his outline! https://t.co/Zu7fKLCm4W” 只需要的部分是“How about a game to start your Saturday morning! See if you can stop @TroyTheMascot in his outline!” 链接的部分不要。

然后就是这个工作重复做了。我需要这个用户关注的人的如上资料,还有这个用户关注的人的关注的人的如上资料。就是三级跳。

然后输出我想要一个csv 文件

先是这个用户的个人信息:id,用户名,个人描述,地理,加入时间,有一个user_level,第一个指定id的人是level1,他关注的人是level2,他关注的人的关注的人是level3. Parents_name 是这个用户是谁关注的。

再就是这个用户发的所有文本内容的推特,一行一条,这行就不要个人描述,地理位置加入时间的了。

之后爬取完成后,首先对目标用户的爬取的所有推特进行关键字选取,加上tf-idf,选出最能代表这个用户的20个词.然后对level3级别的所有用户进行同样的操作,找出这些用户跟目标用户的关键字匹配程度。在一个,对location进行计算,根据推特个人资料中地点的名称,得到两个用户的地理距离。再对指定用户跟level3的用户进行个人介绍的关键字提取,文本相似度看。根本如上三个元素,给指定用户推送3个最可能的朋友。

信用行为

  • 发布项目
    2
  • 订单总数
    0
  • 退款单数
    0

完善简历

工程师完善技术能力和项目经验,更易接到订单

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信客服

需求方请加需求方端客服沟通需求,工程师请加工程师端客服浏览推送职位

需求方端客服
工程师端客服
联系需求方端客服