ID:327002

数据分析师

  • 公司信息:
  • 逸盛科技
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 杭州
  • 西湖

技术能力

该项目需要爬取百度新闻推荐版的内容数据,要对不同板块的数据占比进行分析比较,需要通过 分析网页结构,对不同的板块分类的数据进行分类爬取存储,完成数据清洗工作,并进行定时爬取。
责任描述:
1.根据公司需求,负责爬取互联网,科技,财经分类,使用用Scrapy完成代码,用xpath对网页结构进行分析;
2.负责对爬取的数据进行清洗去重工作并存入数据库,爬取完成后通过邮件通知其他开发人员;
3.使用Redis分布式爬虫,充分利用服务器资源,提高爬取效率,开启定时爬虫,定时定点爬取。

项目经验

项目名称:小红书数据爬取
项目简介:
根据公司需求,要获取小红书APP推荐中的美食信息,例如:封面logo,标签,文章标题,文章内容,文章标签,文章内容URL等。
责任描述:
1.制定爬取策略,手机APP端的小红书带有不可逆的加密策略,转向微信公众号内的小红书APP爬取数据,使用mitmweb抓取请求过滤请求,获取JSON数据。
2.使用代理IP请求重构后的URL,将请求头中的auth,auth-sign保存到Redis中。
3.使用数据库去重的方式对数据去重,设置请求间隔防止过度请求IP被封。
4.采用定时爬虫任务,每日爬取一次。

案例展示

  • 股票数据爬取

    股票数据爬取

    爬取东方财富有最全面的股票信息,通过代码获取沪深股票, 港股股票, ETF股票信息,然后合并, 最后保存为csv文件。后续可将数据进行可视化化分析,更加直观的展现

  • 电影批量下载

    电影批量下载

    通过代码对电影首页进行爬取,获得所有电影的ID信息,通过组件新的网址进入每个电影的下载界面,再同意请求批量下载

  • 抖音,快手视频、评论批量爬取

    抖音,快手视频、评论批量爬取

    可以通过输入博主主页网址,来批量获取其发布的视屏,以及视频的点赞、收藏等数据,以及视屏下面的所有评论,包括回复、每条评论的点赞数等等

  • 小红书评论数据爬取,以及附属数据

    小红书评论数据爬取,以及附属数据

    爬取小红书博主的帖子,评论等各种数据,支撑图标导出到sql数据库进行数据分析,也可以添加实时监控来观察某一位博主的帖子情况

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    1
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服