ID:164332

Louis🏸

python工程师

  • 公司信息:
  • 没有
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 周六
  • 周日
  • 可工作日远程
  • 所在区域:
  • 广州
  • 全区

技术能力

1利用python.根据需要爬取数据进行需求分析,遇到防爬从的网站,则运用防爬虫的手段。
2.利用python通过request,scrapy,xpath,re等技术手段编写爬虫程序进行内容抓取。
3.利用flume对数据进行数据收集和储存,最后上传到hdfs服务器上。
4.对抓取到的数据进行数据清洗过滤,方便后面使用。
5利用sqoop上传到mysql的数据库上。
6.web前端数据可视化,搭建本地服务器,对数据进行可视化处理,饼状图,柱状图等等。

项目经验

爬取招聘网信息,旅游网信息网,游戏皮肤信息等等,对于你想要的信息都可以爬取出来
微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。

把爬出来的数据可以传进mysql数据库最后可以进行数据化分析最后制作成可视图。
1.全国上市汽车公司的注册地,上市日期,总利润,净利润,业务类型,最后依次可视化了每个业务类型有多少家公司,
注册地分布在哪个地区,还有前六名公司的净利润图。

2. 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet ,采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封。

3.知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo

4. Bilibili用户爬虫。总数据数:20119918,抓取字段:用户id,昵称,性别,头像,等级,经验值,粉丝数,生日,地址,注册时间,签名,等级与经验值等。抓取之后生成B站用户数据报告。
5.新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服