ID:264025

一只余光萧瑟的scrapy_小白

大数据采集工程师

  • 公司信息:
  • 广东财贸职业学院联想产业学院
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 所在区域:
  • 广州
  • 番禺
  • 南村万博

技术能力

使用 scrapy 爬虫框架及模块 requests 爬取数据
使用 selenium 模拟登陆技术
使用 xpath、re 等进行页面解析
使用 mysql、redis、mongoDB 等数据库
使用技术破解常见的反爬机制

项目经验

项目一:招聘网站爬虫+招聘网站开发+数据分析 开发工具:PyCharm+python3
技术模块:requests、xpath、re、pymysql、线程池、flask 框架、echarts
项目描述:爬取兼职猫所有招聘信息数据,mysql 建模,数据清洗后进行存储,flask 服务端程序搭建,echarts 统计数据可视化
职责描述:
1、使用多线程爬取兼职猫招聘网站信息;
2、使用 xpath、re 进行页面分析并提取数据;
3、将清洗后的数据按照表结构保存到 mysql 表中;
4、使用 flask 框架模拟兼职网站,将数据展示;
5、前端可进行筛选查询、职位信息查看;
6、使用 sql+python 进行信息进行统计,使用 echarts 展示网站统计数据。

项目二:二手车信息爬虫+数据分析开发工具:PyCharm+python3
技术模块:requests、xpath、re、redis、线程池、mongodb 项目描述:爬取华夏二手车所有二手车信息,对数据进行统计(品 牌分析、二手车品牌占比、折旧率分析等)
职责描述:
1、使用 requests、concurrent 线程池,queue 队列抓取网页数据;
2、购买代理 ip,实现代理 ip 池,定期检测 ip 的可用性,维护代理 ip 池的质量
3.通过正则、xpath 等清洗网页内容并保存数据到 mongodb;

案例展示

  • 千里马

    千里马

    1.根据需求在网站采集相关数据信息 2.将采集下来数据进行清洗并查重 3.将采集到数据存入公司的数据库

  • 华夏汽车

    华夏汽车

    二手车信息爬虫+数据分析开发工具:PyCharm+python3 技术模块:requests、xpath、re、redis、线程池、mongodb 项目描述:爬取华夏二手车所有二手车信息,对数据进行统计(品 牌分析、二手车品牌占比、折旧率分析等) 职责描述: 1、使用 r

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服