ID:291902

lunatic

爬虫工程师

  • 公司信息:
  • 上海聘贤科技集团有限工程师
  • 工作经验:
  • 2年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 下班后
  • 可工作日远程
  • 所在区域:
  • 上海
  • 浦东

技术能力

◼ 熟练掌握 Web 前端网页结构(Javascript、HTML、CSS)。
◼ 熟悉 scrapy 框架,flask 框架,requests,selenium等常用包、模块;
◼ 熟悉常见的划块,点选验证,等技术,熟悉爬虫的工作原理,了解常见的反爬手段;
◼ 熟悉整个爬虫的实现流程,有反爬经验,常见的 js 逆向反爬、字体加密反爬、MD5、base64 加密;
◼ 熟悉掌握 Fiddler 抓包工具,Appium自动化工具;
◼ 熟练掌握 lxml,jsonpath,正则,Beautiful Soup;
◼ 熟悉掌握关系型数据库(MySQL)以及非关系型数据库(mongodb);
◼ 有手机 APP 移动端抓取经验;

项目经验

 项目名称:1688 平台
 开发时间:2022.09-2022.09
 项目描述: 抓取 1688 平台电子产品厂家公司信息
 技术要点:
1. 数据接口参数存在随机改变参数,为 js 动态加密参数;
2. 主要采用了,execjs,node.js,requests,jsonpath,json,time,re,openpyxl 模块;
3. 分析处理可变参数,发送请求
4. 得到数据文本转换 json 数据;
5. 抽取所需数据写入数据表;

 项目名称: 抓取淘宝评论
 开发时间:2022.06-2022.06
 项目描述:笔记本电脑的产品评论
 项目职责:采集数据 ,整合处理图文
 技术要点:
1. 使用scrapy框架实现异步抓取数据;
2. 运用IP代理池,以防淘宝检测并限制IP访问;
3. 运用 jsonpath 抽取目标数据,结构化新的 json 数据
4. 抽取所需数据写入MySQL数据库

 项目名称: TED视频字幕
 开发时间:2022.09.01
 项目描述:商业演讲字幕
 项目职责:采集数据 ,整合处理内容
 技术要点:
1. 使用selenium框架实现抓取数据;
2. 运用selenium动作链实现数据获取;
3. 运用 xpath抓取数据并用openpyxl将数据保存为xlsx文档

 项目名称: 大众点评旅游景点评论抓取
 开发时间:2022.010.08
 项目描述:旅游景点评论抓取
 项目职责:采集数据 ,整合处理内容
 技术要点:
1. 使用scrapy框架实现抓取数据;
2. 运用IP代理池,以防检测并限制IP访问;
3. 替换大众点评评论中的加密加密文字
4. 并使用xpath进行抓取数据

案例展示

  • 大众点评景点评论

    大众点评景点评论

     项目名称: 大众点评旅游景点评论抓取  开发时间:2022.010.08  项目描述:旅游景点评论抓取  项目职责:采集数据 ,整合处理内容  技术要点: 1. 使用scrapy框架实现抓取数据; 2. 运用IP代理池,以防检测并限制IP访问; 3. 替

  • 淘宝产品评论

    淘宝产品评论

     项目名称: 抓取淘宝评论  开发时间:2022.06-2022.06  项目描述:笔记本电脑的产品评论  项目职责:采集数据 ,整合处理图文  技术要点: 1. 使用scrapy框架实现异步抓取数据; 2. 运用IP代理池,以防淘宝检测并限制IP访问;

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服