ID:389160

sjj 身份已认证

  • 公司信息:
  • 工作经验:
  • 1年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 常州
  • 全区

技术能力

本人精通 Python 爬虫,以下是在网页数据采集、反反爬虫体系以及工程化架构能力等方面的具体掌握情况:
(一)网页数据采集
1.HTML 静态解析技术:能熟练运用 BeautifulSoup、lxml 解析库结合 XPath/CSS 选择器实现精准数据定位。
2.处理动态内容:掌握 JavaScript 逆向工程,可破解 AJAX 动态加载、WebSocket 通信等复杂场景。
3.掌握浏览器自动化工具:能基于 Selenium、DrissionPage 等工具构建浏览器自动化解决方案,支持 SPA 应用完整生命周期数据采集。
(二)反反爬虫体系
1.破解字体映射加密:能通过 WOFF 字体映射解析、字符坐标动态匹配等方案破解字体映射加密。
2.解决风控滑动验证码:能使用超级鹰等解决风控滑动验证码。
3.防止 IP 封禁:能构建动态 IP 代理池,防止服务器对频繁请求封禁 IP。
(三)工程化架构能力
1.使用 Scrapy 框架:能使用 Scrapy 框架深度定制分布式爬虫架构,开发中间件支持自动重试、请求优先级调度等功能。
2.高性能处理:采用多线程/多进程 + 协程方案实现 IO 密集型任务优化,结合 Redis 实现分布式任务队列。
3.数据存储方案:根据业务场景灵活选用关系型(MySQL)、文档型(MongoDB)、内存型(Redis)数据库,设计千万级数据存储架构。

项目经验

项目一:某品牌商业情报采集。在该项目中我使用scrapy框架对赢*品牌库品牌名,开店方式,合作期限等多个字段进行数据抓取,保存入MongoDB数据库。在scrapy框架构建过程中,我二次研发中间件组件,通过重写Request调度机制实现post请求发送,具备对已有模型框架二次开发的能力。
项目二:某电商平台商品数据采集。在该项目中我采用request库对拼**平台数码类产品进行数据采集,通过改变post请求中的表单参数的关键部分实现对多个页面的数据获取,过程中突破平台动态加密参数限制。
项目三:某音乐平台评论区留言采集。在该项目中,我对网**音乐平台歌曲评论进行抓取,过程中对网页歌曲名的JS生成参数通过逆向破解,并解决了网页中存在的嵌套问题。

案例展示

  • 药物临床平台数据采集

    药物临床平台数据采集

    本项目运用Selenium浏览器自动化控制工具,针对某药物临床平台开展数据信息采集工作。所采集的数据涵盖登记号、试验状态、药物名称、适应症等关键字段,随后将这些数据保存至MongoDB数据库中,实现数据的高效存储与管理。

  • 法拍房数据采集

    法拍房数据采集

    淘*电商平台法拍房数据采集系统 项目描述: 本项目针对淘*电商平台法拍房数据,使用requests库构建高效稳定的数据采集系统,并实现数据持久化存储至MYSQL数据库。项目聚焦北京、上海、广州等一线城市,成功采集数据量达500+,为法拍房市场分析提供数据支撑。 技术方案:

查看案例列表(含更多 0 个案例)

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服