猿急送>

常州其它兼职程序员

ID：389160

sjj 身份已认证

无

公司信息：
无

工作经验：
1年

兼职日薪：
500元/8小时

兼职时间：
周六
周日

所在区域：
常州
全区

技术能力

本人精通 Python 爬虫，以下是在网页数据采集、反反爬虫体系以及工程化架构能力等方面的具体掌握情况：
(一)网页数据采集
1.HTML 静态解析技术：能熟练运用 BeautifulSoup、lxml 解析库结合 XPath/CSS 选择器实现精准数据定位。
2.处理动态内容：掌握 JavaScript 逆向工程，可破解 AJAX 动态加载、WebSocket 通信等复杂场景。
3.掌握浏览器自动化工具：能基于 Selenium、DrissionPage 等工具构建浏览器自动化解决方案，支持 SPA 应用完整生命周期数据采集。
(二)反反爬虫体系
1.破解字体映射加密：能通过 WOFF 字体映射解析、字符坐标动态匹配等方案破解字体映射加密。
2.解决风控滑动验证码：能使用超级鹰等解决风控滑动验证码。
3.防止 IP 封禁：能构建动态 IP 代理池，防止服务器对频繁请求封禁 IP。
(三)工程化架构能力
1.使用 Scrapy 框架：能使用 Scrapy 框架深度定制分布式爬虫架构，开发中间件支持自动重试、请求优先级调度等功能。
2.高性能处理：采用多线程/多进程 + 协程方案实现 IO 密集型任务优化，结合 Redis 实现分布式任务队列。
3.数据存储方案：根据业务场景灵活选用关系型（MySQL）、文档型（MongoDB）、内存型（Redis）数据库，设计千万级数据存储架构。

项目经验

项目一：某品牌商业情报采集。在该项目中我使用scrapy框架对赢*品牌库品牌名，开店方式，合作期限等多个字段进行数据抓取，保存入MongoDB数据库。在scrapy框架构建过程中，我二次研发中间件组件，通过重写Request调度机制实现post请求发送，具备对已有模型框架二次开发的能力。
项目二：某电商平台商品数据采集。在该项目中我采用request库对拼**平台数码类产品进行数据采集，通过改变post请求中的表单参数的关键部分实现对多个页面的数据获取，过程中突破平台动态加密参数限制。
项目三：某音乐平台评论区留言采集。在该项目中，我对网**音乐平台歌曲评论进行抓取，过程中对网页歌曲名的JS生成参数通过逆向破解，并解决了网页中存在的嵌套问题。

案例展示

药物临床平台数据采集

本项目运用Selenium浏览器自动化控制工具，针对某药物临床平台开展数据信息采集工作。所采集的数据涵盖登记号、试验状态、药物名称、适应症等关键字段，随后将这些数据保存至MongoDB数据库中，实现数据的高效存储与管理。
法拍房数据采集

淘*电商平台法拍房数据采集系统项目描述：本项目针对淘*电商平台法拍房数据，使用requests库构建高效稳定的数据采集系统，并实现数据持久化存储至MYSQL数据库。项目聚焦北京、上海、广州等一线城市，成功采集数据量达500+，为法拍房市场分析提供数据支撑。技术方案：