☆ . 熟练使用 scrapy-redis 爬虫框架,能够解决常见的反爬策略如 IP 限制、验证码、字体加密
☆ . 熟练运用 JS 逆向工程破解目标网站的 JS 加密
☆ . 熟练使用 sqlserver、redis 数据库、了解 MongoDB 数据库
☆ . 熟练使用 Django、flask 后端服务框架
☆ . 熟练使用 linux 部署爬虫和后端服务
☆ . 了解 APP 反编译工具使用
☆ . 了解 html、JavaScript 语言
☆ . 对 WEB、小程序、APP、PC 客户端都有爬虫项目经验
项目名称:搜发引擎接口服务端
开发工具:Django、SQL Server、Redis、Socket
项目描述:
该项目为支持搜发引擎服务、搜搜任务分发、搜搜抓取数据基础清洗入库、满足发发引擎各外网接口对
接及开放、各城市二手房房管局规范核验接口开放、搜发脚本升级、服务端各类定时任务。服务端通过socket
与各个客户端进行通讯,实现搜搜任务分发,任务队列及缓存信息均采用redis进行存储分发,开放数据抓
取结果上传接口接收对应的数据,并对其数据进行基础清洗归类存入SQL Server。对接各类外网接口并封
装为内网接口提供给发发引擎使用。
项目职责:
1、优化搜发服务端各项服务
2、对搜搜服务端分发和接收结果进行调优
3、发发服务端外网接口的对接开发
☆ .项目三
项目名称:易遨BI房产SaaS服务系统数据爬虫
开发工具:Requests、JavaScript、SQL Server、Redis
项目描述:
该爬虫项目为客户需要将原使用的房产系统替换为我司房源管理系统产品,因原系统公司不支持将数据全
部导出给客户,所以需要我们利用爬虫技术手段将原系统内的房源、客源、图片、视频、合同等数据进行抓取
出来后进行清洗整理,并导入我司房源管理系统供客户使用。该项目数据模块多样大致分为房源相关、客源相
关、合同相关几大模块。该BI系统软件返回的数据被加密为密文返回,需要逆向JS找到对应的解密方法进行解
密。房客源业主电话等隐私信息在请求时需要带入JS生成的动态加密参数才能获取电话数据密文,再次进行解
密获取数据。
项目职责:
1、 负责爬虫抓取工具框架设计及搭建
2、 负责加解密方法的 JS 逆向破解
3、 负责抓取工具的可持续使用,便于下一个使用这个系统的客户抓取数据可直接使用
4、 负责抓取后数据的清洗及内网系统数据字段映射