ID:380879

LF

爬虫工程师

  • 公司信息:
  • 万帮数字能源股份有限公司
  • 工作经验:
  • 3年
  • 兼职日薪:
  • 800元/8小时
  • 兼职时间:
  • 可工作日驻场(自由职业原因)
  • 所在区域:
  • 北京
  • 海淀

技术能力

熟练掌握逆向分析技能,包括小程序逆向、web逆向、Android逆向以及ios逆向
具备常见风控对抗能力,包括但不限于点选验证码、滑块验证码、封设备、封账号、封ip
拥有大规模数据采集经验,熟练使用爬虫框架feapder、scrapy,以及通过pandas进行海量数据清洗
掌握爬虫前沿技能,包括但不限于fart、安卓改机、ebpf、代码注入
掌握基础开发能力,熟悉vue3框架,具备独立开发前后端能力

项目经验

大模型全国充电桩数据采集
项目目标:为公司“白泽”ai大模型提供训练数据,实现智慧定价、智能选址等功能,同时,监控部分 场站充电价格变化,及时通知运营调整价格策略
破解app:e充电(国网)、特来电、快电、鸿蒙智行、星星充电、埃安、万马爱充、万城万充、蔚景云、达克云、依威E充站、鲸充、任我充等app或小程序或网站
项目难点: 1. 复杂加密和风控:每个app的加密方式都不同,对抗爬虫的风控策略也不同
2.并发和去重问题:要求在一天内抓取完40万充电桩数据,爬虫需要并发访问和去重
3.大量报错处理:充电桩下架,网络问题,数据结构变化,会产生一系列的报错和警告,要 及时处理
4.海量数据清洗:每个app的数据结构都不一致,为了方便BI,需要统一
5.信息通知:监测电价变化,充电桩故障与下架情况,利用钉钉机器人及时通知运营
技术难点: 1.抓包问题,部分app会检测证书、检测代理
2.复杂加密问题,sm2/sm3/sm4、AES、DES、md5等加密套加密
3.加壳问题, 抽取壳、压缩壳、动态加载dex
4.环境检测问题,检测Frida、Xposed、root、sim卡等等
项目成果:目前“白泽”大模型已落地,在业内取得了广泛的好评和关注,并且该大模型已走出国门在欧美市场也得到了认可

订单爬虫系统开发
项目背景:为统一管理车企对充电桩的寄送以及安装的需求,并及时给业务派单,通知运营及时售后 等等,需要设计一个爬虫系统
对接品牌方:保时捷、宝马、理想、蔚来、奥迪、小鹏、凯迪拉克、比亚迪、奔驰、雷克萨斯、长安、长城、极氪、北京现代、长安、广汽等23个品牌
系统设计:1.建立爬虫控制中心,利用python多线程管理各个车企爬虫
2.统一各个官网的数据格式,并将数据清洗分类入库
3.处理各个节点的报错,包括爬虫的报错,数据清洗的报错,钉钉机器人的报错
4.及时播报,利用钉钉机器人将订单的提醒以及爬虫的报错发送到群里
技术难点: a.爬虫需要通过代码实现自动化登陆,登陆又需要识别验证码
b.每个网站使用的框架不一样,提取页面数据的方式也不一样
c.需要独立开发前后端,我用的框架是vue3+fastapi
项目成果:目前系统已平稳运行一年,该系统解决了公司运营需要时刻盯着网站查看订单的问题,为公司节省了大量的人力成本


各省市招投标信息采集
项目背景:因公司业务,需要监控各个省市招投标网站关于物联网设备招投标的信息来拓展业务。
项目难点:1.招投标网站数量繁多,大到国家级别的招投标网站,小到甚至区县都有招投标网站
2.数据最终需要统一格式,并且清洗入库
项目成果:根据公司提供的“智能”、“蓝牙”、“红外”等等关键词,为公司找到了大量的潜在 客户,并促进公司盈利

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系聘用方端客服
联系聘用方端客服