有3年以上爬虫开发经验,爬过facebook、Instagram、youtube、twitter、tiktok、豆丁、百度知道、微博热搜等多个平台的数据,熟悉网站加密参数的JS逆向、验证码识别、IP封禁等反爬和反反爬策略。
点点/七麦数据平台爬虫
申请相应的点点/七麦数据平台账号,通过抓包找到登录过程的请求,模拟登录请求获取登录cookie;
部分请求(登录或取榜单数据时)有部分加密参数,需通过JS逆向破解请求URL中的加密参数(点点平台的k参数、七麦平台的analysis参数);
生成账号cookie和每个请求的加密参数并挂上代理后发送请求,对响应回来的内容进行json数据解析;
将各榜单的数据保存入库并生成对应的爬虫任务进行监控。
申请相应的点点/七麦数据平台账号,通过抓包找到登录过程的请求,模拟登录请求获取登录cookie; 部分请求(登录或取榜单数据时)有部分加密参数,需通过JS逆向破解请求URL中的加密参数(点点平台的k参数、七麦平台的analysis参数); 生成账号cookie和每
创建Chome的webdriver(浏览器)对象,打开豆丁首页并从登录框中填写豆丁账号密码进行模拟登录; 登录成功后条状到文档上传页点击上传触发文件选择窗口弹出; 用win32库中FindWindow方法定位到window弹出的文件选择框,并从文件选择框定位到文件