1、多线程、多进程、协程等高并发爬虫
2、熟悉selenium自动化的编写
3、熟悉scrapy、feapder等爬虫框架
4、理解scrapy_redis组件进行分布式爬虫
5、有一点JS逆向经验,熟悉对称加密与非对称加密、哈希算法、国家加密
6、熟悉AST反混淆
7、熟悉RPC技术,通过 `WebSocket` 协议进行 `RPC` 通信,在浏览器中将加密函数暴露出来,在本地直接调用浏览器中对应的加密函数,从而得到加密结果,不必去在意函数具体的执行逻辑,也省去了扣代码、补环境等操作,可以省去大量的逆向调试时间。
8、熟悉HOOK技术,在系统没有调用函数之前,钩子程序就先得到控制权,这时钩子函数既可以加工处理(改变)该函数的执行行为,也可以强制结束消息的传递。
1、某音视频收集
客户端注入到浏览器环境,然后通过` SekiroClient `和 `Sekiro `服务器通信直接 `RPC` 调用浏览器内部方法解密X_B参数后通过一系列操作可以拿到视频资源的url,以二进制形式保存到文件中。