了解爬虫策略和防屏蔽规则,解决封账号、封IP、验证码等,提升网页抓取的效率和质量,linux开发环境,爬虫常用工具库使用,主流爬虫框架,熟悉xpath,css,正则表达式等常见信息抽取技术,有APP爬虫、JS逆向经验.
X众点评字体解密
内容:简单分析之后找到字体文件的位置,查看源码找到字体文件所在位置,将字体文件保存下来,并且将 woff文件解析为
xml 文件,获取字体编码,将字体绘制到图片,用 ocr 识图获取字体,与字体编码构建映射关系,最后得内容进行替换。
内容:使用基于 Redis 的 Scrapy - Redis 组件实现分布式爬虫,将爬取到的数据储存到 Redis 中。使用 scrapy 框架,通过在 DownloaderMiddlewares 下载器中间件中添加 UserAgentMiddleware 中间件更换请求头等
在输入框输入英文,在自带的抓包工具中可以看到有一个新的异步请求:找出加密参数,使用第三方库直接编译js,并分析函数过程中需要哪些值,要传哪些参数,并在js文件中补齐,解析到数据后进行保存。