返回的headers会多一个accessToken,而这个参数就是点击验证码以后返回的参数,所以当去请求详情页的时候必须要带上这个accessToken才会返回正确的请求内容,而好多人都是卡在了这个地方,这里我用了两种方式进行解决的,一开始考虑使用自动化浏览器去进行点击,然后将验证码发送给第三方,返回坐标值之后再进行验证码的点击,这种方式就是导致时间长,因为需要截图,发送给第三方,返回坐标值,进行点击,然后才会返回正确的accessToken。导致没法高并发,而且因为是进行验证码的坐标点击,有的时候识别率还是很低的,而且四库一平台的网站会进行ip的封禁,如果在使用自动化浏览器的时候携带上代理就会导致访问的详情页总是重定向至首页,所有第一个方法就pass了。
第二种验证码的破解,是专门围绕着极验去破解的,其实极验验证码会有两个参数,一个是challenge,另外一个是validate,其实破解这两个参数的话,就会直接返回accessToken这个参数,这样就可以使你的爬虫程序进行高并发,而且相比于第一种方法就更稳定,但是破解验证码的时候有一个小坑是关于使用代理的地方。这个网站爬取所有的请求url都需要加上代理,可是代理使用错误就会返回401。