概要描述:从微信某公众号内的数据查询程序中,爬取查询结果,并将结果存储在本地的文件中。
详细需求:
通过访问固定的网络地址,使用合法的账号密码登录,通过验证后进入查询系统。
查询系统中的功能非常简单,通过在本地Excel文件中读取一条32位字符串,录入到查询框中,点击查询按钮,获取查询结果。查询结果有三种,第一种为获得4行14个字符串的数据,第二种为获得12行14个字符串的数据,第三种为查询错误。本地Excel文件中有多行数据,需要爬虫程序不断的循环查询,直到Excel文件中最后一行数据为止。
将正确的查询结果放置在新生成的excel文件中,分为两列存放,一列为32位字符串,第二列为查询后得到的14个字符串;将错误的结果放置在txt文件中,只需将32位字符串记录在此即可。
项目情况:
1、该公众号所连接的数据查询网站属于上游供应链厂家系统,不存在爬取数据违规处罚的情况。
2、数据查询网站使用.net开发,可通过定义浏览器header,脱离微信运行。
3、数据查询网站中有302跳转和doPostBack方法,如开发者对该方式爬取数据没有经验,不建议接单。
4、查询数据时需要间隔2秒,否则会出现频繁查询的情况。