项目简介: 爬取知乎等平台的公开信息,并将其导入Mysql数据库,爬虫项目累计200-300个不同平台的小项目
核心技术:
用浏览器的网络抓包功能进行抓包分析,或用Fiddler配置ca证书来抓取https下的数据包,对手机端用 中间人代理的方法并安装相应证书,抓取手机端app或者小程序进行抓取分析数据。
利用js逆向技术对加密的数据进行解密api返回数据,或者加密请求参数,配合正则表达式,对信息提 取和储存。或采用selenium自动化Xpath等方法定位元素。
或者运用Fiddler中的FiddlerScript编写修改其中的OnBeforeRespon或OnAfterRespon方法的代码, 来拦截请求和响应的数据,并将其修改或者保存至Mysql数据库或保存为CSV表格。
用threading实现多线程,主要包括线程池和协程来提高程序运行效率,或者对辅助程序进行监控。
利用socket通信HttpApi来实现不同程序调用,如利用易语言GUI设计执行python脚本。或者运用 Http后端Api来对数据之间相互调用,发挥各语言自身优势提高程序运行效率。