具备Python爬虫能力,有爬取数据经验。可多线程进程爬取数据,有一定js逆向破解能力,可熟练运用爬虫多个库对数据进行访问,可使用自动化浏览器对于网页渲染进行访问。有对数据的处理的能力。可熟练掌握Python基本使用.
有爬过百度图片的抓取,DuFile盘的解析,一级简单的数据整合处理,某小说的小说数据,淘宝的数据整合,网易云音乐的下载,
根据网易云的url链接,解析搜索的url。然后根据选择的信息得到所要下载的id,通过分析以及寻找接口,得知网易音乐的音乐储存url是根据ID的,所以根据ID就可以把音乐下载
百度图片的抓取,通过分析可以发现百度图片是过异步请求这来的,通过抓包分析可以发现异步请求步的url,通过对url的分析,可以得出所有图片的源码,通过正则表达式把图片的地址给拿到。而且百度图片使用IP反爬。所以通过浏览器自动化可以避开。