本项目主要进行的是python数据爬取,可以利用多种方法进行数据解析,如1正则表达式import re,2利用bs4方法进行数据解析
3还可以利用xpath进行数据解析,可以应对各种情况,尽量节约代码量,还会解决适当的客户端制造的反爬机制,并且还可以使用多线程,线程池等多种方法来极大地提高运行速率。
之前接过一些小的项目,如给NBA爱好者爬取近几年NBA的各项数据,及每年的mvp 球员得分榜,等等.并利用python中的CSV模块,将
数据存储到Excel表格中,效果还是十分好的,并且研究过python邮件的自动化发送,对于各种协定有一定的了解,所有给别人爬取MP4视频时,可以利用阿贾克斯协议来进行请求,已解决客户端的反爬机制
爬虫的基本步骤为:明确url并发送请求--获得响应数据--进行数据解析--进行持久化存储,本作品需要进行两次爬取,其中本作品的难点在于要进行反爬,因为当我们进行二次爬取的时候需要获得MP4的真正url,但是当我们进行二次数据解析的时候,我们会发现,我们是爬取不到所需的URL的,所
本作品用到的python模块比较多,本作品也是进行两次python爬取,进行数据解析时标签比较多,所以容易混,最后利用python CSV模块进行数据的存储,将数据放入创造的CSV格式中