本项目主要进行的是python数据爬取,可以利用多种方法进行数据解析,如1正则表达式importre2利用 bs4方法进行数据解析
3还可以利用xpath进行数据解析,可以应对各种情况,尽量节约代码量,还会解决适当的客户端制造的反爬机制并且还可以使用多线程,线程池等多种方法来极大地提高运行速率。
之前接过一些小的项目,如给NBA爱好者爬取近几年NBA的各项数据,及每年的mvp球员得分榜,等等并利用 python中的CSV模块,将
数据存储到Excel表格中,效果还是十分好的,并且研究过python邮件的自动化发送,对于各种协定有一定的了解,所有给别人爬取MP4视频时,可以利用阿贾克斯协议来进行请求,已解决客户端的反爬机制
爬虫的基本步骤为:明确url并发送请求--获得响应数据--进行数据解析--进行持久化存储,本作品需要进行两次爬取,其中本作品的难点在于要进行反爬,因为当我们进行二次爬取的时候需要获得MP4的真正url,但是当我们进行二次数据解析的时候,我们会发现,我们是爬取不到所需的URL的,所
具有良好的专业技术,对待任务认真负责,积极主动完成,此作品是对网页数据进行筛选和处理,让客户更加明白,一目了然