1. 熟悉Python常用函数库和包;
2. 熟练掌握python,熟悉Scrapy、Pyspider框架
3. 熟悉MySql、Redis、MongoDB等数据库,对SQL优化有一定的经验;
4.熟悉网页抓取原理及技术,熟练掌握正则表达式、XPath、CSS等网页信息抽取技术;
5.熟悉js逆向基本操作
项目名称:垃圾焚烧监测数据
项目角色:Python爬虫
项目简介:
该项目需要爬取百度新闻推荐版的内容数据,要对不同板块的数据占比进行分析比较,需要通过 分析网页结构,对不同的板块分类的数据进行分类爬取存储,完成数据清洗工作,并进行定时爬取。
责任描述:
1.分析url,找到正确的首页start_url,
2.引擎从调度器中抽取start_url用于抓取数据;
3.引擎把url封装成request传给下载器;
4.下载器把资源下载下来并封装成应答包Response;
5.解析Response,把item交给实体管道Pipeline进行下一步处理;
6.若解析了url则交给调度器等待抓取。
项目名称:抓取云播tv电影
项目简介:
1.分析url,找到正确的首页start_url,
2.找到网页中的m3u8文件地址
3.下载m3u8文件
4.下载m3u8文件中的ts片段
5.找到m3u8文件中的ts解密码,解密ts文件
6.合并ts文件为MP4文件
项目名称:云播tv 项目介绍: 1.利用协程下载电影 2.找到起始URL,并从中找到m3u8下载地址 3.下载m3u8文件 4.读取m3u8文件,并从中找到ts下载路径 5.下载ts文件 6.从m3u8文件中找到ts文件的解码文件地址,解码ts文件 7.将ts文件
项目名称:垃圾焚烧网站的数据分析 项目简介: 1.找到起始的URL 2.利用xhr断点找到加密的数据sgn和时间戳 3.解密sgn 4.获取想要的数据