猿急送>

东莞运营/编辑兼职程序员

ID：384143

千醉

爬虫工程师

公司信息：
千鸟科技有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
东莞
全区

技术能力

1. 熟悉Python常用函数库和包；

2. 熟练掌握python，熟悉Scrapy、Pyspider框架

3. 熟悉MySql、Redis、MongoDB等数据库，对SQL优化有一定的经验；

4.熟悉网页抓取原理及技术，熟练掌握正则表达式、XPath、CSS等网页信息抽取技术；

5.熟悉js逆向基本操作

项目经验

项目名称：垃圾焚烧监测数据
项目角色：Python爬虫
项目简介:
该项目需要爬取百度新闻推荐版的内容数据,要对不同板块的数据占比进行分析比较,需要通过分析网页结构,对不同的板块分类的数据进行分类爬取存储,完成数据清洗工作,并进行定时爬取。
责任描述:
1.分析url，找到正确的首页start_url，
2.引擎从调度器中抽取start_url用于抓取数据；
3.引擎把url封装成request传给下载器；
4.下载器把资源下载下来并封装成应答包Response；
5.解析Response，把item交给实体管道Pipeline进行下一步处理；
6.若解析了url则交给调度器等待抓取。
项目名称：抓取云播tv电影
项目简介：
1.分析url，找到正确的首页start_url，
2.找到网页中的m3u8文件地址
3.下载m3u8文件
4.下载m3u8文件中的ts片段
5.找到m3u8文件中的ts解密码，解密ts文件
6.合并ts文件为MP4文件

案例展示

云播tv

项目名称：云播tv 项目介绍： 1.利用协程下载电影 2.找到起始URL，并从中找到m3u8下载地址 3.下载m3u8文件 4.读取m3u8文件，并从中找到ts下载路径 5.下载ts文件 6.从m3u8文件中找到ts文件的解码文件地址，解码ts文件 7.将ts文件
垃圾焚烧网站的数据分析

项目名称：垃圾焚烧网站的数据分析项目简介： 1.找到起始的URL 2.利用xhr断点找到加密的数据sgn和时间戳 3.解密sgn 4.获取想要的数据