1. 熟练掌握Python,能够进行相关开发,有一年爬虫开发经验。
2. 熟悉Scrapy框架、Scrapy-redis框架,开发和使用过分布式爬虫。
3. 熟悉selenium、xpath、requests等模块,熟悉正则表达式。
4. 有反爬相关问题处理经验,对于移动端也有过处理。
5. 熟练运用Charles、Fiddler等抓包工具,能够对请求和响应进行抓包分析。
6. 熟悉Django框架,简单开发过小型网站。
7. 熟悉MySQL以及Redis数据库,熟悉对数据表增删改查等操作。
8. 了解JavaScript、HTML、CSS等Web前端开发知识。
9. 具备一定的网络知识,熟悉TCP/IP协议,HTTP协议等相关网络知识。
10. 熟悉常用的数据结构,熟悉多线程等知识。
一、
项目名称 基于Python的网盘资源搜索引擎
项目简介 利用爬虫技术,将百度网盘数据进行收录到数据库中,并开发一个网站供用户搜索资源。
项目责任 (1)寻找合适的数据源,并利用Scrapy框架进行指定数据的爬取,数据的清洗,以及持久化存储。
(2)利用Django进行开发供用户搜索数据的网站。
(3)利用ElasticSearch进行数据的分词处理,并实现网站搜索功能。
(4)利用计划任务进行定时启动爬虫程序。
项目结果 (1) 系统能够自动根据用户输入的关键词进行数据的采集。
(2) 实现对关键词的模糊搜索
(3) 实现搜索建议功能
(4) 项目线上展示网址:115.159.94.42:12341
(开放时间为7点-23点)
二、
项目名称 基于Python的B站刷播放量脚本
项目简介 利用Python进行编写模拟用户播放视频的脚本,已达到增加播放量的目的。涉及代理IP的使用、IP的爬取、抓包分析、模拟请求等相关内容。
项目责任 (1) 进行分析B站视频播放量的增加机制,并通过Charles工具进行抓包分析。
(2) 寻找多个免费IP站点,利用Scrapy框架进行爬取HTTPS代理IP,并进行持久化存储。
(3) 对于代理IP进行有效验证。
(4) 利用requests库进行模拟用户播放视频所发送的请求。
项目结果 (1) 采集到大量的免费IP,构建一个IP池。
(2) 有效的进行视频播放量的增加
(3) 由于免费IP具有不稳定性,据统计,日增加播放量至少5W。