■ 熟练掌握Python编程语言和PEP8规范,OOP编程思想,多进程、线程、协程,装饰器的使用;
■ 熟悉Django,Flask的WEB后端开发框架,了解Torndo异步框架;
■ 熟练掌握MySQL,Mongodb,Redis的数据库使用;
■ 熟悉HTML,CSS,JavaScript,JQuery、BootStrap前端应用;
■ 熟悉使用Git进行项目代码托管;
■ 掌握nginx服务器部署,熟悉linux系统常用命令;
■ 熟练掌握requests模块,Selenium模块,Scrapy框架爬虫方法应用;
■ 熟练掌握模块re,BS4,Xpath解析网页源码,js页面动态调测;
■ 熟悉使用Fiddler抓包工具以及常见网站反爬策略和应对措施;
■ 京东商品监测爬虫系统 :
■ 开发环境:Python、Linux、VSCode、redis、EC2
■ 项目描述: 每月监测京东官网和京东联盟的全站商品数据
■ 责任描述:
1.负责反爬技术攻关;
2.参与整体爬数流程的设计和开发
3.负责定期爬虫采集运维;
■ 技术要点:
1.采用redis 队列进行多机(EC2)分布式采集;
2.采用mongodb索引来优化数据查询,减小字段长度来增加数据库可存储数据量;
3.采用EC2镜像和自动化工具来实现爬虫自动化过程;
■ 境外不良信息监测爬虫系统 :
■ 开发环境:Python、Linux、VSCode、Elasticsearch、jenkins、MySQL、flask、splash
■ 项目描述: 监测特定境外不良信息站点,推特、facebook、youtube账户
■ 责任描述:
1.负责爬虫攻关和代码开发;
2.负责爬虫任务调度后台设计开发;
3.负责vps状态和爬虫任务监测设计开发;
■ 技术要点:
1.采用mysql数据库配置爬虫种子的等级、类别、更新间隔时间;
2.采用多线程对象实现不同级别和种类爬虫任务的非阻塞调度;
3.采用配置模式来实现不同新闻站点的请求和解析方式,新增站点源只需增加数据库配置;
4.采用splash集群实现异步加载新闻内容站点的解析;
5.采用采集平台部署多种爬虫插件,实现分布式爬虫;
6.多条vps进行翻墙代理,采用Jenkins定时监测vps状态,发送告警邮件;
7.采用flask作为任务执行结果api,采用Jenkins定时统计任务执行成功率,发送运维邮件;
■ 视频采集剪辑平台 :
■ 开发环境:Python、Linux、VSCode、MySQL、ftp、youtube_dl、moviepy、opencv、hdfs
■ 项目描述: youtube和某音视频采集剪辑平台
■ 责任描述:
1.负责短视频爬虫代码攻关开发;
2.负责任务调度后台业务流程设计和开发;
3.负责剪辑模板插件、爬虫插件的开发;
■ 技术要点:
1.采用mysql数据库配置不同业务的插件关系和插件参数;
2.采用youtube_dl下载youtube视频;
3.利用moviepy进行视频帧率和长度剪辑;
4.利用opencv对人脸、眼睛进行识别,截取特定画面;
5.采用采集平台部署爬虫和剪辑插件,实现分布式任务;
6.采用hdfs保存原始视频、ftp保存剪辑素材和剪辑视频;
■ 暗网监控系统 :
■ 开发环境:Python、VSCode、MySQL、OnionScan、tor、mongodb
■ 项目描述:暗网站点在线扫描和交易数据监控系统
■ 责任描述:
1.负责暗网站点和交易论坛爬虫攻关和代码开发;
2.负责暗网站点扫描调度程序的开发
■ 技术要点:
1.部署 vps +tor中继代理;
2.部署OnionScan暗网扫描工具;
3.使用request + xpath进行爬取和解析;
4.采用mongodb进行交易数据存库、索引和分词;
■ 某音监测系统 :
■ 开发环境:Python、Linux、VSCode、Mongodb、Redis、flask、Elasticsearch、
■ 项目描述:动态监测某音的用户、视频和商品信息,追踪并计算相关指标
■ 责任描述:
1.负责某音app爬虫技术攻关和代码开发;
2.负责黑马视频检测算法的代码实现;
3.负责爬虫任务调度后台设计和开发;
4.负责指标分析程序的开发;
■ 技术要点:
1.采用Redis实现分布式锁、分布式爬虫系统;
2.采用Redis实现视频、商品排行榜缓存;
3.使用Elasticsearch持久化某音用户、视频、视频数据;
4.采用python协程异步增加爬虫请求并发数;
5.使用fiddler+夜神模拟器进行app抓包分析;
■ 主爬虫监控系统 :
■ 开发环境:Python、VSCode、MySQL、Django、JS、Echarts、Elasticsearch
■ 项目描述:国内新闻站点类数据采集监控平台
■ 责任描述:
1.负责百度新闻、今日头条新闻等app爬虫攻关和代码开发;
■ 技术要点:
1.使用requests+xpath进行爬取和解析;
2.使用fiddler+夜神模拟器进行抓包分析;
3.采用Elasticsearch进行新闻文章的存库、索引和分词;
■ webee数据采集平台 :
■ 开发环境:Python、Linux、VSCode、MySQL、Flask、JS、Boots
通过vps中继服务器,监测特定境外不良信息站点,推特、facebook、youtube账户,并且根据内容来提取舆情的热门主题。
1.动态监测某音的用户、视频和商品信息,追踪并计算相关指标; 2.采集下载youtube和某音视频,并且对原视频进行模板剪辑;