1、 熟练使用Python、Go
2、 熟悉基本算法及数据结构
3、 熟练掌握分布式版本管理工具Git
4、 熟练使用Python相关采集及web框架 scrapy、scrapy-redis\flask、fastapi
5、 熟练使用python相关数据分析库 pandas、numpy、requests、selenium
6、 熟练使用Go相关框架go_zero、gin、Gorm、zap
7、 熟练使用Go相关基础库reflect、sync、context、grountine等
8、 熟练使用数据库Mysql、Redis、Etcd、Elasticsaerch等
9、 熟悉mysql索引及优化、事务、mvcc、日志等
10、 熟悉redis基础类型、了解其底层实现类型、淘汰机制、删除策略、redis持久化、redis高可用哨兵模式等 11、 熟练使用消息队列Rabbitmq、kafka
12、 熟悉linux系统、掌握linux基础命令及其shell命令
13、 熟练使用docker
14、 了解Go内存模型TCMalloc、协程调度GMP模型
项目背景: yq新闻一直以来是最大的开源信息市场、yq新闻数据通过抓取后进行统一管理处理,特别是国际上错综交错的关系,对于 是否能及时掌握这些信息的某些群体来说是至关重要的
二 项目介绍 由于是抓取国外的一些舆情新闻,采用了python3开发的scrapy-redis框架,由于该框架主要是针对的单个网站的大量数据采 集,为了符合公司的需求,在该框架上二次修改为能够满足多个站点的数据采集,采用容器化部署,多个容器可以同时进行采 集
主要功能如下:
1、多个站点的定时并发采集
2、个别站点或者板块的动态采集
3、使用解析模板统一网站解析文件的代码格式及文件名
4、mysql数据库读写分离
5、抓取错误信息入库
6、kafka日志收集、新闻数据写入
7、rabbitmq 多媒体文件输入
8、redis 简单的list队列
9、docker部署
项目核心技术栈: Scrapy-Redis、Mysql、Redis、docker、kafka、rabbitmq