1、Golang:熟悉常用的标准库和第三方库和 Gin 框架,熟悉 K8s Operator 和 Aggregated API 编程,了解并发编程和协程的使用,具备高性能服务 开发能力;
2、Python:了解 Python 语言,熟悉 Python 的基本语法、数据类型和常用 模块,具备基本的 Python 编程能力;
3、K8s:熟练掌握 k8s 的各项基本原理(informer、list-watch),深入理解 k8s 的各核心组件功能及各种资源类型(如:pod、 deploy、sts、pvc、s ervice、ingress 等)的配置和使用;
4、Docker/Containerd:熟练掌握 docker 和 containered 的使用,镜像构 建、容器抓包等; CI/CD:熟练掌握 GitOPS 的工具链,通过 Helm + ArgoCD 完成发布流 水线的构建;
5、监控告警:熟悉 Prometheus 的基本原理,配置 Prometheus 采集规则、 告警规则和 Grafna 面板配置;
MySQL:熟悉 MySQL 的基本原理(ACID、binlog)、熟悉 MySQL 的 日常维护、熟悉 慢SQL优化、了解 Redis 的基本原理; 6、Linux:熟悉 linux 系统常用命令,熟悉 Shell 脚本编写;
7、网络:熟悉 TCP/IP、HTTP等基本协议的原理、使用 tcpdump、wireshark 等工具进行常见网络问题的定位;
8、熟悉常见的 LLM 编程框架和接口,理解Agent的构建原理,比如 LangCh ain(Chains、Agents、Tools)和 FastAPI、AutoGPT;
9、熟悉 Prompt 工程,理解常见的提示词技术,比如:CoT、ReAct;
10、熟悉 LLM Embedding的基本原理,熟悉 PineCone、Chroma 等 Vector DB 的使用;
11、了解 深度学习 的基本原理,如 MLP、CNN、RNN、transformer 等 神 经网络 及 激活函数(relu)、优化方法(sgd adam); 了解常见的 LLM 微调技术(lora)等的基本原理。
2022.01 - 2022.12 TKE容灾能力建设专项
【负责事项】
负责 TKE 产品上百个模块的运维容灾架构梳理、容灾能力建设、应急预案 建设、故障大盘建设、演习能力建设(chaosblade)、演习拉通、问题跟 踪闭环等。
【成绩】
最终达成目标:单 AZ 故障时 TKE 控制面核心功能自身 3min 内自愈; 2022年获腾讯云“混沌先锋奖”2 次。
2022.01 - 至今 TKE容器变更平台建设专项
项目开发
【架构设计和各模块功能】
addon-manager:publish 平台的 http 后台模块,使用 Gin 框架,定义 了 创建发布单、创建变更审批单、拉取集群列表、拉取组件列表、发布、 回滚、变更分发等核心流程的API;
addon-frontend:前端控制台;
task-manager:publish 平台的实际变更动作下发模块,使用 k8s operat or 框架,watch 集群的 task-crd资源,并执行变更、发布前检查、后置检查、发布调度动作;
task-crd:包含了一次发布动作中所需要的信息(分批灰度、调度策略、发布通道信息);
ops-center:publish 平台的资源注册模块,与组件管理中心底座kube-apiserver集成,提供相关 crd 自动管控能力,将所有集群相关的云上资源 (cluster、nodepool、vpc、subnet、tps)全部 crd 化,由 ops-center 统一管理,并且实时 watch,调用 yunapi 完成资源生命周期管理;
argo-cd:argo是开源的cd方案,以Application CRD的方式来抽象云原 生应用。在组件进行Helm化后,可以无缝接入argo-cd,来实现自动化的 变更动作。
【达成结果】 承载了 2w+ 现网 tke 用户集群的组件发布需求。
2022.01 - 至今 TKE容器变更平台建设专项 项目开发 【架构设计和各模块功能】 addon-manager:publish 平台的 http 后台模块,使用 Gin 框架,定义了 创建发布单、创建变更审批单、拉取集群列表、拉取组件列表、发布、回滚、变更分发等
tke(k8s)集群故障诊断工具(agent+k8sgpt+llm) 实现 k8s 集群的故障智能诊断功能
tke(k8s)集群故障诊断工具(agent+k8sgpt+llm) 通过LLM + 企微机器人 + langchain 实现 k8s 集群的故障智能诊断,协助运维同学提高工作效率。