猿急送>

杭州运维兼职程序员

ID：305091

啦啦啦

资深运维工程师

公司信息：
阿里

工作经验：
5年

兼职日薪：
500元/8小时

兼职时间：
周六
周日

所在区域：
杭州
余杭

技术能力

1.linux系统一些基础服务运维如tomcat，NFS,nginx,zabbix,mysql,redis,gitlab，jenkins，ansible,nvidia-docker,docker-ce，GPU工作站,tomcat,ocr核心部署等
2.新加网络设备对接如交换机，路由器，防火墙
3.维护公司阿里云服务器ecs slb vpc,rds,nas等 4.公司机房服务器巡检，硬件状态记录，服务器硬件更换，服务器日常软硬件处理,更换cpu,gpu,内存等。 5.处理线上问题,更新ocr识别核心，使用命令netstat，nethogs，top，free命令等。
6. 配合开发处理线上问题，(如:java，python方面问题)
7. 有事还担任一下测试服务的稳定性，服务的并发测试，采用java软件jmt 8. 编写shell脚本一键启动服务，配合docker使用。
9. gpu的驱动安装，内核的重新构建
10. Kubernetes维护

11. 推进devops
12. 利用django flask开发手写识别web端

项目经验

项目工具:Python3.9 vue2 element-ui django3.2 drf tornado
项目背景: 在工作中随着深入发展一些运维的问题，如资源不统一，导致需要登录个各个不同的云平台，还有一些重复性的运维工作。
项目实施:
1、调研当前运维有哪些重复性工作
2、选择语言以及框架进行搭建整个架构
3、负责数据库表结构设计
4、负责前端和后端的前期开发如资产管理，穿透管理，打包工具，用户管理，网关管理，全局配置等
5、功能测试

部署 GPU到k8s集群
项目描述:开发一套新的发票识别系统项目背景:由于识别核心不是很稳定，导致碰到一些不可以识别的票，系统崩溃，本身这套识别系统也是跑在 docker中，基于前面上线的 devops 流水线,决定把 GPU 业务上线到k8s,这样方便管理更新 k8s有健康检查，当我识别系统，我采用访问接口的方法，来检查我的服务是否崩溃，如果不可访问，会切换到其他 pod ，进行提供服务，k8s会试着重启崩溃的 pod 服务，如果在规定时间内，没有重启，会驱逐我的 pod ，重新拉起一个新的 pod 2.k8s方面更新，我每次更新时候只需要把镜像上传到镜像仓库，更改一下 yaml 文件镜像版本，进行 apply，k8s会重新拉取镜像部署
3.可以节省资源，还可以生成副本，如果我一个 pod 不可以用，切换到另一个 pod ，还可以提供服务
项目步骤:
1. k8s本身不知道 gpu 集群调度，需要采用 nvidia 插件，在每一个节点上启动一个 pod ，类似于网络插件原理，共享命名空间 2. 部署项目，试运行，停止原服务，采用k8s提供服务等