ID:305091

啦啦啦

资深运维工程师

  • 公司信息:
  • 阿里
  • 工作经验:
  • 5年
  • 兼职日薪:
  • 500元/8小时
  • 兼职时间:
  • 周六
  • 周日
  • 所在区域:
  • 杭州
  • 余杭

技术能力

1.linux系统一些基础服务运维如tomcat,NFS,nginx,zabbix,mysql,redis,gitlab,jenkins,ansible,nvidia-docker,docker-ce,GPU工作 站,tomcat,ocr核心部署等
2.新加网络设备对接如交换机,路由器,防火墙
3.维护公司阿里云服务器ecs slb vpc,rds,nas等 4.公司机房服务器巡检,硬件状态记录,服务器硬件更换,服务器日常软硬件处理,更换cpu,gpu,内存等。 5.处理线上问题,更新ocr识别核心,使用命令netstat,nethogs,top,free命令等。
6. 配合开发处理线上问题,(如:java,python方面问题)
7. 有事还担任一下测试服务的稳定性,服务的并发测试,采用java软件jmt 8. 编写shell脚本一键启动服务,配合docker使用。
9. gpu的驱动安装,内核的重新构建
10. Kubernetes维护

11. 推进devops
12. 利用django flask开发手写识别web端

项目经验

项目工具:Python3.9 vue2 element-ui django3.2 drf tornado
项目背景: 在工作中随着深入发展一些运维的问题,如资源不统一,导致需要登录个各个不同的云平台,还有一些重复性的 运维工作。
项目实施:
1、调研当前运维有哪些重复性工作
2、选择语言以及框架进行搭建整个架构
3、负责数据库表结构设计
4、负责前端和后端的前期开发如 资产管理,穿透管理,打包工具,用户管理,网关管理,全局配置等
5、功能测试

部署 GPU到k8s集群
项目描述:开发一套新的发票识别系统 项目背景:由于识别核心不是很稳定,导致碰到一些不可以识别的票,系统崩溃,本身这套识别系统也是跑在 docker中,基于 前面上线的 devops 流水线,决定把 GPU 业务上线到k8s,这样方便管理更新 k8s有健康检查,当我识别系统,我采用访问接口的方法,来检查我的服务是否崩溃,如果不可访问,会切换到其他 pod ,进 行提供服务,k8s会试着重启崩溃的 pod 服务,如果在规定时间内,没有重启,会驱逐我的 pod ,重新拉起一个新的 pod 2.k8s方面更新,我每次更新时候只需要把镜像上传到镜像仓库,更改一下 yaml 文件镜像版本,进行 apply,k8s会重新拉取镜 像部署
3.可以节省资源,还可以生成副本,如果我一个 pod 不可以用,切换到另一个 pod ,还可以提供服务
项目步骤:
1. k8s本身不知道 gpu 集群调度,需要采用 nvidia 插件,在每一个节点上启动一个 pod ,类似于网络插件原理,共享命名空间 2. 部署项目,试运行,停止原服务,采用k8s提供服务等

信用行为

  • 接单
    0
  • 评价
    0
  • 收藏
    0
微信扫码,建群沟通

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服