作为WebHosting团队队长,提前发现和管理客户IT环境的问题,确保服务平台稳定运行,同时提升团队的服务质量。具体工作内容包括:
参加管理会议(Operation meeting,account meeting,CRQ meeting,SLA meeting,等等),与管理团队保持密切联系,进行必要的汇报和沟通
根据团队任务合理规划和管理团队资源
对既往发生的事故进行分析,预测其他可能发生的事故,以减少大型事故发生的概率
作为SME参与项目管理工作,主要是协助PMO团队进行预算和进度的规划,对于复杂项目提供中间件相关的技术建议和风险预警。主要涉及数据中心迁移,网站分割,新系统的建立,灾备测试等方面的项目
跟客户建立良好的关系。团队服务的客户在亚洲区多个国家,包括香港,马来西亚,泰国,中国,菲律宾和新加坡等,遵循诚实、透明、专业的原则,为客户提供专业放心的服务
在WebHosting团队,为亚洲多地的客户提供中间件运维服务。具体职责包括:
1. 日常维护运营,包括:
监控工单系统,按流程处理工单。其中包括:
变更类型的工单,比如:安装配置新的网站节点,为开发团队部署新版本的J2EE应用等。
事故类型的工单,比如:中间件及网站应用的问题排查,大型事故处理,等等
问题类型的工单,比如:对于发生的大型事故,需要排查Root Cause,并且归入知识库,供以后参考
与网络团队合作绘制网络示意图,确保所有团队对站点架构的认知都处于更新的状态
灾备环境的日常监控和维护
安装和维护DoubleTake数据同步/迁移软件,使数据可以在跨国的数据中心之间同步。
维护Zabbix监控工具,利用Zabbix提供相关的报告。
2. 加入项目团队实施客户项目,会参与项目的具体实施部分,包括与客户沟通执行方案,评估客户执行方案的可行性,以及按照流程去实施所有的变更。项目主要包括以下类型:
新的数据中心的应用服务器的搭建配置,程序的部署。
多个数据中心的迁移项目(从IBM WAS6 迁移到WAS8环境),包括中国数据中心(2013年9月出差到上海实施),泰国数据中心,菲律宾数据中心(远程)
配置新服务器以增加系统的负载能力
网站SSL证书的购买和替换
每年对灾备环境进行可用性测试(DR Drill)
自动化脚本的开发