这是用户在 2024-9-10 19:48 为 http://10.7.10.12/pages/viewpage.action?pageId=87755933 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
转至元数据结尾
转至元数据起始

背景

  • 公有云业务逐渐步入正轨,付费用户增多,功能越来越繁杂,现在问题处理压力大。
  • 线上问题处理对研发干扰越来越多,且响应时间,响应质量等逐渐难以保证。
  • 周末、节假日的响应时间、响应质量无法保证,且研发同事的正常休息时间被剥夺。
  • 公有云研发人力调整后,只有值班研发投入到公有云,无其他研发人力投入到公有云(计费除外)。

http://jira.virtaitech.com/browse/GEMTICKET-1719

目标

  • 提高线上问题处理效率,降低对研发工作的干扰。
  • 保障周末、节假日的响应时间和响应质量。
  • 合理安排研发值班时间和工作时间。
  • 确保研发同事的正常休息时间。

值班制度

值班时间

1、每日值班时间:和研发工作时间一致(10:00~22:00)

2、覆盖范围:365天,包含所有周末休息日和节假日

值班安排

1、采用研发固定轮流值班+调休模式。

2、周末、节假日值班无需到公司值守,在家远程办公值班。

3、周末、节假日值班,会安排调休。

4、轮流值班和调休安排班每半年重新调整一次。


值班内容

1、值班期间高优处理公有云业务问题(运营群反馈的问题)、监控告警问题(告警群收到的监控告警通知)。

2、值班期间中优处理公有云研发需求(要求:值班研发每周自己选1~3个可以处理的需求、不需要产品介入、值班周期内能开发完、)。

3、值班期间低优和值班相关的事情:比如问题排查总结、优化监控告警列表。

4、值班期间需要写值班周报,记录每周值班处理的问题、需求以及其他值班相关的内容。

5、节前巡检,在节假日前3天进行系统巡检,发现潜在问题并提前解决,以确保节假日期间的系统稳定性。巡检内容包括:监控面板、巡检脚本。

6、值班人员需要尽量做到能够排查Gemini平台全组件(除OrionX和geminifs)的问题,需要能够定位到具体问题。

7、值班时间应保持手机畅通。


说明

1、研发轮流值班和调休安排见附录

2、值班和调休安排默认是固定的,如果需要调整,需要和@liubaojiang沟通,修改值班和调休安排表。

3、监控告警问题处理流程、监控告警列表见附录


附录

研发值班和调休安排

研发值班和调休安排

监控告警处理流程

监控告警处理流程

监控告警巡检周报<模板>

运维同事监控告警周报:监控告警巡检周报


监控告警处理流程

线上监控告警制度

监控告警列表

监控告警列表

值班日报模板

值班日报-20240525-刘保江<模板>

值班周报-20240729-刘保江<模板>

值班学习和总结模板

20240525-刘保江-这是一个学习和总结模板<模板>

各组件研发负责人

见 服务组件信息文档和变更记录 对应版本的组件服务列表excel "负责人" 列

运营群

企业微信群:公有云运营与运维

包含人员:运维、运营、研发等

告警群

企业微信群:线上监控告警通知

包含人员:运维、研发

值班提醒机器人

每日早上9点在运营群、告警群发送值班通知。

  • 运营群发送当天的值班人员信息、以及节前巡检提醒,@当日值班人员。   外部群无法添加机器人
  • 告警群发送最近7天的值班和调休人员信息、以及节前巡检提醒,@当日值班人员。另外线上监控告警信息也会发送到这个群。

FAQ

值班研发能力不足时,应该如何处理?

值班研发在保证质量(安全稳定第一)的情况下,可以进行公有云组件问题的修复,改动其他组的组件(改动比较小)在 hotfix/合test 前请发pr让组件维护人员code review以降低风险。

值班研发不熟悉组件,不会修的情况下,可以找组件维护人修复问题,但是线上变更操作由值班研发负责(包括变更邮件、线上验证等)。

值班周报中,什么情况可以把排查状态更新为DONE?

问题已经排查定位清楚,并列已经完成修复(hotfix完成,或者pr已经合进test,且升级文档已更新),可以将值班周报里问题的状态修改为DONE。

值班研发轮换时,非DONE状态的jira怎么处理?

值班研发在值班时,应该继承上一个值班未完成的jira单,值班研发在jira单里详细记录排查过程,填写问题状态。值班轮换时,下一位值班研发能根据jira单排查过程,继续处理非DONE状态的ira单。

研发需求从哪里来?

每个研发周一开始值班时,先从本组的所有研发需求里选择1~3个值班周期内能处理完的研发需求,记录到值班周报里。

问题的优先级如何判断?

按照影响严重程度和频率综合评估,参考:需求优先级的简单判定法则

orion、geminifs、前端和运维值班如何安排?

运维所有日期均有值班安排,orion、geminifs和前端 工作日有值班安排,非工作日看问题严重程度,影响严重需要当时就找人排查,否则可以等到工作日再找人排查。

找人支持见:Gemini(公有云/私有云)前端协作流程(2024版) 附录

节假日2倍调休吗?

周末不2倍,五一(5.1)、十一(10.1、10.2、10.3)、过年(除夕、初一、初二)2倍调休。

值班的日期,可以请假吗?

因为研发值班是要求365天都有人值班,所以如果排到值班的时候,如果不能值班,请不要直接请假,这样会导致值班空缺,无法响应线上问题。

正确的做法是:提前和其他人商量换一下值班时间,然后通知@liubaojiang,进行值班调整。