背景
- 公有云业务逐渐步入正轨,付费用户增多,功能越来越繁杂,现在问题处理压力大。
- 线上问题处理对研发干扰越来越多,且响应时间,响应质量等逐渐难以保证。
- 周末、节假日的响应时间、响应质量无法保证,且研发同事的正常休息时间被剥夺。
- 公有云研发人力调整后,只有值班研发投入到公有云,无其他研发人力投入到公有云(计费除外)。
http://jira.virtaitech.com/browse/GEMTICKET-1719
目标
- 提高线上问题处理效率,降低对研发工作的干扰。
- 保障周末、节假日的响应时间和响应质量。
- 合理安排研发值班时间和工作时间。
- 确保研发同事的正常休息时间。
值班制度
值班时间
1、每日值班时间:和研发工作时间一致(10:00~22:00)
2、覆盖范围:365天,包含所有周末休息日和节假日
值班安排
1、采用研发固定轮流值班+调休模式。
2、周末、节假日值班无需到公司值守,在家远程办公值班。
3、周末、节假日值班,会安排调休。
4、轮流值班和调休安排班每半年重新调整一次。
值班内容
1、值班期间高优处理公有云业务问题(运营群反馈的问题)、监控告警问题(告警群收到的监控告警通知)。
2、值班期间中优处理公有云研发需求(要求:值班研发每周自己选1~3个可以处理的需求、不需要产品介入、值班周期内能开发完、)。
3、值班期间低优和值班相关的事情:比如问题排查总结、优化监控告警列表。
4、值班期间需要写值班周报,记录每周值班处理的问题、需求以及其他值班相关的内容。
5、节前巡检,在节假日前3天进行系统巡检,发现潜在问题并提前解决,以确保节假日期间的系统稳定性。巡检内容包括:监控面板、巡检脚本。
6、值班人员需要尽量做到能够排查Gemini平台全组件(除OrionX和geminifs)的问题,需要能够定位到具体问题。
7、值班时间应保持手机畅通。
说明
1、研发轮流值班和调休安排见附录
2、值班和调休安排默认是固定的,如果需要调整,需要和@liubaojiang沟通,修改值班和调休安排表。
3、监控告警问题处理流程、监控告警列表见附录
附录
研发值班和调休安排
监控告警处理流程
运维同事监控告警周报:监控告警巡检周报
监控告警处理流程
监控告警列表
值班日报模板
值班学习和总结模板
各组件研发负责人
见 服务组件信息文档和变更记录 对应版本的组件服务列表excel "负责人" 列
运营群
企业微信群:公有云运营与运维
包含人员:运维、运营、研发等
告警群
企业微信群:线上监控告警通知
包含人员:运维、研发
值班提醒机器人
每日早上9点在运营群、告警群发送值班通知。
运营群发送当天的值班人员信息、以及节前巡检提醒,@当日值班人员。外部群无法添加机器人- 告警群发送最近7天的值班和调休人员信息、以及节前巡检提醒,@当日值班人员。另外线上监控告警信息也会发送到这个群。
FAQ
值班研发能力不足时,应该如何处理?
值班研发在保证质量(安全稳定第一)的情况下,可以进行公有云组件问题的修复,改动其他组的组件(改动比较小)在 hotfix/合test 前请发pr让组件维护人员code review以降低风险。
值班研发不熟悉组件,不会修的情况下,可以找组件维护人修复问题,但是线上变更操作由值班研发负责(包括变更邮件、线上验证等)。
值班周报中,什么情况可以把排查状态更新为DONE?
问题已经排查定位清楚,并列已经完成修复(hotfix完成,或者pr已经合进test,且升级文档已更新),可以将值班周报里问题的状态修改为DONE。
值班研发轮换时,非DONE状态的jira怎么处理?
值班研发在值班时,应该继承上一个值班未完成的jira单,值班研发在jira单里详细记录排查过程,填写问题状态。值班轮换时,下一位值班研发能根据jira单排查过程,继续处理非DONE状态的ira单。
研发需求从哪里来?
每个研发周一开始值班时,先从本组的所有研发需求里选择1~3个值班周期内能处理完的研发需求,记录到值班周报里。
问题的优先级如何判断?
按照影响严重程度和频率综合评估,参考:需求优先级的简单判定法则
orion、geminifs、前端和运维值班如何安排?
运维所有日期均有值班安排,orion、geminifs和前端 工作日有值班安排,非工作日看问题严重程度,影响严重需要当时就找人排查,否则可以等到工作日再找人排查。
找人支持见:Gemini(公有云/私有云)前端协作流程(2024版) 附录
节假日2倍调休吗?
周末不2倍,五一(5.1)、十一(10.1、10.2、10.3)、过年(除夕、初一、初二)2倍调休。
值班的日期,可以请假吗?
因为研发值班是要求365天都有人值班,所以如果排到值班的时候,如果不能值班,请不要直接请假,这样会导致值班空缺,无法响应线上问题。
正确的做法是:提前和其他人商量换一下值班时间,然后通知@liubaojiang,进行值班调整。
评论
Liu Bao Jiang 发表:
值班宣讲录像:值班宣讲part1.mp4 、 值班宣讲part2.mp4
添加评论