SRE / AIOps 转型训练营
SRE / AIOps 转型训练营
这个栏目把两份本地文档整理成一条可以在博客里执行的学习路线:
30岁职业危机与AI转型行动方案.md运维开发SRE练习路线与GitHub案例.md
主线不是泛泛地学技术栈,而是围绕一个可展示项目推进:
ops-diagnose:私有云基础组件自助诊断 + 监控 + AI Runbook 知识库
01 职业方向判断
先确定为什么走 SRE / 运维开发 / AIOps,而不是从零转算法或纯前端。
02 12 周路线
按周拆解 Linux、基础组件、CLI、监控、K8s、数据库、Ansible、AI 知识库。
03 第一周马上开始
今天就能执行的 5 天任务,不先买课,不先收藏资料。
04 主项目设计
定义 ops-diagnose 的目录、命令、检查项、报告、指标和简历表达。
05 Runbook 与复盘模板
把每一次答疑变成标准化资产,能被脚本、监控和 AI 复用。
06 GitHub 资料索引
本地下载路径、资源优先级、使用方法和待重试仓库。
学习原则
- 每天只做一个小闭环:选问题、复现或分析、写命令、记录证据、沉淀文件。
- 每天必须有文件变更:
.md、.py、.yaml、.rules.yml或README.md。 - 不以“看了多少资料”为进度,只以可运行项目、runbook、复盘、截图、简历 bullet 为进度。
- AI 只能做建议和辅助检查,不能直接执行危险修复;所有 AI 答案都要能回溯到 runbook。
最终交付物
- 1 个项目:
ops-diagnose - 10 篇 runbook
- 8 个故障复盘案例
- 1 套 Prometheus 告警规则
- 1 个 Grafana Dashboard 截图
- 1 个 AI 运维知识库 Demo
- 5 条可写进简历的项目 bullet