03 第一周马上开始
第一周不要先研究完整技术栈,也不要先把所有 GitHub 资料看完。目标只有一个:
把熟悉的答疑问题写成第一批 runbook 和脚本雏形。
今天
建立项目目录:
mkdir -p ops-diagnose/docs/runbooks写第一篇:
docs/runbooks/runbook-yum-repo-unavailable.md内容至少包含:
- 现象:
yum makecache、yum install失败,repo 返回 404、超时或无法解析。 - 影响:软件安装、补丁升级、依赖安装失败。
- 排查命令:
curl -I、dig、yum repolist -v、cat /etc/yum.repos.d/*.repo。 - 判断标准:DNS 是否解析、HTTP 状态码是否正常、baseurl 是否正确。
- 修复动作:修正 repo 配置、确认网络/代理、防火墙、源站可用性。
- 风险提醒:不要直接覆盖生产 repo 配置;先备份。
明天
写:
ops_diagnose/checks/yum.py只实现一个能力:
python -m ops_diagnose.checks.yum --url http://example.repo/path/输出:
- 状态:正常 / 警告 / 异常
- HTTP 状态码
- 可能原因
- 下一步命令
第三天
写:
docs/runbooks/runbook-chrony-time-offset.md
ops_diagnose/checks/ntp.py重点命令:
systemctl status chronyd
chronyc tracking
chronyc sources -v
timedatectl第四天
写:
docs/runbooks/runbook-rsyslog-not-forwarding.md
ops_diagnose/checks/syslog.py重点命令:
systemctl status rsyslog
rsyslogd -N1
ss -lntup | grep 514
logger "ops-diagnose test message"
tail -f /var/log/messages第五天
写:
README.md
examples/report-demo.mdREADME 至少包含:
- 项目目标
- 安装方式
- 支持的检查项
- 命令示例
- 示例输出
- 未来计划
每天 45 分钟模板
- 10 分钟:选一个真实问题。
- 20 分钟:写排查步骤或脚本。
- 10 分钟:让 AI 检查逻辑和边界情况。
- 5 分钟:提交到文档或仓库。
判断一天是否有效,只看有没有产出文件。