03 第一周马上开始

03 第一周马上开始

第一周不要先研究完整技术栈,也不要先把所有 GitHub 资料看完。目标只有一个:

把熟悉的答疑问题写成第一批 runbook 和脚本雏形。

今天

建立项目目录:

mkdir -p ops-diagnose/docs/runbooks

写第一篇:

docs/runbooks/runbook-yum-repo-unavailable.md

内容至少包含:

  • 现象:yum makecacheyum install 失败,repo 返回 404、超时或无法解析。
  • 影响:软件安装、补丁升级、依赖安装失败。
  • 排查命令:curl -Idigyum repolist -vcat /etc/yum.repos.d/*.repo
  • 判断标准:DNS 是否解析、HTTP 状态码是否正常、baseurl 是否正确。
  • 修复动作:修正 repo 配置、确认网络/代理、防火墙、源站可用性。
  • 风险提醒:不要直接覆盖生产 repo 配置;先备份。

明天

写:

ops_diagnose/checks/yum.py

只实现一个能力:

python -m ops_diagnose.checks.yum --url http://example.repo/path/

输出:

  • 状态:正常 / 警告 / 异常
  • HTTP 状态码
  • 可能原因
  • 下一步命令

第三天

写:

docs/runbooks/runbook-chrony-time-offset.md
ops_diagnose/checks/ntp.py

重点命令:

systemctl status chronyd
chronyc tracking
chronyc sources -v
timedatectl

第四天

写:

docs/runbooks/runbook-rsyslog-not-forwarding.md
ops_diagnose/checks/syslog.py

重点命令:

systemctl status rsyslog
rsyslogd -N1
ss -lntup | grep 514
logger "ops-diagnose test message"
tail -f /var/log/messages

第五天

写:

README.md
examples/report-demo.md

README 至少包含:

  • 项目目标
  • 安装方式
  • 支持的检查项
  • 命令示例
  • 示例输出
  • 未来计划

每天 45 分钟模板

  1. 10 分钟:选一个真实问题。
  2. 20 分钟:写排查步骤或脚本。
  3. 10 分钟:让 AI 检查逻辑和边界情况。
  4. 5 分钟:提交到文档或仓库。

判断一天是否有效,只看有没有产出文件。