快速导航

OpsAGI 智能运维平台操作手册

OpsAGI 将告警感知、工单流转、SOP 匹配、AI 辅助决策与知识沉淀整合为完整智能运维闭环,支持超级管理员、项目管理员、编辑者和查看者四级角色。

按角色进入操作路径

从值班处理、项目初始化和巡检配置三个入口开始使用 OpsAGI。

值班人员

5 分钟上手

  1. 登录系统,使用账号密码或钉钉扫码登录。
  2. 从左上角项目选择器选择负责项目。
  3. 查看仪表盘中的今日告警、P0/P1、MTTR 和去重率。
  4. 进入工单中心筛选高优工单,查看 AI 建议和 SOP。
  5. 接受工单,处理后标记解决,填写根因并关闭。

项目管理员

15 到 30 分钟初始化

  1. 创建项目并添加成员,按职责分配角色。
  2. 生成 Webhook Token 并在告警系统中配置接口。
  3. 配置钉钉、企微或邮件通知渠道并测试推送。
  4. 创建并发布第一个 SOP,配置触发规则。
  5. 发送模拟告警完成端到端验证。

巡检负责人

3 步启动巡检

  1. 创建数据平台连接,推荐 OpenAPI 模式并测试连通性。
  2. 新建巡检配置,设置 Cron、范围、规则和建单策略。
  3. 关联通知渠道,先人工决策观察再逐步开启自动建单。

角色权限速查

同一用户在不同项目中可拥有不同角色,系统管理能力只对超级管理员开放。

功能查看者编辑者项目管理员超级管理员
查看工单/报告
创建/处理工单
发布/归档 SOP
项目设置/通知
用户管理/归档项目

工单工作台

工单工作台覆盖仪表盘概览、工单列表、详情查看与状态流转,是 OpsAGI 的核心处理界面。

仪表盘概览

  • 关注今日告警数、未解决高优工单、MTTR 和去重率。
  • P0 建议 30 分钟内响应,红色 SLA 标识需要优先处理。
  • 未解决 P0/P1 工单应作为值班期间的第一优先级。

工单列表

  • 支持按状态、优先级、来源、类型、负责人、时间范围筛选。
  • 列表展示编号、标题、优先级色标、状态、来源、负责人和 SLA 剩余时间。
  • 支持关键词搜索和 CSV 导出。

工单详情

  • 查看基本信息、AI 分析建议、SOP 匹配、原始告警、处理时间线和评论。
  • SOP 卡片可反馈有用、不准或补充信息。
  • 评论支持 Markdown、@提及团队成员和粘贴图片。

状态流转

  • OPEN 待认领,点击接受进入 IN_PROGRESS。
  • 处理完成后标记 RESOLVED,并填写根因分类。
  • 确认无需跟进后关闭为 CLOSED,必要时可重新打开。
手动创建工单需填写标题、描述、类型、优先级和负责人。删除工单需项目管理员及以上权限;查看者只能查看。

项目管理

OpsAGI 以项目作为隔离单元,每个项目拥有独立的工单、Webhook Token、知识库、巡检配置、通知渠道和成员角色。

项目生命周期

  • 超级管理员在系统管理中创建项目,系统自动生成 Webhook Token。
  • 项目管理员可编辑基本信息、描述和负责人。
  • 归档项目后进入只读状态,仍可在筛选已归档后恢复。

成员管理

  • 在项目设置中搜索用户并分配查看者、编辑者或项目管理员角色。
  • 修改角色后立即生效,移除成员不影响历史工单和评论。
  • 同一用户在不同项目中可拥有不同角色。

Webhook 与通知

  • 复制接口 URL 和 Token,可配置 IP 白名单与开关。
  • 重新生成 Token 后旧 Token 立即失效。
  • 通知渠道支持钉钉 Stream、钉钉 Webhook、企业微信 Webhook 和邮件。

项目隔离规则

  • 工单数据跨项目不可见。
  • 告警只流入对应项目,SOP 与项目绑定,全局知识除外。
  • 巡检配置和通知渠道在项目内独立维护。

Webhook 告警接入

通过标准化 Webhook 对接 Prometheus、Grafana、Zabbix、DataWorks DQC 等告警系统,实现自动建单、去重聚合和 AI 解析。

配置步骤

  • 进入项目设置,复制 Webhook URL 和 Token。
  • 按需配置 IP 白名单并确认 Webhook 开关开启。
  • 在告警系统中配置 Webhook 地址并发送测试告警。
  • 验证工单创建、优先级映射和通知送达。

系统对接要点

  • Prometheus + Alertmanager 建议开启 send_resolved。
  • Grafana 在 Alerting 的 Contact points 中添加 Webhook。
  • Zabbix 需创建 Webhook 类型 Media type 并映射字段。
  • DataWorks DQC 使用自定义 Webhook,将规则名映射到标题。

自动处理流程

  • critical 映射 P0,warning 映射 P1,info 映射 P2,low 映射 P3。
  • 按告警指纹或标题相似度合并重复告警。
  • 异步生成故障摘要、根因推断、建议步骤和 SOP 匹配。
  • 通知渠道推送 AI 摘要和 SOP 链接。

异常排查

  • Token 无效、IP 被拒、请求格式错误是常见接入失败原因。
  • 同一指纹默认 10 分钟静默期内不重复建单。
  • 告警自动恢复需在 Webhook 配置中单独开启。

知识库与 SOP 管理

SOP 是 OpsAGI 的核心知识资产,知识库支持创建、发布、匹配、反馈收集和持续优化。

创建 SOP

  • 填写标题、描述、适用优先级、适用系统和是否全局。
  • 每个操作步骤包含名称、描述、预期结果、风险级别、预计耗时、参考命令和兜底方案。
  • 配置关键词、正则表达式或标签触发规则。
  • 补充团队、维护人和升级规则。

生命周期

  • 草稿 DRAFT 可持续编辑。
  • 发布后进入 PUBLISHED 并参与匹配。
  • 归档后进入 ARCHIVED,只读且不再匹配。
  • 修改已发布 SOP 后会重新计算向量。

匹配机制

  • 规则匹配优先,命中后置信度为高。
  • 规则无结果时启用语义向量匹配,置信度为中。
  • 最多展示 5 个推荐 SOP,规则匹配排前。

反馈与候选

  • 工单详情可反馈有用、不准或补充。
  • 反馈汇总在知识库反馈记录中。
  • 分析中心可按故障模式聚类生成 SOP 候选草稿。
建议每月审核已发布 SOP。P0/P1 工单关闭后 24 小时内检查是否需要新建或更新 SOP。

巡检中心

巡检中心提供数据平台连接、巡检配置、通知配置、巡检报告和异常决策能力。

数据平台连接

  • 推荐 OpenAPI 模式,填写 Region、Endpoint、AccessKey 等信息。
  • Cookie 模式可作为备选,但 Cookie 可能过期。
  • 保存前必须点击测试连接确认可用。

巡检配置

  • 设置名称、关联数据平台连接和 Cron 周期。
  • 限定关注状态、项目范围、业务单元前缀、负责人、任务名和排除白名单。
  • 可配置运行超时、失败率阈值、连续失败次数等规则。
  • 建单策略支持发现即建单、人工决策后建单、达到阈值后建单。

巡检报告

  • 展示任务状态分布、整体成功率、新增异常数和待决策异常数。
  • 列出失败任务、运行超时 TopN 和近 7/30 天趋势。
  • 任务实例可查看日志、刷新状态、创建子单和执行高风险操作。

异常决策

  • 可选择建单跟进、暂不建单或延后复核。
  • 延后到期后回到已通知状态重新提醒。
  • 新配置建议先人工决策 1 到 2 周,再开启自动建单。

分析中心

分析中心把历史工单转化为运维洞察,提供根因分析、运维效率分析和 SOP 候选草稿报告。

根因分析报告

  • AI 将相似工单自动聚类,展示主题、数量、时间跨度和代表工单。
  • 展示故障频发资产、时间分布、错误类型分布和 AI 修复建议。
  • 适合从故障模式和资产关联角度理解根因。

运维效率分析

  • 展示 MTTR 趋势、SLA 达成率和团队效率排行。
  • 识别新增、消除和持续高频问题。
  • 自动化率与去重率反映知识库覆盖度和告警质量。

SOP 候选草稿

  • 系统聚类历史工单并由 AI 提炼处理步骤。
  • 候选展示建议标题、覆盖工单数、建议步骤和触发关键词。
  • 可保存为草稿、跳过或对失败候选重试。

筛选与导出

  • 支持 7/30/90 天和自定义时间范围。
  • 报告可导出 PDF 或 CSV。
  • 责任人排行仅用于了解分布,不作为绩效考核依据。

钉钉机器人

钉钉机器人把运维处理延伸到 IM 场景,支持处理工单、查看巡检异常和操作数据平台实例。

前提条件

  • 在个人中心完成钉钉账号绑定。
  • 点击绑定获取绑定码,在钉钉发送 /bind 加绑定码。
  • 加入已配置 OpsAGI 机器人的钉钉群聊。
  • 群聊中需要 @机器人 再输入命令,单聊可直接发送。

工单命令

  • /report-bug 上报 BUG。
  • /report-alert 上报告警。
  • /ticket-list、/ticket-detail 查看列表和详情。
  • /ticket-accept、/ticket-resolve、/ticket-close、/ticket-forward 处理工单。

巡检命令

  • /inspection-list 查看异常列表。
  • /inspection-detail 查看异常详情。
  • /inspection-ticket 建单。
  • /inspection-ignore 忽略,/inspection-defer 延后。

实例操作

  • 支持重跑、暂停、继续、终止和标记成功。
  • 实例操作属于高风险动作,需要二次确认。
  • 确认码超时后需重新发送命令获取新确认码。

系统管理

系统管理面向超级管理员,覆盖用户管理、AI 配置、审计日志和 AI 任务监控。

用户管理

  • 创建用户需填写用户名、姓名、邮箱、初始密码和系统角色。
  • 支持编辑用户信息、重置密码、禁用、解锁和删除。
  • 不可禁用自己或最后一个超级管理员账号。
  • 建议优先禁用用户以保留审计记录。

AI 能力配置

  • 独立控制 AI 告警分析、SOP 语义匹配、SOP 候选生成和根因 AI 建议。
  • 配置 LLM 模型提供商、模型名称、API 地址和密钥。
  • 配置 Embedding 模型后可全量重建向量索引。

审计日志

  • 记录用户认证、工单操作、项目管理、配置变更和 SOP 管理。
  • 支持按时间、用户、操作类型、资源类型和结果筛选。
  • 操作详情记录变更前后的差异。

AI 任务监控

  • Agent 日志记录工单分析、SOP 匹配和通知发送等技能调用。
  • 失败记录可一键重试。
  • Agent 任务展示后台异步队列、每日趋势、失败 Top 10 和批量操作。

常见问题

按登录、告警、巡检和权限三个场景快速定位排查路径。

登录与账号

问题排查方向
忘记密码登录页点击忘记密码,输入邮箱查收重置邮件;未收到时联系管理员。
账号被锁定连续输错 5 次会锁定 15 分钟,可等待或联系管理员解锁。
钉钉扫码提示未绑定先密码登录,进入个人中心完成钉钉账号绑定。

告警与工单

问题排查方向
告警未创建工单检查 Webhook 开关、Token、IP 白名单和请求体格式。
工单无通知检查通知渠道配置、测试推送、触发条件和 Agent 日志。
AI 建议未生成等待 30 秒刷新,检查 Agent 日志和 LLM 配置,必要时手动重试。
SOP 匹配无结果确认 SOP 已发布、规则可命中、向量化已完成且语义匹配已开启。

巡检与权限

问题排查方向
巡检不生效检查配置是否启用、Cron 是否正确、连接是否正常,并手动触发测试。
通知推送失败检查渠道配置、机器人是否在群内、安全验证设置和审计日志。
权限不足确认项目角色、所在项目和权限表,必要时联系管理员调整。

安全与最佳实践

围绕 Token、权限、知识库、巡检规则和系统维护建立稳定运营节奏。

Token 安全

  • Webhook Token 建议每 90 天轮换。
  • 不要在群聊明文传输 Token。
  • 配置 IP 白名单,人员离职时立即重新生成。

权限分配

  • 一线值班人员分配编辑者。
  • 只读管理者分配查看者。
  • 配置负责人分配项目管理员。
  • 超级管理员建议不超过 3 人并每季度审查。

知识库维护

  • P0/P1 工单关闭后 24 小时内检查 SOP 更新需求。
  • 每月回顾反馈,重点优化不准反馈最多的 SOP。
  • 不再适用的 SOP 应归档而非删除。

系统维护

  • 每月查看 AI 任务失败 Top 10。
  • 验证 Webhook 接入和通知渠道。
  • 清理历史任务、归档项目、禁用离职账号。
  • 处理 SOP 候选并审查管理员账号列表。

联系我们

需要了解 OpsAGI 产品能力、解决方案或试用方式,可以联系销售团队或提交技术支持工单。

产品咨询:联系销售团队技术支持:提交工单免费试用:申请体验