Prometheus 显示 up=0，但本机 curl /metrics 正常，最先查什么？

核对 scrape 的 host 是否是 Prometheus 进程能解析并路由到的地址：若网关只监听 127.0.0.1，而 Prometheus 跑在 Docker 网络或另一台机器，则会抓失败。改为监听 LAN 接口、反代统一入口，或让抓取端与网关在相同 network namespace。

远程 Mac 夜间误报「延迟飙升」，可能是系统设置吗？

可能是。启用「当显示器关闭时防止自动进入睡眠」仍不等于磁盘与网络不休眠；App Nap、Wi‑Fi 省电与屏幕节能组合会让间歇性请求变慢。对 7×24 节点应固定有线以太网、关闭 Wi‑Fi，并在「能源」里取消硬盘睡眠，同时把 p95 告警与「睡眠窗口」解耦（提高 for 或按小时静默）。

Grafana 上 RPS 用 rate 还是 irate？

面板展示长期趋势用 rate(...[5m]) 更平滑；排查尖峰可用 irate(...[2m])，但噪声更大。告警规则优先 rate，并设置 for 抑制抖动。

要不要把 /metrics 暴露在公网？

不要直接暴露。应通过 mTLS、SSH 隧道、Tailscale 或仅内网反代，并对路径做 IP 白名单或 Bearer；指标里常带构建版本与路径信息，属于敏感元数据。

部署指南 2026-04-13 · 约 10 分钟

2026年 OpenClaw Gateway Prometheus 指标与 Grafana 看板：在远程物理 Mac 7×24 环境启用 /metrics 抓取、告警阈值与典型误报排查（可复制 scrape 与面板查询 + FAQ）

平台与 SRE 在远程物理 Mac上托管 OpenClaw Gateway 时，常见痛点是：本机看网关正常，Prometheus 却 up=0；或 Grafana 曲线「夜间尖刺」被告警轰炸。本文给出抓取拓扑与告警宽限期决策矩阵、七步可复现 Runbook、可复制的 scrape / PromQL / 告警片段，以及 FAQ。

2026年 OpenClaw Gateway Prometheus 与 Grafana 远程物理 Mac 可观测性

1. 导语与指标前缀说明

本文面向把 OpenClaw 跑在租用的物理 Mac（如 ZoneMac 节点）上的团队：你需要把网关的 HTTP 时延、错误率与进程存活变成可查询、可对账、可告警的序列，而不是仅靠 SSH 上去 curl。

不同 OpenClaw 版本暴露的指标名称可能基于底层运行时（Node.js prom-client、OpenTelemetry、或网关内建统计）。下文的 PromQL 以常见的 HTTP 服务端指标为例：http_request_duration_seconds_*、http_requests_total（或 *_bucket/_sum/_count）。请用 curl -s localhost:端口/metrics | grep -E 'http_|process_' 对照你现场实际前缀并替换查询。

若你仍在加固安装与进程基线，可先读 2026年 OpenClaw 完整安装指南：Mac / Windows / Linux 全平台部署教程；需要调优 Node 与文件句柄时，可对照 2026年如何在 Mac 上高效运行 OpenClaw 项目：环境配置与性能优化指南。

2. 痛点拆解

限制：监听地址与抓取端「看不见彼此」。网关若只绑定 127.0.0.1，而 Prometheus 跑在容器或另一台观测机，则 scrape 永远失败——表现为 up=0，但你在 Mac 上本机 curl 正常。
隐性成本：高基数标签与过短 scrape_interval。在路径或 API Key 片段上打 label 会让 TSDB 膨胀；1s 级抓取在 Wi‑Fi 或跨隧道时放大抖动，Grafana 上像「毛刺」。
稳定性与误报：macOS 节能与发布窗口。显示器关闭、磁盘睡眠或一次热重载会让 p95 短时飙升；若告警 for: 0s，PagerDuty 会在凌晨炸锅。

3. 抓取与告警：决策矩阵

发布前用下表对齐「谁在什么网络命名空间抓」与「告警要不要绑业务小时」。

维度	本机 Prometheus / vmagent	远端集中 Prometheus
网络路径	与网关同机或同 bridge，最易打通 `127.0.0.1`	需网关监听 LAN 或经反代/Tailscale 暴露只读 metrics
运维负担	每节点一份配置，升级要批量改	规则与大盘一处维护，依赖网络稳定
典型适用	单租户、强隔离、先跑通可观测闭环	多区域多节点统一 SLO 与告警路由

告警风格	适用	主要风险
for: 2–5m + 速率类条件	网关 HTTP 5xx、超时、错误率	真实长故障发现略晚几分钟（可接受时换 SLA）
for: 0 + up 探针	进程消失、端口不响应	部署滚动时易误报，需静默或合并告警
分时段 / 静默	已知维护窗、备份与 GC 尖峰	静默过期忘关会掩盖真实事故

4. 七步落地 Runbook（远程物理 Mac 可复现）

确认指标端点与绑定。在网关配置中打开 metrics，核对 metrics_path（多为 /metrics）与监听 IP；若需被远端抓取，避免仅 127.0.0.1。
本机冒烟。curl -sS http://127.0.0.1:监听端口/metrics | head -n 40，确认 HELP/TYPE 行存在 HTTP 与 process 指标。
选择抓取侧。单节点 PoC 可在同机跑 Prometheus；多节点建议 vmagent 远程写或集中 Prometheus + 防火墙白名单。
编写 scrape（见下节）。设置 scrape_interval: 15s～30s、合理 scrape_timeout，并对 instance 做稳定 relabel。
接入 Grafana。添加 Prometheus 数据源，建立「全局 RPS、p95、5xx 比例、up、scrape 耗时」五块面板。
定义告警与路由。对错误率与 up 使用不同 for；发布窗用 Alertmanager 静默或 CI 传入维护标记。
对照 macOS 7×24 设定。有线网络、关闭硬盘睡眠、固定时区与 NTP；与 OpenClaw v2026.3 部署排错（Node 22 / SecretsRef）中的权限问题区分：metrics 正常但业务 500 时先看应用日志而非 Prometheus。

5. 可复制 scrape、PromQL 与告警

5.1 Prometheus `scrape_configs` 片段

将 targets 与端口改成你的网关监听；若走反向代理，请在代理层放行 /metrics 且禁止缓存。

scrape_configs:
  - job_name: openclaw-gateway
    scrape_interval: 15s
    scrape_timeout: 10s
    metrics_path: /metrics
    static_configs:
      - targets:
          - '127.0.0.1:18789'
        labels:
          env: prod
          role: gateway
    # relabel_configs:
    #   - source_labels: [__address__]
    #     target_label: instance

5.2 Grafana 面板查询（请按现场指标名替换）

每秒请求（RPS）：sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
p95 延迟（histogram）：histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket{job="openclaw-gateway"}[5m])) by (le))
5xx 占比（示例）：sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
抓取健康：up{job="openclaw-gateway"} 与 scrape_duration_seconds{job="openclaw-gateway"}

5.3 告警规则片段（Prometheus `rule_files`）

groups:
  - name: openclaw_gateway
    rules:
      - alert: GatewayScrapeDown
        expr: up{job="openclaw-gateway"} == 0
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "OpenClaw metrics 不可抓取"
      - alert: GatewayHigh5xxRatio
        expr: sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m])) > 0.05
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "5xx 比例 > 5%（按现场标签调整）"

若你的指标没有 status 标签，可改为按 code 或网关自定义的 outcome 分组；关键是先在一个固定时间窗内用 Grafana Explore 验证向量非空再写告警。

6. 典型误报分诊

现象	优先怀疑	处理
间歇性 `up=0`	隧道重连、Wi‑Fi 省电、监听仅回环	改有线、修正 bind、对隧道告警单独 `for`
夜间 p95 偶发飙高	磁盘睡眠、Time Machine、Spotlight	关硬盘睡眠；备份迁窗口；告警加「连续两次」条件
发布时 5xx 告警	滚动重启、健康检查尚未就绪	CI 触发 Alertmanager 静默；readiness 与 metrics 分开 job
TSDB 内存暴涨	路径/用户 id 被打进 label	应用侧降基数；Prometheus `metric_relabel` drop

7. 可引用信息（签字用阈值）

scrape_interval：生产建议 15s（最低不要低于网关单请求 p99 的量级，避免自激）；跨洲链路可放宽到 30s。
scrape_timeout：建议 ≤ scrape_interval 的 2/3，隧道场景显式 10s 起。
告警 for：可用性类 2m 起；比率类错误 5m 起，与 SLO burn rate 对齐后再收紧。

8. FAQ

Q：要不要给 /metrics 加 Basic Auth？

A：要，若路径必须过公网或共享租户网络。更推荐仅内网 + mTLS / SSH 隧道，把鉴权复杂度留在边缘。

Q：Mac 上时区会影响 PromQL 吗？

A：Prometheus 存储 UTC；Grafana 选面板时区即可。若你在日志里用本地时间对齐事件，请统一用同一时区显示，避免「告警比日志早一小时」的误会。

Q：能否用 node_exporter 补主机指标？

A：可以，另建 job_name: node，便于把「网关 5xx」与「磁盘满 / CPU 饱和」关联分诊。

9. 总结与节点选型

把 OpenClaw Gateway 的 HTTP 与进程指标接入 Prometheus / Grafana 后，7×24 物理节点的故障会从「登录机器猜」变成「看 up、错误率与 p95 是否同向恶化」。关键是监听地址与抓取侧网络一致、告警带 for、以及把 macOS 节能与发布窗口从 SLO 噪声里剥离。

这类「网关 + 观测栈」工作流在 macOS 上落地很顺：与 launchd、日志与 Unix 工具链同栈，Apple Silicon 机型 idle 功耗低，适合长期在线；与同价位小型 x86 相比，稳定性与能效通常更好，且 Gatekeeper、SIP、FileVault 为凭证与隧道入口提供系统级边界——正是远程网关场景最关心的。

如果你希望把本文的 scrape 与大盘跑在静音、低功耗、可 7×24 托管的硬件上，Mac mini M4 仍是 2026 年极具性价比的起点；现在即可通过 ZoneMac 获取远程物理 Mac 节点，把网关指标与告警一次性纳入生产基线。

远程 Mac 节点

用物理 Mac 跑通 OpenClaw 与 Prometheus 全链路？

ZoneMac 提供多区域物理 Mac，适合 7×24 网关与可观测落地——按需开通，与本文 scrape 同级验收。

按需付费物理隔离可审计