部署指南 2026-04-13 · 約 10 分鐘

2026年 OpenClaw Gateway Prometheus 指標與 Grafana 看板：在遠端實體 Mac 7×24 環境啟用 /metrics 抓取、告警閾值與典型誤報排查（可複製 scrape 與面板查詢 + FAQ）

Q: 要不要給 /metrics 加 Basic Auth？

要，若路徑必須過公網或共享租戶網路。更推薦僅內網加 mTLS 或 SSH 隧道，把鑑權複雜度留在邊緣。

Q: 能否用 node_exporter 補主機指標？

可以，另建 job_name: node，便於把閘道 5xx 與磁碟滿或 CPU 飽和關聯分診。

平台與 SRE 在遠端實體 Mac上託管 OpenClaw Gateway 時，常見痛點是：本機看閘道正常，Prometheus 卻 up=0；或 Grafana 曲線「夜間尖刺」被告警轟炸。本文給出抓取拓撲與告警寬限期決策矩陣、七步可複現 Runbook、可複製的 scrape / PromQL / 告警片段，以及 FAQ。

2026年 OpenClaw Gateway Prometheus 與 Grafana 遠端實體 Mac 可觀測性

1. 導語與指標前綴說明

本文面向把 OpenClaw 跑在租用的實體 Mac（如 ZoneMac 節點）上的團隊：你需要把閘道的 HTTP 時延、錯誤率與行程存活變成可查詢、可對帳、可告警的序列，而不是僅靠 SSH 上去 curl。

不同 OpenClaw 版本暴露的指標名稱可能基於底層執行時期（Node.js prom-client、OpenTelemetry，或閘道內建統計）。下文的 PromQL 以常見的 HTTP 服務端指標為例：http_request_duration_seconds_*、http_requests_total（或 *_bucket/_sum/_count）。請用 curl -s localhost:埠/metrics | grep -E 'http_|process_' 對照你現場實際前綴並替換查詢。若你正在對齊小版本升級後的 OpenAI 相容端點與模型轉發，可延伸閱讀 2026年 OpenClaw Gateway 小版本升級與 OpenAI 相容端點演進：/v1/embeddings 與模型轉發在遠端實體 Mac 上的可複現遷移 Runbook。

若你仍在加固安裝與行程基線，可先讀 2026年 OpenClaw 完整安裝指南：Mac / Windows / Linux 全平台部署教程；需要調優 Node 與檔案句柄時，可對照 2026年如何在 Mac 上高效運行 OpenClaw 專案：環境設定與效能最佳化指南。若要一併把 Cron 備份與 JSONL 可觀測性收斂到同一 Runbook，請見 2026年 OpenClaw Gateway 定時備份與可觀測性實戰：Cron 排程、openclaw backup 與 JSONL 日誌在遠端實體 Mac 7×24 環境上的可複現 Runbook。

2. 痛點拆解

限制：監聽位址與抓取端「看不見彼此」。閘道若只綁定 127.0.0.1，而 Prometheus 跑在容器或另一台觀測機，則 scrape 永遠失敗——表現為 up=0，但你在 Mac 上本機 curl 正常。
隱性成本：高基數標籤與過短 scrape_interval。在路徑或 API Key 片段上打 label 會讓 TSDB 膨脹；1 秒級抓取在 Wi‑Fi 或跨隧道時放大抖動，Grafana 上像「毛刺」。
穩定性與誤報：macOS 節能與發布視窗。顯示器關閉、硬碟睡眠或一次熱重載會讓 p95 短時飆升；若告警 for: 0s，PagerDuty 會在凌晨炸鍋。

3. 抓取與告警：決策矩陣

發布前用下表對齊「誰在什麼網路命名空間抓」與「告警要不要綁業務小時」。

維度	本機 Prometheus / vmagent	遠端集中 Prometheus
網路路徑	與閘道同機或同 bridge，最易打通 `127.0.0.1`	需閘道監聽 LAN 或經反代／Tailscale 暴露唯讀 metrics
維運負擔	每節點一份設定，升級要批次改	規則與大盤一處維護，依賴網路穩定
典型適用	單租戶、強隔離、先跑通可觀測閉環	多區域多節點統一 SLO 與告警路由

告警風格	適用	主要風險
for: 2–5m + 速率類條件	閘道 HTTP 5xx、逾時、錯誤率	真實長故障發現略晚幾分鐘（可接受時換 SLA）
for: 0 + up 探針	行程消失、埠不響應	部署滾動時易誤報，需靜默或合併告警
分時段／靜默	已知維護窗、備份與 GC 尖峰	靜默過期忘關會掩蓋真實事故

4. 七步落地 Runbook（遠端實體 Mac 可複現）

確認指標端點與綁定。在閘道設定中開啟 metrics，核對 metrics_path（多為 /metrics）與監聽 IP；若需被遠端抓取，避免僅 127.0.0.1。
本機冒煙。curl -sS http://127.0.0.1:監聽埠/metrics | head -n 40，確認 HELP／TYPE 行存在 HTTP 與 process 指標。
選擇抓取側。單節點 PoC 可在同機跑 Prometheus；多節點建議 vmagent 遠端寫或集中 Prometheus + 防火牆白名單。
編寫 scrape（見下節）。設定 scrape_interval: 15s～30s、合理 scrape_timeout，並對 instance 做穩定 relabel。
接入 Grafana。新增 Prometheus 資料來源，建立「全域 RPS、p95、5xx 比例、up、scrape 耗時」五塊面板。
定義告警與路由。對錯誤率與 up 使用不同 for；發布窗用 Alertmanager 靜默或 CI 傳入維護標記。
對照 macOS 7×24 設定。有線網路、關閉硬碟睡眠、固定時區與 NTP；與 OpenClaw v2026.3 部署排錯（Node 22 / SecretsRef）中的權限問題區分：metrics 正常但業務 500 時先看應用程式日誌而非 Prometheus。

5. 可複製 scrape、PromQL 與告警

5.1 Prometheus `scrape_configs` 片段

將 targets 與埠改成你的閘道監聽；若走反向代理，請在代理層放行 /metrics 且禁止快取。

scrape_configs:
  - job_name: openclaw-gateway
    scrape_interval: 15s
    scrape_timeout: 10s
    metrics_path: /metrics
    static_configs:
      - targets:
          - '127.0.0.1:18789'
        labels:
          env: prod
          role: gateway
    # relabel_configs:
    #   - source_labels: [__address__]
    #     target_label: instance

5.2 Grafana 面板查詢（請按現場指標名替換）

每秒請求（RPS）：sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
p95 延遲（histogram）：histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket{job="openclaw-gateway"}[5m])) by (le))
5xx 占比（範例）：sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
抓取健康：up{job="openclaw-gateway"} 與 scrape_duration_seconds{job="openclaw-gateway"}

5.3 告警規則片段（Prometheus `rule_files`）

groups:
  - name: openclaw_gateway
    rules:
      - alert: GatewayScrapeDown
        expr: up{job="openclaw-gateway"} == 0
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "OpenClaw metrics 不可抓取"
      - alert: GatewayHigh5xxRatio
        expr: sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m])) > 0.05
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "5xx 比例 > 5%（按現場標籤調整）"

若你的指標沒有 status 標籤，可改為按 code 或閘道自訂的 outcome 分組；關鍵是先在一個固定時間窗內用 Grafana Explore 驗證向量非空再寫告警。

6. 典型誤報分診

現象	優先懷疑	處理
間歇性 `up=0`	隧道重連、Wi‑Fi 省電、監聽僅回環	改有線、修正 bind、對隧道告警單獨 `for`
夜間 p95 偶發飆高	硬碟睡眠、Time Machine、Spotlight	關硬碟睡眠；備份遷視窗；告警加「連續兩次」條件
發布時 5xx 告警	滾動重啟、健康檢查尚未就緒	CI 觸發 Alertmanager 靜默；readiness 與 metrics 分開 job
TSDB 記憶體暴漲	路徑／使用者 id 被打進 label	應用側降基數；Prometheus `metric_relabel` drop

7. 可引用資訊（簽字用閾值）

scrape_interval：生產建議 15s（最低不要低於閘道單請求 p99 的量級，避免自激）；跨洲鏈路可放寬到 30s。
scrape_timeout：建議 ≤ scrape_interval 的 2/3，隧道場景明確 10s 起。
告警 for：可用性類 2m 起；比率類錯誤 5m 起，與 SLO burn rate 對齊後再收緊。

8. FAQ

Q：要不要給 /metrics 加 Basic Auth？

A：要，若路徑必須過公網或共享租戶網路。更推薦僅內網 + mTLS／SSH 隧道，把鑑權複雜度留在邊緣。

Q：Mac 上時區會影響 PromQL 嗎？

A：Prometheus 儲存 UTC；Grafana 選面板時區即可。若你在日誌裡用本地時間對齊事件，請統一用同一時區顯示，避免「告警比日誌早一小時」的誤會。

Q：能否用 node_exporter 補主機指標？

A：可以，另建 job_name: node，便於把「閘道 5xx」與「磁碟滿／CPU 飽和」關聯分診。

9. 總結與節點選型

把 OpenClaw Gateway 的 HTTP 與行程指標接入 Prometheus／Grafana 後，7×24 實體節點的故障會從「登入機器猜」變成「看 up、錯誤率與 p95 是否同向惡化」。關鍵是監聽位址與抓取側網路一致、告警帶 for，以及把 macOS 節能與發布視窗從 SLO 雜訊裡剝離。

這類「閘道 + 觀測堆疊」工作流在 macOS 上落地很順：與 launchd、日誌與 Unix 工具鏈同堆疊，Apple Silicon 機型 idle 功耗低，適合長期在線；與同價位小型 x86 相比，穩定性與能效通常更好，且 Gatekeeper、SIP、FileVault 為憑證與隧道入口提供系統級邊界——正是遠端閘道場景最關心的。

如果你希望把本文的 scrape 與大盤跑在靜音、低功耗、可 7×24 託管的硬體上，Mac mini M4 仍是 2026 年極具性價比的起點；現在即可透過 ZoneMac 取得遠端實體 Mac 節點，把閘道指標與告警一次性納入生產基線。

遠端 Mac 節點

用實體 Mac 跑通 OpenClaw 與 Prometheus 全鏈路？

ZoneMac 提供多區域實體 Mac，適合 7×24 閘道與可觀測落地——按需開通，與本文 scrape 同級驗收。

按需付費實體隔離可稽核