Prometheus zeigt up=0, curl /metrics auf dem Mac funktioniert—was zuerst prüfen?

Prüfen Sie, ob das Scrape-Ziel vom Prometheus-Host erreichbar ist: lauscht das Gateway nur auf 127.0.0.1, Prometheus aber in Docker oder auf einem anderen Host, schlagen Scrapes fehl. Bind an eine LAN-Schnittstelle, stellen Sie schreibgeschützte Metriken hinter einen Reverse Proxy, oder betreiben Sie den Scraper im selben Netzwerk-Namespace wie das Gateway.

Können macOS-Energieeinstellungen nachts falsche Latenz-Spikes erzeugen?

Ja. „Ruhezustand verhindern, wenn Display aus“ garantiert nicht, dass Festplatte und WLAN voll wach bleiben; App Nap, WLAN-Energiesparen und Display-Features können Jitter erzeugen. Für 7×24-Knoten: Ethernet statt WLAN, WLAN deaktivieren, Festplatten-Ruhezustand in den Energieeinstellungen abschalten und p95-Alerts mit längerem for oder stündlichen Silences von Ruhezeiten entkoppeln.

Soll Grafana rate oder irate für RPS nutzen?

rate(...[5m]) für glattere Trends; irate(...[2m]) betont Spikes, ist aber lauter. In Alert-Regeln rate bevorzugen und for nutzen, um Flattern zu unterdrücken.

Soll ich /metrics direkt im Internet exponieren?

Nein. mTLS, SSH-Tunnel, Tailscale oder private Reverse Proxies mit IP-Allowlist oder Bearer-Tokens verwenden; Metriktexte verraten oft Build-Versionen und Pfade.

Bereitstellungs-Leitfaden 2026-04-13 · ~10 Min

2026 OpenClaw Gateway: Prometheus-Metriken & Grafana-Dashboards – /metrics-Scraping, Alert-Schwellen & typische Fehlalarme auf physischem Fern-Mac 7×24 (kopierbare Scrape- & Panel-Queries + FAQ)

Plattform- und SRE-Teams, die OpenClaw Gateway auf physischen Fern-Macs betreiben, sehen oft: per SSH wirkt alles gesund, Prometheus meldet up=0, oder Grafana „Nacht-Spikes“ wecken um 3:00 Uhr den Bereitschaftsdienst. Dieser Beitrag liefert eine Entscheidungsmatrix für Scrape-Topologie und Alert-Toleranz, ein siebenstufiges, reproduzierbares Runbook, kopierbare scrape_configs / PromQL / Alert-Snippets und eine FAQ.

2026 OpenClaw Gateway mit Prometheus und Grafana auf physischem Fern-Mac

1. Einleitung & Metrik-Präfixe

Dieser Leitfaden richtet sich an Teams, die OpenClaw auf gemieteten physischen Macs (z. B. ZoneMac-Knoten) betreiben. Sie benötigen HTTP-Latenz, Fehlerquoten und Prozess-Gesundheit als abfragbare, auditierbare, alarmierbare Zeitreihen—nicht nur Ad-hoc-curl über SSH.

Metriknamen variieren je nach OpenClaw-Version und Runtime (Node.js prom-client, OpenTelemetry oder eingebaute Gateway-Statistiken). Die folgende PromQL geht von typischen HTTP-Server-Metriken wie http_request_duration_seconds_* und http_requests_total (bzw. *_bucket/_sum/_count) aus. Auf dem Host curl -s localhost:<port>/metrics | grep -E 'http_|process_' ausführen und Namen in den Queries anpassen.

Wenn Sie die Installation und die Prozess-Baseline noch härten, starten Sie mit OpenClaw-Installationsanleitung: Mac, Windows & Linux (2026); für Node-Tuning und Dateideskriptoren siehe OpenClaw effizient auf dem Mac ausführen: Umgebung & Performance.

2. Schmerzpunkte

Bind-Adresse vs. Standort von Prometheus. Lauscht das Gateway nur auf 127.0.0.1, Prometheus aber in einem Container oder auf einem separaten Observability-Host, schlagen Scrapes fehl—up=0—während lokales curl auf dem Mac weiter funktioniert.
Versteckte Kosten: hochkardinale Labels & aggressives scrape_interval. Rohe Pfade oder API-Key-Fragmente in Labels explodieren die TSDB-Kardinalität; 1s-Scrapes über WLAN oder Tunnel verstärken Jitter zu „Haar“-Charts in Grafana.
Stabilität & Fehlalarme: macOS-Energiesparen & Deploy-Fenster. Display-Schlaf, Festplatten-Schlaf oder Hot-Reload können p95 kurz sprengen; Alerts mit for: 0s wecken den On-Call für Rauschen.

3. Scraping & Alerts: Entscheidungsmatrix

Vor Go-Live klären: „Wer scraped aus welchem Netzwerk-Namespace?“ und ob Alerts Geschäftszeiten berücksichtigen sollen.

Dimension	Lokales Prometheus / vmagent	Zentrales Remote-Prometheus
Netzpfad	Gleiche Maschine oder Bridge wie das Gateway—einfachste Nutzung von `127.0.0.1`	Gateway muss auf LAN lauschen oder schreibgeschützte Metriken per Reverse Proxy / Tailscale exponieren
Betriebslast	Pro-Knoten-Konfiguration; Upgrades berühren viele Dateien	Regeln und Dashboards zentral; abhängig von stabiler Erreichbarkeit
Typische Passung	Single-Tenant, starke Isolation, erste Observability-Schleife	Multi-Region-Pools mit einheitlichen SLOs und Alert-Routing

Alert-Stil	Am besten für	Hauptrisiko
for: 2–5m + rate-basierte Expr.	HTTP 5xx, Timeouts, erhöhte Fehlerquote	Erkennt anhaltende Ausfälle erst nach wenigen Minuten (akzeptabel, wenn SLA es erlaubt)
for: 0 + up-Probe	Prozess weg, Port nimmt keine Verbindungen an	Laut bei Rolling-Restarts, außer stummgeschaltet oder zusammengeführt
Zeitbasierte Silence	Bekannte Wartung, Backups, GC-Spikes	Vergessene Silences verbergen echte Vorfälle

4. Sieben-Schritte-Runbook (physischer Fern-Mac)

Endpunkt & Bind bestätigen. Metriken in der Gateway-Konfiguration aktivieren; metrics_path (oft /metrics) und Listen-IP prüfen. Für Remote-Scrapes 127.0.0.1-only vermeiden, außer der Scraper teilt diesen Namespace.
Lokaler Smoketest. curl -sS http://127.0.0.1:<port>/metrics | head -n 40 und HELP/TYPE-Zeilen für HTTP- und Prozess-Metriken prüfen.
Scraper-Platzierung wählen. Single-Node-PoC: co-located Prometheus. Viele Knoten: vmagent mit Remote-Write oder zentrales Prometheus mit Firewall-Allowlists.
Scrape-Konfiguration schreiben (unten). scrape_interval: 15s–30s, sinnvolles scrape_timeout, stabiles instance-Relabeling.
Grafana verdrahten. Prometheus-Datenquelle; Panels für globale RPS, p95, 5xx-Anteil, up und Scrape-Dauer.
Alerts & Routen definieren. Unterschiedliches for für Fehlerquoten vs. rohes up; Alertmanager-Silences oder CI-gesteuerte Wartungsflags bei Deploys.
macOS 7×24 ausrichten. Ethernet bevorzugen, Festplatten-Schlaf deaktivieren, Zeitzone & NTP fixieren. Berechtigungen und SecretsRef-Probleme von Metriken trennen: Wenn der Scrape gesund wirkt, die App aber 500 liefert, zuerst Anwendungslogs prüfen.

5. Kopierbare Scrape-, PromQL- & Alert-Blöcke

5.1 Prometheus-`scrape_configs`-Snippet

targets und Port durch Ihre Gateway-Adresse ersetzen. Hinter einem Reverse Proxy /metrics durchlassen und Caching für diesen Pfad deaktivieren.

scrape_configs:
  - job_name: openclaw-gateway
    scrape_interval: 15s
    scrape_timeout: 10s
    metrics_path: /metrics
    static_configs:
      - targets:
          - '127.0.0.1:18789'
        labels:
          env: prod
          role: gateway
    # relabel_configs:
    #   - source_labels: [__address__]
    #     target_label: instance

5.2 Grafana-Panel-Queries (Metriknamen an den Host anpassen)

Requests pro Sekunde (RPS): sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
p95-Latenz (Histogramm): histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket{job="openclaw-gateway"}[5m])) by (le))
5xx-Anteil (Beispiel): sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m]))
Scrape-Gesundheit: up{job="openclaw-gateway"} und scrape_duration_seconds{job="openclaw-gateway"}

5.3 Alert-Regeln (Prometheus `rule_files`)

groups:
  - name: openclaw_gateway
    rules:
      - alert: GatewayScrapeDown
        expr: up{job="openclaw-gateway"} == 0
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "OpenClaw-Metrik-Endpunkt nicht erreichbar"
      - alert: GatewayHigh5xxRatio
        expr: sum(rate(http_requests_total{job="openclaw-gateway",status=~"5.."}[5m])) / sum(rate(http_requests_total{job="openclaw-gateway"}[5m])) > 0.05
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "5xx-Anteil > 5 % (Labels an Ihr Schema anpassen)"

Nutzen Ihre Metriken code oder ein eigenes outcome-Label statt status, Selektoren entsprechend umschreiben—nicht-leere Vektoren in Grafana Explore validieren, bevor Alerts live gehen.

6. Typische Fehlalarm-Triage

Symptom	Zuerst prüfen	Abschwächung
Intermittierendes `up=0`	Tunnel-Reconnect, WLAN-Energiesparen, Loopback-only-Bind	Ethernet nutzen, Bind fixieren, `for` für tunnelabhängige Jobs verlängern
Nächtliche p95-Spikes	Festplatten-Schlaf, Time Machine, Spotlight	Festplatten-Schlaf aus; Backups verschieben; in der Alert-Expr „zwei aufeinanderfolgende Fenster“ fordern
5xx-Alerts beim Deploy	Rolling-Restart, Readiness noch nicht wahr	CI-getriggerte Alertmanager-Silence; Readiness- vs. Metrik-Scrape-Jobs trennen
TSDB-Speicher wächst	Pfad oder Nutzer-ID in Labels	Kardinalität in der App senken; `metric_relabel_configs` zum Droppen von Labels

7. Zitierfähige Schwellen

scrape_interval: 15s in Produktion (nicht schneller als die eigene Tail-Latenz des Gateways ohne Grund); 30s auf interkontinentalen Links.
scrape_timeout: ≤ ~2/3 von scrape_interval; bei getunnelten Pfaden mit 10s starten.
Alert for: Verfügbarkeitsregeln ab 2m; Quotientenregeln ab 5m, danach nach SLO-Burn-Rate verschärfen.

8. FAQ

F: Basic Auth vor /metrics?

A: Ja, wenn der Pfad ein untrusted oder Multi-Tenant-Netz durchquert. Besser: private Netze + mTLS oder SSH-Tunnel und Auth-Komplexität am Rand halten.

F: Beeinflusst die macOS-Zeitzone PromQL?

A: Prometheus speichert UTC; die Anzeige-Zeitzone in Grafana wählen. Bei Korrelation mit lokalen Logs eine konsistente Zeitzone nutzen, um „Alert vor Logzeile“-Verwirrung zu vermeiden.

F: Darf ich node_exporter für Host-Metriken ergänzen?

A: Ja—separates job_name: node, um Gateway-5xx mit voller Platte oder CPU-Sättigung zu korrelieren.

9. Fazit & Knotenwahl

Sobald HTTP- und Prozess-Metriken von OpenClaw Gateway in Prometheus und Grafana liegen, werden Ausfälle auf 24/7-Physikknoten weniger „SSH und raten“, sondern die Frage: bewegen sich up, Fehlerquote und p95 gemeinsam? Die wiederkehrenden Themen: Bind-Adressen an Scrape-Netzpfade angleichen, for bei Alerts nutzen und macOS-Energiesparen sowie Deploy-Fenster aus SLO-Rauschen herausfiltern.

Dieser „Gateway plus Observability“-Workflow passt zu macOS: launchd, Logs und Unix-Tooling in einem Stack; Apple Silicon idlet mit sehr geringer Leistung—ideal für Always-on-Gateways. Gegen kleine x86-Boxen im ähnlichen Preissegment gewinnen Sie meist Stabilität und Energieeffizienz, während Gatekeeper, SIP und FileVault Credentials und Tunnel-Endpunkte härten—genau das, was Fern-Gateway-Betreiber brauchen.

Wenn Sie die Scrape-Konfigurationen und Dashboards aus diesem Beitrag auf leiser, effizienter, 24/7-tauglicher Hardware betreiben wollen, ist der Mac mini M4 2026 weiterhin einer der preiswertesten Einstiege—holen Sie sich einen physischen Fern-Mac über ZoneMac und heben Sie Gateway-Metriken in einem Rutsch in Ihre Produktionsbaseline.

Fern-Mac-Knoten

OpenClaw und Prometheus Ende-zu-Ende auf echter Mac-Hardware?

ZoneMac bietet mehrregionale physische Macs für 24/7-Gateways und Observability-Rollouts—Kapazität nach Bedarf mit derselben Abnahmequalität wie die Scrape-Konfigurationen in diesem Leitfaden.

Pay as you go Physische Isolation Auditierbar