2026 OpenClaw × Ollama lokale Inferenz auf einem ZoneMac Remote-Apple-Silicon-Mac: Gateway-Parallelrouting—Installation, Gewichts-Pulls und Portkonflikte (openclaw.json + FAQ)
Betriebsteams, die OpenClaw mit Ollama auf einem ZoneMac-Physisch-Mac kollokieren, brauchen reproduzierbare lokale Token ohne gebrochene Gateway-Gesundheitsprüfungen. Dieser Artikel liefert Installationspfad, Disziplin für GGUF-Pulls, ein kopierbares openclaw.json-Fragment für Parallelrouting, eine Port-Matrix für 11434 vs. 18789, sieben ausführbare Schritte, zitierfähige Schwellen und eine FAQ—ergänzt um Deep-Links zu Doctor/18789 und OpenAI-kompatiblen Weiterleitungen.
Leitidee und Nutzen
Operatoren, die Ollama mit einem OpenClaw-Gateway auf demselben gemieteten Apple-Silicon-Knoten betreiben, stoßen oft auf drei Überraschungen: stiller Speicherdruck bei parallelen ollama pull, mehrdeutiges Loopback bei SSH-Weiterleitungen und Bind-Reihenfolgen zwischen Inferenz (11434) und Gateway-Diagnostik (18789).
Sie erhalten ein kopierbares openclaw.json-Fragment für Local-First-Routing mit begrenztem Cloud-Overflow, eine Port-Triage-Tabelle und Abnahme-Checks, die einen launchd-Neustart überstehen.
Für Hot-Reload, openclaw doctor und reproduzierbare Gesundheitsproben auf Port 18789 siehe
OpenClaw Mehrkanal-Gateway: Doctor, Gesundheitsproben und Port 18789 (Runbook + FAQ).
OpenAI-kompatible Endpunkte und Modell-Forwarding ergänzen Sie mit
OpenClaw Gateway Minor Upgrade: /v1/embeddings und Forwarding auf physischem Fern-Mac.
Drei typische Fehlermuster auf unbeaufsichtigten Gateways
- Kopplung von Platte und Unified Memory. Große GGUF-Entpack-Spitzen fallen mit JSONL-Rotation des Gateways zusammen; APFS-Snapshots oder aggressive Parallelität bremsen beide Dienste—ohne klares OOM-Banner in der Oberfläche.
- Impliziter Egress und Compliance-Drift. Lokale Inferenz entfernt Cloud-Token-Verkehr, aber Plugins rufen weiter APIs an—ausgehende Policy bleibt orthogonal zu prüfen.
- Port-Semantik vs. Operator-Mentalmodell. Ein erfolgreicher
curlauf 11434 am Knoten beweist nicht, dass Ihr Laptop denselben Prozess trifft; 18789-Proben sind von Modellverkehr zu trennen, wenn Healthchecks automatisiert werden.
Routing-Entscheidungsmatrix (strikt lokal vs. Hybrid vs. nur Cloud)
Vor Konfigurationsänderungen eine Spur wählen—nachträgliche Bind-Adressen invalidieren Firewall-Tickets und SSH-Sprungrezepte.
| Profil | Wann wählen | Ollama-Bind | OpenClaw-Fallback |
|---|---|---|---|
| Strikt lokal | Daten dürfen RAM/Platte nicht verlassen; air-gapped-Richtlinie | 127.0.0.1:11434 | Deaktiviert—fail-closed bei Miss |
| Hybrid (empfohlen) | Kosten/Latenz-Trade-off; Cloud bei Warteschlangenlast | 127.0.0.1:11434 | Timeout ≤ 8 s, dann Cloud-Route |
| Cloud primär | Knoten hat zu wenig RAM für Zielkontext | Optional nur für Entwicklung | Standard-Upstream-Modelle |
Siebenstufiges reproduzierbares Runbook
- Netzannahmen einfrieren. Median-RTT, p95-Jitter und 60 s Verlust zur Gateway-Region erfassen; Median-RTT > 120 ms als Warnband für interaktive Tool-Schleifen.
- Ollama (ARM64) installieren und Loopback pinnen.
OLLAMA_HOST=127.0.0.1:11434in derselben Umgebung wie dielaunchd-plist exportieren, damit Reboots nicht auf Wildcard-Binds zurückfallen. - Pulls serialisieren. Nur ein
ollama pullgleichzeitig;df -hso, dass nach Entpacken ≥ 15 % frei bleiben; Tags in Git manifestieren. - Parallele Backends zusammenführen. JSON-Fragment unten verwenden; lokale Route Priorität 10, Cloud 50; pro Route
maxConcurrencysetzen, um Metal/ANE-Konkurrenz zu deckeln. - Zwei launchd-Labels registrieren.
ollama serveundopenclaw gatewaytrennen; bei labiler StromumgebungThrottleInterval≥ 2 s. - Listener beweisen.
lsof -nP -iTCP:11434 -sTCP:LISTENundlsof -nP -iTCP:18789 -sTCP:LISTEN; wenn leer, Stderr-Logs lesen—nicht nur Exit-Codes. - Doctor + Minimal-Generate.
openclaw doctor, dann 16-Token-Smoke per POST an Ollama; Gateway-request_idin JSONL-Audit-Tails verifizieren.
openclaw.json-Fragment—parallele Backends (illustrativ)
Schlüssel an Ihr installiertes OpenClaw-Schema anpassen; die Absicht sind geordnete Routen, Timeouts und explizite baseUrl, damit Operatoren Konfigurationen bei Incidents per grep finden.
{
"models": {
"router": {
"strategy": "parallel-failover",
"routes": [
{
"id": "ollama-local",
"priority": 10,
"provider": "openai-compatible",
"baseUrl": "http://127.0.0.1:11434/v1",
"model": "llama3.1:8b",
"timeoutMs": 8000,
"maxConcurrency": 2
},
{
"id": "cloud-overflow",
"priority": 50,
"provider": "anthropic",
"model": "claude-3-5-sonnet-20241022",
"timeoutMs": 20000,
"maxConcurrency": 6
}
]
}
},
"gateway": {
"bind": "127.0.0.1",
"port": 18789,
"healthPath": "/health"
}
}
Wenn Ihre Distribution Gateway-Felder anders verschachtelt, bleibt die Invariante: Ollama auf Loopback; öffentlicher Ingress (falls nötig) endet auf nginx/traefik mit TLS und leitet nach 127.0.0.1 weiter—rohes Ollama am Tenant-Rand nicht exponieren.
Zitierfähige Kennzahlen
- 8 s lokales Routen-Timeout vor Cloud-Overflow im Hybrid-Modus (SLA-nachjustierbar).
- 11434 Standard-Ollama-TCP-Port; 18789 gängige OpenClaw-Gateway-Port—beide im Runbook dokumentieren.
- ≥ 1,3× ausgewiesene GGUF-Bytes frei auf APFS vor Pulls auf geteilten Audit-Volumes.
- 2 parallele lokale Generierungen als konservativer Startwert auf 16 GB Unified-Knoten mit kollokierten Xcode-lastigen Workloads.
FAQ
Soll Ollama nur auf 127.0.0.1 lauschen, wenn OpenClaw denselben Mac nutzt?
Ja für typische unbeaufsichtigte Gateways: auf Loopback binden; seltene LAN-Anforderungen nur mit authentifiziertem Reverse-Proxy bedienen.
Warum connection refused auf 18789, während 11434 noch funktioniert?
Unterschiedliche Daemons. launchd-Exit-Codes, plist-Pfade und macOS-Datenschutz prüfen, die das Gateway-Binary blockieren, obwohl Ollama gesund ist.
Wie vermeide ich volle Festplatten bei Pulls und JSONL-Rotation?
Pulls serialisieren, freien Speicher kontinuierlich überwachen und schwere Modellstores auf ein dediziertes Volume legen, wenn Auditlogs schnell wachsen.
Umgeht Parallelrouting die ausgehende Governance?
Nein. Domain-Allowlists, Sandbox und Human-in-the-Loop aktiv lassen; lokale Modelle senken Cloud-Kosten, nicht den Sicherheitsumfang.
Warum Apple Silicon Mac mini die sauberste Basis für diesen Stack ist
Ollama und OpenClaw profitieren von hoher Speicherbandbreite und leisen Thermik: Apple Silicon bündelt CPU, GPU und Neural Engine im selben Unified-Memory-Pool—ohne PCIe-Shuffle wie bei kleinen x86-Kisten mit nachgerüsteter GPU. macOS ergänzt das mit launchd-Überwachung, niedrigen Absturzraten und POSIX-Tooling—ideal, wenn das Gateway nachts ohne KVM-Heldentum laufen muss.
Sicherheit: Gatekeeper, SIP und FileVault schichten Schutz auf einem Rechner, der API-Material und lokale Gewichte speichert. Wirtschaftlich zieht eine Mac-mini-Klasse im Leerlauf grob 4 W bei weiterhin brauchbarer Inferenz—deutlich unter vielen Tower-PCs mit diskreter GPU im Idle.
Wenn Sie dieses Hybrid-Routing auf Hardware fahren möchten, die für stille 7×24-Dienste gebaut ist, ist Mac mini mit Apple Silicon der ausgewogenste Einstieg—ZoneMac-Knoten prüfen und das Runbook oben direkt in Produktion nehmen.
Physischer Mac-Gateway für OpenClaw mieten
ZoneMac stellt dedizierte Apple-Silicon-Hosts bereit—loopback-sichere Defaults, Platz für Ollama-Gewichte und Raum für Audit-JSONL, wie dieses Runbook annimmt.