2026年 OpenClaw × Ollama 本地推理:在 ZoneMac 遠端 Apple Silicon 實體 Mac 上閘道並行路由的安裝、權重拉取與連接埠衝突可複現 Runbook(openclaw.json 片段 + FAQ)
在 ZoneMac 遠端 Apple Silicon 實體 Mac 上,團隊常把 OpenClaw 當統一入口,把 Ollama 當低延遲、可離線的本地執行面;實際摩擦多半來自連接埠與 bind 矩陣、權重拉取長尾,以及閘道並行槽位與統一記憶體的取捨。本文提供決策矩陣、七步 Runbook、可貼上的 openclaw.json 結構示意與 FAQ,並與簡中/英/日/韓姊妹篇以 hreflang 對齊。
1. 導語與適用邊界
適用對象:已在 ZoneMac 租用或維運一台遠端實體 Mac(Apple Silicon),希望把 Ollama 作為本地 OpenAI 相容端點接到 OpenClaw 閘道,並在閘道層做並行路由(多模型 profile、並行槽位、佇列逾時),同時避免與既有反代、健康探針、IDE 外掛連接埠衝突。
本文不取代 OpenClaw 與 Ollama 官方發行說明;欄位名稱請以你目前版本文件為準。多區域團隊在租前網路驗收時,可把 RTT/抖動基線與本文連接埠矩陣一併簽字,參見 多區域實體遠端 Mac 的 RTT/抖動/掉封包 SLO 驗收清單。
OLLAMA_HOST、LaunchAgent 與 SSH 前景執行的差異會直接影響「重開機後是否仍綁在 127.0.0.1」,建議一併對照
OpenClaw 在遠端實體 Mac 上的環境變數與 SecretRef 實戰 Runbook。
2. 痛點拆解
- 限制:統一記憶體是硬頂。並行路由若只加閘道 worker 而不限制 Ollama 側並行,會在 Apple Silicon 上觸發劇烈 swap 或推理驟降;需要「槽位 + 佇列 + 模型常駐策略」三聯。
- 隱性成本:權重拉取與磁碟碎片。
ollama pull在跨區鏈路上可能數小時;若未預留~/.ollama/models空間,會出現閘道「看似上線、推理永遠 500」的假綠燈。 - 穩定性與稽核:連接埠衝突最難查。
11434、閘道 HTTP、反代、Tailscale Serve、VS Code 遠端外掛連接埠若未凍結矩陣,故障會表現為間歇性ECONNREFUSED或「僅本機可複現」。
3. 決策矩陣:路由型態 × 風險
上線前用下表做一次簽字;左列為湊合方案,右列為建議基線。
| 維度 | 湊合方案(高風險) | 建議基線 |
|---|---|---|
| Ollama 暴露面 | 0.0.0.0:11434 對辦公網全開 | 僅 127.0.0.1:11434;由閘道或 mTLS 反代對外 |
| 並行策略 | 無上限並行 worker | 閘道 maxConcurrent 與 Ollama 側模型數上限對齊記憶體曲線 |
| 權重分發 | 正式機現場首次 pull | staging 預拉取 + 校驗後同步;記錄 ollama list 與 digest |
| 混合雲路由 | 同一 profile 內本地與雲端無序混用 | 本地優先、雲端兜底;失敗原因寫入結構化日誌欄位 |
| 可觀測性 | 只看閘道 200 率 | 分拆佇列深度、槽位占用、Ollama 行程 RSS、GPU/ANE 利用率(若可得) |
4. openclaw.json 片段(Ollama + 並行)
以下為結構示意:請與你儲存庫既有鍵合併,變更前先備份 JSON。
4.1 指向上游 Ollama(OpenAI 相容路徑)
{
"gateway": {
"providers": {
"ollama-local": {
"kind": "openai-compatible",
"baseURL": "http://127.0.0.1:11434/v1",
"apiKey": "ollama",
"defaultModel": "qwen2.5:7b-instruct-q4_K_M"
}
},
"router": {
"defaultProfile": "local-first",
"profiles": {
"local-first": {
"primaryModel": "ollama-local/qwen2.5:7b-instruct-q4_K_M",
"fallbackChain": ["cloud/gpt-4o-mini"]
},
"local-parallel": {
"primaryModel": "ollama-local/llama3.1:8b-instruct-q4_0",
"fallbackChain": ["ollama-local/qwen2.5:7b-instruct-q4_K_M"]
}
}
}
}
}
4.2 閘道並行槽位與佇列(示意)
{
"gateway": {
"runtime": {
"maxConcurrentInference": 2,
"queue": {
"maxDepth": 64,
"waitTimeoutMs": 45000,
"dropPolicy": "reject-with-429"
}
},
"upstream": {
"timeouts": {
"connectMs": 5000,
"requestMs": 300000,
"streamIdleMs": 120000
}
}
}
}
maxConcurrentInference 應與機器統一記憶體與模型體積聯調;Apple Silicon 上建議由 1→2 階梯放量並觀察 RSS 高原期。
5. 七步落地 Runbook(遠端實體 Mac)
- 凍結連接埠矩陣。在工單列出 Ollama、OpenClaw HTTP(S)、反代、探針、可選 IDE 隧道連接埠;以
lsof -nP -iTCP -sTCP:LISTEN拍照歸檔。 - 安裝 Ollama 並固定 bind。建議
export OLLAMA_HOST=127.0.0.1:11434寫入 launchd EnvironmentVariables 或 brew services 環境,避免預設監聽面過大。 - 拉取權重與磁碟預算。執行
ollama pull <model>;並行df -h監控資料碟;7B 級 Q4 權重常落在 4–6 GiB 區間,規劃時預留解壓與快取餘量。 - 本機黃金請求。
curl -sS http://127.0.0.1:11434/api/tags與最小 chat completion;確認模型 digest 與閘道引用名一致。 - 合併 openclaw.json。先加 providers 與 router profile,再加 runtime 並行區塊;
cp openclaw.json openclaw.json.bak.$(date +%Y%m%d%H%M)。 - 並行冒煙。以兩道並行 curl 或指令稿模擬同 profile 雙請求,觀察是否出現佇列等待、
stream idle斷流或記憶體尖峰。 - 歸檔與回滾。保存 JSON 片段、連接埠表、
ollama list輸出與閘道日誌取樣;回滾為還原 bak 並 reload。
6. 連接埠衝突分診表
| 現象 | 優先懷疑 | 動作 |
|---|---|---|
| Ollama 啟動報 address already in use | 11434 被舊行程或其他服務占用 | lsof -i :11434;結束殭屍行程或改 OLLAMA_HOST 連接埠並同步改閘道 baseURL |
| 閘道健康檢查偶發失敗 | 反代 upstream 指錯連接埠或僅 IPv6 監聽 | 對 127.0.0.1 與 ::1 雙路徑 curl;對齊 nginx/Caddy 的 proxy_pass |
| 僅遠端 SSH 隧道內可存取 | Ollama 僅回環,未做 -L 轉發 | 區分「維運偵錯隧道」與「閘道同機回環」;正式路徑應同機直連 |
7. 可引用資訊(寫入 Runbook 表頭)
- 預設 Ollama 監聽:常見為
11434/TCP(以環境變數為準)。 - 磁碟預算經驗值:單卡 7B Q4 權重與中繼資料合計常落在約 4–6 GiB;規劃拉取目錄時依模型卡官方體積再上浮 15–25%。
- 並行起點:16GB 統一記憶體機型上本地推理並行槽位建議由 1 起步,冒煙通過後再試 2,並記錄 RSS 高原期與 p95 延遲。
8. FAQ
問:Ollama 必須監聽 0.0.0.0 才能被 OpenClaw 呼叫嗎?
不必。建議 Ollama 僅綁定 127.0.0.1:11434,由同機 OpenClaw 經回環存取;若確有其他主機直連需求,再另行做 TLS 與防火牆,並避免與閘道對外連接埠重疊。
問:ollama pull 很慢或中斷怎麼辦?
先核對 df -h;再更換鏡像時段或走企業出口代理;大型模型可先在近源 staging 拉齊後依官方指引遷移 blobs,並在目標機執行 ollama list 校驗 digest。
問:閘道與 Ollama 爭用同一連接埠如何排查?
使用 lsof -nP -iTCP -sTCP:LISTEN 列出監聽行程;調整 OLLAMA_HOST 或閘道 bind 後,以兩道 curl 健康路徑分別驗收。
問:並行路由會不會把 Apple Silicon 統一記憶體打爆?
會。必須同時限制閘道並行與常駐模型數量,並為串流請求設定合理的 streamIdleMs;觀測記憶體後再逐步放寬並行度。
9. 總結與節點選型
把 Ollama 放在 Apple Silicon 實體 Mac 上跑本地推理,本質是吃統一記憶體頻寬與 Metal 路徑的低延遲;OpenClaw 閘道則負責契約統一、並行槽位與雲端兜底。兩者併在一起時,真正決定穩定性的是連接埠矩陣與並行預算,而不是單一「模型名稱」。
在 macOS 上,Homebrew、launchd、回環探測與開發者工具鏈原生可用,遠端維運不必在 WSL 或驅動層反覆折騰;Mac mini M4 一類機型以較低待機功耗適合作為 7×24 閘道與本地推理共存節點,搭配 Gatekeeper、SIP、FileVault 提供比典型 x86 家用機更清晰的安全基線。
若你希望把本文 Runbook 跑在靜音、低功耗且可長期在線的 Apple Silicon 上,Mac mini M4 目前仍是性價比極高的起點——統一記憶體與神經網路引擎讓本地推理與閘道轉發可以同機共存,而無需額外獨顯與複雜散熱。
現在即可透過 ZoneMac 取得遠端 Apple Silicon 實體 Mac 節點,把 OpenClaw × Ollama 的並行路由與權重治理落在可驗收的正式基線上。
用遠端實體 Mac 跑通 OpenClaw × Ollama?
ZoneMac 提供可驗收的遠端 Apple Silicon 環境,適合閘道與本地推理同機部署。