Когда OpenClaw Gateway в Pod должен использовать bind=lan, а когда только 127.0.0.1?

Loopback — если к слушателю обращаются только sidecars в том же Pod или пиры в том же сетевом namespace. Если трафик приходит через Service, Ingress или NodePort с других Pod или узлов, нужен bind=lan (или эквивалент 0.0.0.0 / dual-stack); трафик, перенаправленный kube-proxy, не попадёт на сокет, привязанный только к loopback.

Какие ложноположительные сигналы типичны при приёмке через kubectl port-forward?

port-forward проверяет только путь от клиента kubectl до порта Pod — не in-cluster DNS, NetworkPolicy, Ingress и не сквозной mTLS. Долгие soak-тесты чувствительны к kubeconfig и обрывам клиента; дымовые проверки держите отдельно от SLO-проб.

При OOMKilled сначала поднимать лимиты памяти или снижать параллелизм?

Начните с kubectl describe pod (Last State и лимиты cgroup), затем кривой рабочего набора шлюза. Если лимиты явно ниже P95 resident плюс пиковый буфер — поднимите requests/limits с зафиксированным образом и перепроверьте. Если всплески связаны с штормом tool-call — троттлинг, батчинг или реплики до бесконечного роста лимитов.

Readiness NotReady, а в логах процесс уже стартовал — как triage?

Проверьте, что проба бьёт в правильный порт и путь на IP Pod, что startPeriod или startupProbe покрывают холодный старт, что вы не пробуете 127.0.0.1 при bind=lan, и что NetworkPolicy разрешает источники проб kubelet. Временно упростите readiness до минимального TCP probe как у liveness, чтобы отделить проблемы HTTP-маршрутизации.

Что сверить в чек-листе приёмки при сравнении с удалённым физическим Mac?

Согласуйте семантику single-instance launchd и пути логов, отсутствие Screen Sharing и прав подписи в контейнерных путях, влияние часового пояса хоста и политики питания на cron-задачи, различия Docker Desktop/Colima и чистого Kubernetes по сетевым namespace — чтобы одна и та же версия OpenClaw давала эквивалентные health-сигналы на обоих контурах.

Руководство по развёртыванию 2026-04-08 14 мин

2026: OpenClaw Gateway в Kubernetes — развёртывание и приёмка: фиксация версий, квоты ресурсов, bind=lan, port-forward и типичный откат при OOM/NotReady (FAQ + сравнение с удалённым физическим Mac)

Платформенным и SRE-командам, выкатывающим OpenClaw Gateway в Kubernetes, часто не хватает приёмки из-за дрейфа образов, несогласованных проб и bind, дымовых port-forward, не совпадающих с реальным трафиком, и неясности: откатываться или перенастраивать при OOM/NotReady. В статье — сканируемая матрица Kubernetes vs удалённый физический Mac, runbook из семи шагов, пороги для тикетов и FAQ по симптомам.

1. Введение: зачем приёмке шлюза в Kubernetes нужны сетевые и cgroup-доказательства

На «голом железе» строка «порт поднялся» часто равна успешному bind. В Kubernetes тот же лог проходит через Service, kube-proxy (или datapath CNI), NetworkPolicy и учёт памяти cgroup. Если OpenClaw Gateway держит модель 127.0.0.1 с ноутбука, получаются ложные срабатывания: curl в Pod проходит, а трафик через Service — нет, или readiness красный, хотя процесс жив.

Здесь связка доказательств для подписи: digest образа и хэш Helm values, requests/limits согласованные с OOM, bind=lan согласованный с targetPort и дымовой port-forward, перекрёстно проверенный с in-cluster пробами. Если вы выбираете регион для узлов, начните с руководства по региону облачного Mac-сервера; эту матрицу используйте как родительский шаблон приёмки «одна версия — два контура».

2. Три боли: дрейф версий, bind и пробы, квоты и шумный трафик

Дрейф версий и невоспроизводимость: в проде :latest или теги без digest; через две недели тот же тег пересобран с другим поведением. Откат не доказывает, что старый ReplicaSet совпадает с бинарём инцидента.
Конфликт bind, Service и проб: шлюз слушает loopback, а readiness бьёт в IP Pod; или bind=lan верен, но NetworkPolicy пропускает только Ingress CIDR и пробы kubelet режутся — NotReady соседствует с «чёрными дырами» трафика.
Квоты ресурсов и скрытая цена: без requests расписание «успешно», пока узел не уплотнится и не последует отложенный OOM; крошечные limits убивают процесс на пиках tool-call с кодом 137 и почти без логов — без метрик сложно отделить утечки от нормальных всплесков.

3. Матрица решений: Kubernetes vs удалённый физический Mac

Зафиксируйте «кто побеждает при каком ограничении», чтобы привычки launchd не копировались в Pod один в один.

Измерение	Kubernetes (Deployment + Service)	Удалённый физический Mac / launchd
Bind слушателя	`bind=lan` (или 0.0.0.0), чтобы Service достигал Pod; loopback — только для sidecars в том же Pod	Часто `127.0.0.1` за nginx/Caddy с TLS на периметре
Фиксация версий	Digest образа + версия chart + хэш values в тикете	Контрольная сумма + lockfile + поля версии в plist launchd
Изоляция	OOMKilled и throttle CPU в cgroup аудируемы	Unified memory и политика swap; следить за memory pressure и троттлингом
Ad-hoc приёмка	`kubectl port-forward` для дыма — не замена in-cluster путям	Локальный `curl` или SSH-туннели; короче путь, меньше углов реплик
Типичный откат	`kubectl rollout undo` или предыдущий зафиксированный digest	Замена бинаря/тега образа + `launchctl kickstart -k`; учитывать блокировки single-instance

4. Семь шагов runbook (bind=lan и port-forward)

Зафиксировать версии: CI пишет в тикет repo@sha256:…, версию Helm chart и git SHA values.yaml; блокировать прод-пайплайны на плавающих тегах.
Задать ресурсы: requests.memory около P95 resident; limits.memory покрывает tool-call и JSON-буферы; CPU requests не дают попасть на уже перегруженные узлы.
Согласовать bind и порты: при трафике через Service/Ingress — bind=lan (или задокументированный dual-stack listen) и сверка containerPort, targetPort и портов проб.
Настроить пробы: readiness использует тот же протокол/хост/путь, что и реальный трафик; initialDelaySeconds / startupProbe для холодного старта, чтобы загрузка skills не крутила NotReady.
Дымовой port-forward: с машины ops — kubectl port-forward deploy/openclaw-gateway 18789:18789 (порт замените), минимальный health и один tool-call; затем in-cluster проба и запись, совпадают ли пути.
Наблюдение и алерты: связать рестарты, OOMKilled, длительность readiness=false, 5xx и глубину очереди шлюза на одном дашборде; хранить окна 24 ч до/после изменения.
Сверка с bare metal: на удалённом физическом Mac повторите ключевые сигналы с тем же digest (native или Compose) и зафиксируйте отличия; см. OpenClaw на Windows и Linux: PowerShell, WSL2, корпоративный HTTPS-прокси и удалённый macOS-шлюз.

5. Пороги и параметры для ссылок в документах

Фиксация образа: в прод-тикетах — digest и build id; откаты сверяют метки времени инцидента.
Запас по памяти: при наблюдаемых пиках tool-call держите limits примерно на 25–40% выше объяснимого P95 resident; сначала троттлинг, а не слепое удвоение.
Старт проб: при холодном старте >30 с — startupProbe или grace ≥40–60 с, согласованный с загрузкой workspace/skills OpenClaw.
port-forward: только дым; SLO приёмки должны включать in-cluster DNS Service и путь Ingress/TLS.

6. FAQ: OOM, NotReady и откат

Расширяет ли bind=lan поверхность атаки?

Слушать не-loopback внутри Pod не равно выставить шлюз в интернет; поверхность задают тип Service, Ingress, NetworkPolicy и egress. Аудируйте «bind процесса» и «кто может маршрутизировать к Pod» раздельно.

Первый шаг при OOMKilled?

Читайте Last State в kubectl describe pod, давление памяти на узле и код 137; коррелируйте с параллельными tool-call и размером полезной нагрузки.

NotReady, а в логах «listening» — с чего начать?

Проверьте URL/порт/путь пробы, отсутствие startupProbe, NetworkPolicy для источников kubelet и монтирование HTTP-маршрутов только после ready.

Как документировать откат для комплаенса?

Храните предыдущий digest и ревизию Helm; после kubectl rollout undo выполните in-cluster health и минимальный бизнес-handshake, приложите доказательства к тикету.

7. Почему на Mac mini проще сверить ту же версию шлюза

Kubernetes даёт реплики, rolling update и аудит квот; удалённые физические Mac — часто Mac mini M4 — остаются практичной базой для подписи, Screen Sharing и интеграции с экосистемой Apple. Запуск того же digest под launchd до промо образа в кластер снижает сюрпризы с bind и пробами на поздней стадии.

В macOS Unix-инструменты и SSH работают из коробки; Apple Silicon с unified memory стабильнее держит долгоживущие процессы шлюза, чем многие компактные ПК, а порядка 4 Вт в простое делает суточные контраст-тесты экономичными. Gatekeeper, SIP и FileVault снижают риск вредоносов по сравнению с типичными образами Windows. Если нужны эквивалентные health-сигналы на кластере и bare metal, тихий эффективный Mac mini M4 — сильный эталонный узел.

Если вы готовы прогнать этот runbook на реальном железе, Mac mini M4 — экономичный стандартный контрастный узел параллельно с продовыми кластерами.

Ограниченное предложение

Mac mini как «золотой» контрастный узел вне кластера

Сначала примите ту же сборку шлюза на удалённом macOS, затем продвигайте образ в Kubernetes — меньше инцидентов с пробами и bind.

Оплата по факту Физические узлы Низкое потребление в простое