После обновления размерность эмбеддингов изменилась с 1536 на 3072 — достаточно расширить столбец в БД?

Нет. Считайте это новым индексом: полное переэмбеддинг или миграция с двойной записью. Усечение или дополнение нулями ломает геометрию сходства и настроенные пороги.

Попадает ли сырой текст эмбеддингов в логи шлюза?

По умолчанию должен маскироваться. Для triage временно логируйте хэши или длины с allowlist по IP и отключайте подробный лог после инцидента.

Как это связано со статьёй про OpenAI-совместимый Base URL?

Тот гайд описывает Base URL и Bearer; эта статья — маршруты embeddings после обновления, пересылку моделей и контракты векторного хранилища — вместе они закрывают миграцию в форме OpenAI.

Почему по публичному URL вижу HTTP 429, а на localhost — 200?

Подозревайте лимиты на краю/WAF или квоты аккаунта, отличные от прямого доступа к upstream. Сравните заголовки Retry-After, снизьте параллелизм батчей и сверьте egress IP с панелями провайдера.

Руководство по развёртыванию 2026-04-11 10 мин

2026: минорное обновление OpenClaw Gateway и эволюция OpenAI-совместимых эндпоинтов: /v1/embeddings и пересылка моделей на удалённом физическом Mac — воспроизводимый runbook (ломающие изменения + FAQ по 429 и несовпадению размерности)

Когда глобальные команды держат OpenClaw Gateway на удалённом физическом Mac (например узле ZoneMac) и строят RAG на OpenAI-совместимых клиентах, минорные обновления чаще всего ломают маршрутизацию /v1/embeddings и алиасы моделей, а также пересылку downstream и поведение HTTP 429 — иногда без явных ошибок до падения индексации в проде. В статье — матрица ломающих изменений, семишаговый runbook миграции, цифры и чек-листы для внутренних отчётов, а также ответы по 429 и несовпадению размерности векторов. Зафиксируйте семантику Base URL и Bearer до смены embeddings — контракт клиента в форме OpenAI должен совпадать сквозь всю цепочку. Для долгоживущей стабильности шлюза см. оптимизацию стабильности Mac mini для длительной работы OpenClaw в 2026 году.

2026: миграция embeddings и пересылки моделей OpenClaw Gateway на удалённом физическом Mac

1. Область и кому это нужно

В экосистемах в форме OpenAI чат и эмбеддинги часто делят префикс /v1, но именно пересылка моделей на стороне шлюза и разрешение алиасов в минорных релизах меняется чаще всего — при этом векторное хранилище, размерность индекса и фоновые батчи не мигрируют сами.

Вывод: до и после обновления храните золотой curl для embeddings и таблицу модель → размерность; расширьте смоук-тест с «только чат» до чат + embeddings + один батч до слияния релиза. Для безопасных удалённых путей к тому же хосту сравните SSH local forward и Tailscale Serve к физическому узлу macOS. Базовый контракт Base URL и Bearer для Cursor и CI описан в гайде по OpenAI-совместимому API на удалённом Mac.

2. Типовые боли

Лимиты, спрятанные за «мы проверили только чат». Многие команды переопределяют Base URL и верифицируют лишь /v1/chat/completions. Если алиас меняется только для /v1/embeddings, RAG может упасть по размерности спустя дни.
Скрытые квоты в пересылке. Когда шлюз мапит text-embedding-3-small в регион A или провайдера B, семантика 429 и Retry-After может отличаться; батч-скрипты без backoff расширяют окно троттлинга.
Стабильность = контракт индекса. Размерность вектора, метрика (cosine vs dot) и нормализация должны быть привязаны к той же ревизии модели; тихая смена размерности upstream часто выглядит как «хуже поиск», а не немедленный 4xx.

3. Ломающие изменения и пересылка: матрица решений

Утвердите таблицу до выката: слева — типичный «шорткат», справа — рекомендуемая базовая линия.

Область	Рискованный шорткат	Рекомендуемая базовая линия
Ломающие изменения	Читать только заметки про чат	Искать «embedding», «alias», «router», «breaking»; перечислить каждую затронутую строку модели
`/v1/embeddings`	Переиспользовать старый золотой curl без проверки префиксов	Если чат на том же Base URL — добавить явный золотой запрос embeddings; проверить лимиты длины массива `input`
Пересылка моделей	Менять upstream-алиасы в шлюзе без обновления клиентов	Вести `публичная модель`→`upstream`→`ожидаемая размерность` и версионировать
HTTP 429	Поднимать параллелизм «пробиться»	Backoff, дробление параллелизма, пауза по Retry-After; разделять квоты шлюза и upstream
Несовпадение размерности	Усечь или дополнить векторы в приложении	Пересобрать индексы или новые коллекции; не смешивать старую и новую размерность в одном хранилище
Приёмка	Проверять только localhost 200	Localhost + публичный HTTPS + один батч-путь; записать длину вектора и выборку первых координат

4. Семь шагов runbook (удалённый физический Mac)

Зафиксировать версии и заметки. Записать digest или semver шлюза и upstream до обновления; выделить строки релиза про embeddings, роутер или алиасы.
Золотой localhost для embeddings. По SSH отправить минимальный POST /v1/embeddings на 127.0.0.1 с model и input; сохранить data[0].embedding.length.
Заморозить Base URL и карту моделей. Согласовать контракт Base URL с гайдом по OpenAI-совместимому API; один OPENAI_BASE_URL и одностраничная карта моделей.
Двухконтурная приёмка. Повторить то же тело на 127.0.0.1 и публичный HTTPS; если 429 только снаружи — край/WAF, квоты аккаунта, Retry-After.
Батчи и backoff. Ограничить параллелизм офлайн-джоб (старт с 4) с экспоненциальным backoff; на каждый 429 логировать request_id для поддержки upstream.
Согласование векторного хранилища. Мигрировать или пересобрать индексы под новую размерность; в окне миграции отключить записи со старыми моделями в новые таблицы.
Архив и алерты. Сохранить золотой curl, таблицу соответствий и команды отката (предыдущий digest или бинарник) в runbook; алертить на длительные 429 и сбои проверки размерности. Для комплексных проверок здоровья шлюза и горячей перезагрузки конфигурации полезен runbook многоканального шлюза: openclaw doctor и пробы на удалённом Mac.

5. Triage: 429 против несовпадения размерности

Разделите «троттлинг» и «сломанный контракт» до смены конфигурации.

Симптом	Сначала подозревать	Проверить
429 + Retry-After	Квота upstream или шлюза; всплески батча	Снизить параллелизм, ждать Retry-After; сравнить одиночный запрос и батч
200 на localhost, 429 снаружи	Лимиты края/WAF или перекос квоты аккаунта	Сверить egress IP с панелями провайдера; при необходимости другой регион или egress
Ошибка размерности векторной БД при записи	Смена карты моделей изменила ширину выхода	Сравнить `embedding.length` со схемой; переэмбеддить тот же текст до/после
Хуже retrieval, без 4xx	Смешанные размерности или несовпадение метрики	Группировать по коллекциям; запрос и документы на одной модели и политике нормализации

6. Цифры для runbook

Пакет контракта: логировать полный URL /v1/embeddings, строку model, ожидаемую размерность, версии шлюза и upstream (как минимум major.minor.patch).
Стартовый параллелизм батча: без нагрузочных тестов начинать с 4 одновременных запросов, смотреть долю 429, затем удваивать; согласовать с лимитами TPM/RPM провайдера.
Общая команда: один минимальный curl для embeddings и те же имена переменных окружения в интеграционных тестах SDK.

7. FAQ

В: После обновления размерность выросла с 1536 до 3072 — можно только расширить столбец?
Нет. Это новый индекс: полный переэмбеддинг или миграция с двойной записью; усечение или паддинг ломают сходство и настроенные пороги.

В: Попадает ли сырой текст запроса в логи шлюза?
По умолчанию должен маскироваться. Для triage — хэши или длины с allowlist по IP, затем выключить подробный лог.

В: Как это связано со статьёй про чат/Base URL?
Там — Base URL и Bearer; здесь — контракты после обновления для embeddings и пересылки — вместе это полная миграция в форме OpenAI.

8. Итог и выбор узла

В минорных релизах эмбеддинги и пересылка моделей — то, что пропускают смоук-тесты «только чат»; золотой curl + таблица размерностей + трёхконтурная приёмка удерживают сбои в окне релиза.

Шлюзы, батчи и векторные пайплайны на удалённом физическом Mac — это прежде всего долгоживущие Unix-сервисы и стабильный дисковый I/O: macOS сочетает Terminal, SSH, launchd и Homebrew с таким сценарием. Mac mini M4 даёт эффективность Apple Silicon и порядка единиц ватт в простое — удобно для мультирегиональных узлов; unified memory помогает, когда embeddings и локальный кэш идут рядом. Gatekeeper и SIP снижают операционный стресс, если API торчит наружу месяцами.

Если нужен этот паттерн миграции и triage на железе, которое стабильно, тихо и без лишних касаний, Mac mini M4 — один из самых прогнозируемых по TCO стартовых вариантов: возьмите удалённый физический Mac через ZoneMac и закрепите чат и embeddings за одним контрактом шлюза.

Ограниченное предложение

Нужен удалённый физический Mac под OpenClaw и батчи embeddings?

ZoneMac — аренда Mac mini: шлюз и скрипты на одной машине, меньше сюрпризов с квотами через границы регионов.

По запросу Физическое железо Прямой SSH