Мигрируйте с OpenAI за 5 минут. 401+ моделей без переписывания кода. Отслеживайте расходы по каждой модели. ГОСТ-шифрование включено.
Архитектура
Миграция
Работает с любым OpenAI SDK — Python, JavaScript, Go, Java, Ruby, PHP.
Возможности
Инфраструктура, которая масштабируется вместе с вами.
YandexGPT, GigaChat, Claude, GPT, Gemini, Qwen, DeepSeek, Grok и другие. Переключайте модель одним параметром.
Используйте собственные ключи к провайдерам. Оплачивайте токены напрямую провайдеру по его ценам без наценки.
Шифрование по ГОСТ Р 34.10-2022. Данные хранятся и обрабатываются на серверах в Российской Федерации.
Автоматическое переключение на резервного провайдера при сбоях. Retry с экспоненциальным backoff.
Реалтайм дашборд потребления. Prometheus-совместимые метрики для вашего мониторинга.
Списание до запроса к провайдеру. Никаких сюрпризов — вы всегда знаете точный расход.
FLUX, Gemini Image, gpt-image-1, DALL-E + Kandinsky 6.0 (Сбер, 0.4 ₽/img) и YandexART (1.65 ₽/img) через единый /v1/images/generations.
Эндпоинт /v1/translations на базе Yandex Translate v2. В 4–5× дешевле DeepL/Google. NMT, автоопределение языка, HTML-разметка.
/v1/vision/ocr на базе Yandex Vision. SOTA для русского. JPEG/PNG/PDF, multipart или JSON base64, сабсекундная задержка.
Примеры кода
Потоковая передача, вызовы инструментов, мультимодальность — всё через стандартный OpenAI SDK.
Практика
НейроГейт поддерживает изображения по URL и в base64, но для продакшена лучше сразу строить интеграцию оптимально.
Оптимальный путь — HTTPS или pre-signed URL. Это уменьшает размер запроса, ускоряет обработку и снижает риск ошибки из-за слишком большого body.
Base64 увеличивает payload примерно на треть. Используйте его только для небольших одноразовых изображений, когда URL недоступен.
Если модели нужен не весь PDF, а конкретный фрагмент, извлеките нужный текст заранее и передайте его как обычный текстовый контекст.
Для анализа обычно достаточно 1280–1568 px по длинной стороне. Не отправляйте 8K-оригиналы, если задача не требует микродеталей.
Лучший вариант для production. URL уменьшает размер запроса и ускоряет обработку.
Подходит только для небольших одноразовых вложений, когда URL недоступен.
Не инлайните большой файл в JSON. Лучше передать URL и заранее извлечённый релевантный текст.
Для потоковых multimodal-ответов используйте buffered reader и не ограничивайте размер SSE-строки слишком маленьким буфером.
Можно передавать несколько изображений в одном сообщении, но отправляйте только действительно релевантные файлы.
Проверьте supports_vision в /v1/models. Для non-vision моделей заранее извлеките текст и отправьте его как обычный контекст.
Эти примеры синхронизированы с smoke-кейсами в gateway/tests/api_test.sh. Дополнительный кейс NG-MM-06 покрывает reasoning + vision streaming.
Тарифы
Платите только за то, что используете. Без скрытых платежей.
Для разработчиков и стартапов. Регистрация за 30 секунд.
Актуальные цены — в Панели управления
Для крупного бизнеса. Индивидуальные условия.
Быстрый старт
Создайте аккаунт в Панели управления НейроГейт. Получите приветственный бонус на баланс.
Перейдите в раздел API Keys и создайте ключ. Он начинается с ng-proj-
Используйте любой OpenAI SDK или curl. Укажите base_url и ваш ключ.
Приветственный бонус при регистрации. Бесплатные модели без ограничений.
Получить API-ключ →То, что обычно спрашивают разработчики и техлиды.
Основной endpoint: https://api.neuralgate.ru/v1. Полностью OpenAI-совместим, поддерживает /chat/completions, /messages (Anthropic native), /responses (OpenAI Responses), /embeddings, /audio/transcriptions, /audio/speech, /audio/voices, /images/generations, /images/edits, /videos (async), /translations (Yandex Translate, 90+ языков), /vision/ocr (Yandex Vision — печатный/рукописный/таблицы), /models.
Любой OpenAI SDK работает после замены base_url:
openai, litellm, langchain, llamaindex, instructoropenai npm package, ai Vercel SDK, langchain-jssashabaranov/go-openai, наш Go SDKБесплатный тариф: 50 RPM / 100К токенов в минуту общий пул на свободные модели. Платный тариф: индивидуальные лимиты по подписке (от 500 RPM на Стартовом до 10 000+ RPM на Корпоративном). RPM/TPM лимиты на конкретный аккаунт видны в панели управления.
Да, через стандартный OpenAI-параметр stream: true. Отдаём Content-Type: text/event-stream с chunks как у upstream. Latency для streaming — обычно ~30-100 мс до первого токена (зависит от модели).
Да. Параметр tools: [...] поддерживается для всех моделей, которые умеют tools-calling. На странице модели в каталоге указано, поддерживает ли она это (Каталог →).
Да. Для них используется параметр reasoning_effort или thinking в зависимости от провайдера, плюс соответствующие модели в списке (openai/o3-deep-research, anthropic/claude-opus-4.6, deepseek/deepseek-r1 и др.). Отметка 🧠 в каталоге показывает поддержку.
Возвращаем стандартные коды: 429 при превышении лимита (с заголовком Retry-After), 503 если upstream-модель временно недоступна. Рекомендуем экспоненциальный retry в SDK (есть в openai-python и других).
Каждый запрос самостоятелен (stateless). Передаёшь messages: [...] + новый model: "..." — и идёт запрос к другой модели. Для контекстной памяти держи историю на стороне приложения и подавай в messages.