§ 01Три ветки LLM в 2026 году
Рынок языковых моделей делится на три ветви, которые различаются не только качеством, но и юридическими, экономическими и инфраструктурными свойствами.
Российские облачные
YandexGPT (Яндекс). Флагман российского рынка. Модели от лёгкой YandexGPT Lite до мощной YandexGPT Pro. Интеграция через Yandex Cloud ML SDK или прянаш REST API. Данные хранятся и обрабатываются в РФ, есть типовой договор на обработку ПДн, соответствие 152-ФЗ. Русский язык — родной.
GigaChat (Сбер). Конкурент Яндекса, сравнимый по качеству. Отдельное преимущество — интеграция с экосистенаш Сбера: SberPay, Сбер ID, корпоративные продукты. GigaChat Pro — топовая версия для бизнеса, со специализированными моделями под финансы и юриспруденцию.
T-Lite / T-Pro (Т-Банк). Относительно новый игрок, но быстро догоняющий. T-Lite распространяется как open-weights (можно хостить у себя), T-Pro — облачный сервис через API Т-Банка. Сильна в финтех-задачах и обработке документов.
Зарубежные облачные
Claude (Anthropic). В 2026 году — одна из самых сильных моделей для программирования, reasoning и длинных текстов. Поддерживает контекст до 1 миллиона токенов в Opus-версиях. Мои рабочие инструменты большой частью построены на Claude.
GPT-4.5 / GPT-5 (OpenAI). По-прежнему индустриальный стандарт. ChatGPT-клиент известен всем, API-доступ через OpenAI или Azure. Сильна на широком наборе задач, есть DALL-E для генерации изображений и встроенный code interpreter.
Gemini (Google). Нативно интегрирована в Google Workspace (Docs, Sheets, Gmail). Хорошо работает с мультимодальностью: картинки, видео, аудио. Gemini 2.5 Pro — сопоставима с топовыми моделями.
Grok (xAI). Модель Маска. Сильна в актуальности: имеет прянаш доступ к твиттеру и поиску в реальном времени. Хороша для задач, где нужна свежая информация. Менее строгие фильтры по сравнению с GPT и Claude.
DeepSeek. Китайская модель, доступная и как облако, и как open-weights. Впечатляющее соотношение цены и качества — часто за 10% стоимости GPT дают 80% качества.
Command (Cohere). Специализация — корпоративные задачи: классификация, поиск, RAG. Enterprise-ориентированная компания с фокусом на приватность.
Китайские open-weight
Qwen3 (Alibaba). Флагман open-source. Доступна в размерах от 0.5B до 235B параметров. Qwen3-72B сравним с GPT-4 Turbo на многих бенчмарках. Можно бесплатно хостить у себя — платите только за железо.
Kimi K2.5 (Moonshot). Известна огромным контекстом (до 2 миллионов токенов) и сильным reasoning. Отлично подходит для анализа длинных документов, юридических текстов, научных работ.
MiniMax M2.7. Универсальная модель со сбалансированными характеристиками. Сильна в генерации творческого контента и диалогах.
GLM 5.1 (Zhipu AI). Эффективная архитектура с хорошей плотностью параметров. GLM-5.1-Air — 100B параметров, работает на одном H100. Оптимальный баланс скорости и качества для локального развёртывания.
Локальные open-source (не китайские)
Llama 3.x (Meta). Самое массовое семейство open-source моделей. Большое сообщество, много форков и дообученных версий. Размеры от 8B до 405B.
Mistral / Mixtral. Французские разработчики, сильны в многозадачности. Mixtral использует Mixture of Experts — на ваших запросах активируется только часть параметров, что экономит ресурсы.
Phi (Microsoft), Gemma (Google). Лёгкие модели под мобильные и edge-устройства.
Про полную картину возможностей, которые мы предлагаю на интеграциях LLM — на странице услуги.
§ 02Что умеет каждая — разбор по задачам
Нет «лучшей» модели. Есть модель, оптимальная под задачу. Разберу типовые бизнес-кейсы и что под них подходит.
AI-ассистент поддержки / консультант
Отвечает на вопросы клиентов на основе базы знаний, передаёт сложные кейсы оператору.
Оптимум: YandexGPT или GigaChat для РФ-аудитории (ПДн остаются в РФ), Claude или Qwen3-72B для международных проектов. Главное требование — хорошо работать с RAG (Retrieval Augmented Generation) — подтягивать контекст из вашей базы знаний и отвечать с цитатами.
Извлечение данных из документов
Накладные, счета, договоры, резюме превращаются в структурированные данные (JSON).
Оптимум: GPT-4.5 или Claude Opus для сложных документов (многостраничные договоры), GigaChat или YandexGPT для типовых российских документов, локальный Qwen3 для большого объёма.
Генерация контента: email, описания товаров, SMM
Массовая генерация текстов в tone of voice вашего бренда.
Оптимум: Claude для сложного творческого письма, GPT для универсальных задач, Qwen3 или MiniMax для большого объёма с экономией. Для российского маркетинга и русских текстов — YandexGPT часто дают более органичный результат.
Код: анализ, генерация, рефакторинг
Помощь разработчикам в написании и проверке кода.
Оптимум: Claude 3.5 Sonnet или Claude Opus — самые сильные на коде. GPT-4 второй. DeepSeek Coder — лучшая open-source модель для программирования. Локально — Qwen3-Coder или DeepSeek Coder.
Reasoning и многошаговые рассуждения
Сложные задачи, требующие последовательных размышлений: юридический анализ, финансовые расчёты, научные исследования.
Оптимум: Claude Opus, GPT-5 с reasoning-режимом, Kimi K2.5 с длинным контекстом. Для больших документов (более 100 страниц) Kimi часто оптимальный выбор из-за контекста на 2 миллиона токенов.
Классификация и тэгирование
Разобрать поток обращений по категориям, тегировать отзывы по тональности.
Оптимум: лёгкие модели вроде YandexGPT Lite, GPT-4 Mini, Llama 3-8B — справляются отлично и дешевле флагманов в 10–20 раз.
Мультимодальность (изображения, аудио)
Анализ фото, работа с видео, транскрибация аудио.
Оптимум: Gemini 2.5 для видео и картинок, GPT-5 для изображений, Qwen3-VL для локальной работы с картинками.
§ 03152-ФЗ и персональные данные
Самая важная секция для российских компаний. Закон о персональных данных накладывает жёсткие требования на то, где и как обрабатываются данные ваших клиентов.
Что попадает под 152-ФЗ
Любая информация, по которой можно идентифицировать конкретного человека: ФИО, телефон, email, адрес, паспорт, медицинские данные, даже IP-адрес в некоторых контекстах. Если ваш бот или ассистент обрабатывает такие данные — вы обязаны соответствовать 152-ФЗ.
Что можно без проблем
YandexGPT, GigaChat, T-Lite / T-Pro. Данные хранятся и обрабатываются в РФ. Есть типовой договор на обработку ПДн, который вы подписываете с провайдером. В этой связке вы выступаете оператором данных, провайдер — обработчиком, всё по закону. Клиенту достаточно стандартного согласия на обработку ПДн.
Локальные open-source модели (Llama, Qwen3, GLM) на вашем сервере в РФ. Данные вообще не покидают ваш контур. Никаких трансграничных передач, никаких третьих лиц. Максимальный уровень соответствия.
Что требует осторожности
Claude, GPT, Gemini, Grok. Это облачные сервисы в США или Европе. По 152-ФЗ трансграничная передача ПДн возможна, но требует (а) согласия субъекта на трансграничную передачу, (б) гарантий от получающей стороны, что данные защищены. OpenAI, Anthropic, Google имеют enterprise-контракты с такими гарантиями, но использование стандартных API без enterprise-соглашения — серая зона.
Реалистичный паттерн: обезличивание данных перед отправкой в зарубежную модель. Вы вырезаете ФИО, номера телефонов, адреса — оставляете абстрактный текст. Модель работает с обезличенным, а потом вы сами подставляете обратно конкретные данные на своей стороне. Это юридически чистая схема, но требует дополнительной инженерной работы.
Что делать в сомнительных случаях
Консультируйтесь с юристом, специализирующимся на 152-ФЗ. Не все подрядчики на LLM-интеграциях это понимают, и лёгкая неосторожность потом оборачивается штрафами или обязательным удалением продукта. Мы обычно на этапе оценки проекта просим клиента подтвердить юридическую сторону, если задача касается реальных клиентских данных.
§ 04Сколько реально платите
Стоимость LLM — не только цена за токены. Это совокупность API-стоимости, инфраструктуры, интеграционной работы и поддержки.
Облачные API (за 1М токенов на входе/выходе, усреднённо)
YandexGPT Pro: от 1.2 рубля за 1К токенов, примерно 1200 рублей за 1М. GigaChat Pro: похожие цифры. Claude Opus: $15 / $75 за 1М. GPT-4.5: $10 / $30. Gemini 2.5 Pro: $3.5 / $10. DeepSeek: $0.27 / $1.10 — феноменально дёшево. Qwen3-Max через API: $1.60 / $6.40.
На практике для среднего бизнес-бота (10 тысяч запросов в день, в среднем 500 токенов на запрос) расходы на GPT-5 — около 150–200 тысяч в месяц, на YandexGPT — около 50–80, на DeepSeek — 5–10 тысяч. Разница в 15–30 раз.
Локальные модели: стоимость инфраструктуры
Аренда GPU-сервера на Hetzner, Selectel или Yandex Cloud:
- RTX 3090 / RTX 4090 (24GB VRAM) — хватает для Qwen3-14B или Llama-3-8B в 4-bit квантизации. От 25–40 тысяч в месяц.
- A5000 / A6000 (48GB) — Qwen3-32B, GLM-5.1-Air 100B в агрессивной квантизации. От 60–90 тысяч.
- A100 (80GB) — GLM-5.1-Air в 8-bit, Llama-70B в 4-bit. От 150–250 тысяч.
- H100 (80GB) — любые топовые open-source модели. От 250–400 тысяч.
Окупаемость: если у вас 100 тысяч запросов в день к облачному GPT-4, месячные расходы на API — около 2 миллионов. Аренда H100 с работающим Qwen3-72B — 400 тысяч. Окупается за первый же месяц, но с потерей ~15% в качестве по сравнению с GPT-4.
Стоимость интеграции
Разработка LLM-функциональности для среднего бизнеса — от 300 тысяч за простой бот-ассистент до 2 миллионов за полноценную RAG-систему с обучением на документах и гибридной маршрутизацией. Сроки — 2–6 недель. Подробнее на странице услуги.
§ 05Когда нужны Qwen3, Kimi K2.5, GLM 5.1
Китайские open-weight модели — важная категория, про которую российские бизнесы часто не знают. Когда они оптимальны:
Большой объём запросов с экономикой
Если вы обрабатываете миллионы запросов в день, даже цена DeepSeek ($1.10 за 1М) складывается в серьёзные деньги. Собственный сервер с Qwen3 или GLM окупается за 1–3 месяца, и после этого все запросы бесплатны (кроме электричества и амортизации).
Строгие требования к приватности данных
Open-weight модели на вашем сервере — это гарантия, что ни один байт данных не уходит наружу. Для банков, медицины, госструктур это часто не опция, а требование.
Специфические задачи, где свежая архитектура выигрывает
Китайские модели в 2024–2026 годах делают серьёзные прорывы в архитектуре. Kimi K2.5 имеет контекст на 2 миллиона токенов — это на порядок больше, чем у GPT-5 (128 тысяч) или Claude Opus (1 миллион). Для задач с длинными документами это меняет всё.
GLM-5.1 сильна в математике и научных задачах. Qwen3-Coder уверенно конкурирует с Claude в программировании.
Экспериментирование и исследования
Open-weight модели можно дообучить на ваших данных (fine-tuning), что даёт контроль над поведением. Для GPT или Claude это невозможно без enterprise-контракта и больших денег.
Когда НЕ стоит идти в китайские модели
Для типичного бизнес-бота с умеренным трафиком и требованиями — проще начать с YandexGPT или Claude через API. Не надо сразу связываться с инфраструктурой GPU и поддержкой своего сервера. Если через полгода трафик вырастет и API станет дорогим — тогда переключаетесь на свою модель. Но не делайте это на старте.
§ 06Гибридные схемы маршрутизации
Лучший архитектурный паттерн в 2026 году — не «выбрать одну модель», а «умный роутер, который отправляет запрос в правильную модель».
Пример маршрутизации
Вот как выстроена LLM-часть среднего бизнес-ассистента, которого мы собирал в 2026:
- 90% простых запросов (FAQ, базовая классификация) — в локальный Qwen3-14B. Обрабатывает за 500мс, бесплатно после амортизации сервера.
- 8% запросов, где нужен reasoning (сложные вопросы, многошаговые задачи) — в Claude Opus. Медленнее и дороже, но качество на голову выше.
- 2% запросов с персональными данными клиента (например, анализ его медицинской истории) — в YandexGPT или в локальный Qwen3, никогда в облачный Claude.
Роутер — простой классификатор перед моделью, который по запросу определяет его тип и выбирает модель. Может быть реализован как отдельная маленькая LLM или даже на правилах.
Результат: стоимость в разы ниже, чем если бы всё шло в Claude; качество выше, чем если бы всё шло в Qwen3; приватность соблюдена — ПДн не уходят за пределы РФ.
Fallback на случай отказов
Если основной провайдер недоступен (API упал, лимит исчерпан) — роутер переключает на резервный. YandexGPT недоступен → GigaChat. Claude недоступен → GPT. Это не требует переделки архитектуры, только настройки роутера.
A/B тестирование моделей
С готовой архитектурой легко тестировать модели: 10% трафика в Qwen3, 10% в Claude, 80% в текущем продакшне. Через месяц смотрим метрики — какая модель даёт лучший customer satisfaction score, более точные ответы, меньше передач на оператора. Принимаем решение на данных.
Если внедрение LLM затрагивает Telegram-бота, которым общаются ваши клиенты, — отдельный раздел про это в гайде по разработке Telegram- и MAX-бота. Если это веб-приложение с AI-помощником — архитектурные вопросы разобрал в SPA или сайт. Для MVP с LLM-компонентой полезна методология из MVP за 4–6 недель.
Частые вопросы
Типичные вопросы при выборе LLM для бизнеса.
Что выбрать — YandexGPT или GigaChat?
Обе модели близки по качеству на русском языке и обе хранят данные в РФ. YandexGPT интегрирован в экосистему Яндекс.Облака и лучше работает с другими сервисами (Переводчик, SpeechKit). GigaChat — в экосистему Сбера и имеет более гибкие условия для финтех-интеграций. Если вы уже работаете в одной из экосистем, выбирайте родную модель.
Можно ли использовать ChatGPT для обработки данных клиентов?
Для персональных данных российских клиентов — нет без обхода 152-ФЗ. Бесплатный и стандартный платный ChatGPT отправляет данные в США, где они могут использоваться для улучшения моделей. Enterprise-контракт OpenAI с запретом обучения на данных — юридически применим, но сам по себе факт трансграничной передачи может требовать согласия клиента и других формальностей.
Насколько локальная модель хуже облачной?
На простых задачах (классификация, извлечение данных, короткие ответы) разница небольшая — до 10%. На сложных reasoning-задачах облачные флагманы пока впереди на 20–40%. Но для типичных бизнес-сценариев локальный Qwen3 или Llama 3 уже даёт качество, близкое к GPT-3.5, и сопоставимое с GPT-4 на узких задачах.
Сколько стоит запуск на собственной GPU?
Старт от 30 тысяч в месяц за аренду GPU-сервера с RTX 3090 / A5000 — хватает для моделей до 13B параметров. От 80–150 тысяч в месяц за топовые GPU (A100, H100) для моделей 70B+. На больших объёмах запросов (миллионы токенов в день) собственное железо окупается за 2–4 месяца по сравнению с API.
Нужно ли переходить с GPT на китайские модели?
Для 90% задач GPT, Claude или Gemini продолжают работать отлично. Китайские модели (Qwen3, Kimi K2.5, GLM 5.1) имеет смысл рассматривать, если (1) нужно хостить модель у себя на сервере — они распространяются как open-weights, (2) есть чувствительность к стоимости API — они дешевле, (3) хочется свежие архитектурные решения — они быстро догоняют и иногда обгоняют западные модели.
Нужна LLM-интеграция — напишите
Подключаю YandexGPT, GigaChat, Claude, GPT, Gemini, Qwen3, Kimi, GLM и другие модели в процессы компании. RAG, ассистенты поддержки, обработка документов, автоматизация. С учётом 152-ФЗ и требований к ПДн.
LLM-интеграции под ключ →