LLM-интеграции — YandexGPT, GigaChat, Claude, GPT, Gemini, Kimi, GLM и локальные модели.
Не «давайте прикрутим ИИ, потому что у всех ИИ». Ищу в ваших процессах места, где модели реально экономят часы в неделю, и собираем под них инструменты. Работаем и с российскими облачными (YandexGPT, GigaChat, T-Lite), и с зарубежными (Claude, GPT, Gemini, Grok, DeepSeek), и с китайскими open-weight (Qwen3, Kimi K2.5, MiniMax M2.7, GLM 5.1), и с локальными (Llama, Mistral) — выбор под ваши требования к данным и бюджету.
§ 08.1 Типовые задачи
AI-ассистент поддержки
Первая линия клиентской поддержки: модель отвечает на 60–80% вопросов, сложные кейсы передаёт оператору. RAG по вашей базе знаний, память контекста диалога.
Обработка документов
Извлечение структурированных данных из накладных, счетов, договоров, резюме. Замена ручного ввода, который занимает часы каждого дня у нескольких сотрудников.
Внутренний AI-поиск
Умный поиск по вашей базе документов, wiki, тикетам: вопрос на естественном языке — ответ с цитатами и ссылками на источник. Векторная база + грамотная обвязка.
Анализ текстов и отзывов
Классификация обращений, тональность отзывов, выделение тем из разговоров с клиентами, извлечение инсайтов из интервью.
Генерация и редактура
Черновики описаний товаров, email-рассылок, социальных постов, SEO-текстов. С вашим tone of voice и проверкой на фактические ошибки.
Агенты и автоматизация
Сценарии, где LLM не только отвечает, но и действует: заводит тикеты, заполняет CRM, пишет в Slack, забирает данные из API. С человеческими «чекпоинтами» на критичных шагах.
§ 08.2 Что входит
- Дискавери: разбираемся, где модель реально принесёт пользу, а где останется игрушкой.
- Выбор модели под задачу: YandexGPT (Яндекс), GigaChat (Сбер), T-Lite / T-Pro (Т-Банк), Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), Command (Cohere), локальные Llama / Mistral / Phi.
- Промпт-инженеринг, структурированный вывод (JSON-схемы), функциональные вызовы.
- RAG: эмбеддинги, векторная база (pgvector, Qdrant, Chroma), ретривер, ранжирование.
- Eval-набор: как измеряем качество, где пороги приемлемого.
- Защита: rate-limits, модерация ввода / вывода, логирование, контроль стоимости.
- Мониторинг, A/B-тесты промптов, дашборды расходов на токены.
§ 08.3 Какие модели умею подключать
Российские облачные
YandexGPT (Яндекс), GigaChat (Сбер), T-Lite / T-Pro (Т-Банк). Данные обрабатываются и хранятся в РФ, есть договор на обработку персональных данных, соответствие требованиям регулятора. Интеграция через Yandex Cloud ML SDK или прямо по REST, GigaChat API, T-Bank AI. Русский язык изначально «родной» — качество на русских корпусах обычно выше, чем у зарубежных моделей без дообучения.
Зарубежные облачные
Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Command (Cohere). Самое высокое качество на многих задачах, сильный reasoning, большой контекст, развитые tool-use и structured output. Плюс — очень простая интеграция. Минус — данные покидают периметр, не все модели доступны из РФ напрямую.
Китайские open-weight
Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), DeepSeek-V3. Отдельная ветка, которая за последние два года догнала или обошла часть западных моделей по цене за токен и по ряду бенчмарков (особенно кодовые и математические задачи). Доступны и как облачный API, и как открытые веса — можно развернуть у себя. Сильный русский не у всех из коробки, но Qwen3 и Kimi K2.5 — достойно.
Локальные open-source
Llama 3.x (Meta), Mistral / Mixtral, Phi (Microsoft), Gemma (Google) + вышеупомянутые китайские open-weight. Разворачиваются на вашем GPU-сервере или в выделенном облаке. Данные вообще не уходят из контура, нулевая зависимость от внешнего провайдера, предсказуемая стоимость. Требуют чуть более вдумчивой настройки и GPU от 24 ГБ памяти для моделей от 7B до 70B параметров; для топовых open-weight (Qwen3-235B, Kimi K2.5) нужен мульти-GPU узел или квантизация.
Гибрид
Часто лучший вариант — роутер между моделями. Для рутинных запросов — локальная или российская облачная; для сложных случаев, где важен reasoning, — Claude или GPT. Настраиваю такие маршрутизаторы с учётом стоимости, качества, приватности и задержки.
§ 08.4 Частые вопросы
А ChatGPT же бесплатный. Зачем платить за интеграцию?
Бесплатный чат-бот — это демо, куда нужно копировать данные вручную. Интеграция — это когда модель работает внутри вашего процесса: читает базу, пишет в CRM, присылает отчёты. Разница — в часах времени, которые не тратятся на копипаст.
Модели же врут и выдумывают.
Да, и это нужно учитывать в архитектуре. RAG с обязательными цитатами, проверка формата ответа, fallback на оператора при низкой уверенности, eval-наборы для контроля качества. Галлюцинации не лечатся — но их влияние можно ограничить до терпимого.
Что с приватностью? У нас персональные данные клиентов.
Для ПДн в России естественный выбор — YandexGPT или GigaChat: данные хранятся и обрабатываются в РФ, есть типовой договор на обработку ПДн, соответствие 152-ФЗ. Второй вариант — локальные open-weight модели (Llama, Qwen3, Kimi K2.5, Mistral, GLM 5.1) на вашем железе: данные не выходят из контура вообще. Третий — зарубежные облачные (Claude, GPT) с enterprise-контрактом и гарантиями невключения в тренировку. Разбираемся под вашу ситуацию и требования комплаенса.
Сколько стоит эксплуатация?
Зависит от объёма и выбранной модели. Обычно для компаний до 100 сотрудников — от нескольких тысяч до нескольких десятков тысяч рублей в месяц на токены. При больших объёмах — локальная модель окупается за 2–4 месяца.
Опишите
процесс, где модель пригодится.
hi@weiss.help ↗
Первый созвон 20 минут — бесплатно. План интеграции за сутки.