§ 08 / ИИ

LLM-интеграции — YandexGPT, GigaChat, Claude, GPT, Gemini, Kimi, GLM и локальные модели.

Не «давайте прикрутим ИИ, потому что у всех ИИ». Ищу в ваших процессах места, где модели реально экономят часы в неделю, и собираем под них инструменты. Работаем и с российскими облачными (YandexGPT, GigaChat, T-Lite), и с зарубежными (Claude, GPT, Gemini, Grok, DeepSeek), и с китайскими open-weight (Qwen3, Kimi K2.5, MiniMax M2.7, GLM 5.1), и с локальными (Llama, Mistral) — выбор под ваши требования к данным и бюджету.

§ 08.1 Типовые задачи

→ Поддержка

AI-ассистент поддержки

Первая линия клиентской поддержки: модель отвечает на 60–80% вопросов, сложные кейсы передаёт оператору. RAG по вашей базе знаний, память контекста диалога.

→ Документы

Обработка документов

Извлечение структурированных данных из накладных, счетов, договоров, резюме. Замена ручного ввода, который занимает часы каждого дня у нескольких сотрудников.

→ Поиск

Внутренний AI-поиск

Умный поиск по вашей базе документов, wiki, тикетам: вопрос на естественном языке — ответ с цитатами и ссылками на источник. Векторная база + грамотная обвязка.

→ Анализ

Анализ текстов и отзывов

Классификация обращений, тональность отзывов, выделение тем из разговоров с клиентами, извлечение инсайтов из интервью.

→ Контент

Генерация и редактура

Черновики описаний товаров, email-рассылок, социальных постов, SEO-текстов. С вашим tone of voice и проверкой на фактические ошибки.

→ Агенты

Агенты и автоматизация

Сценарии, где LLM не только отвечает, но и действует: заводит тикеты, заполняет CRM, пишет в Slack, забирает данные из API. С человеческими «чекпоинтами» на критичных шагах.

§ 08.2 Что входит

Дискавери: разбираемся, где модель реально принесёт пользу, а где останется игрушкой.
Выбор модели под задачу: YandexGPT (Яндекс), GigaChat (Сбер), T-Lite / T-Pro (Т-Банк), Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), Command (Cohere), локальные Llama / Mistral / Phi.
Промпт-инженеринг, структурированный вывод (JSON-схемы), функциональные вызовы.
RAG: эмбеддинги, векторная база (pgvector, Qdrant, Chroma), ретривер, ранжирование.
Eval-набор: как измеряем качество, где пороги приемлемого.
Защита: rate-limits, модерация ввода / вывода, логирование, контроль стоимости.
Мониторинг, A/B-тесты промптов, дашборды расходов на токены.

§ 08.3 Какие модели умею подключать

Российские облачные

YandexGPT (Яндекс), GigaChat (Сбер), T-Lite / T-Pro (Т-Банк). Данные обрабатываются и хранятся в РФ, есть договор на обработку персональных данных, соответствие требованиям регулятора. Интеграция через Yandex Cloud ML SDK или прямо по REST, GigaChat API, T-Bank AI. Русский язык изначально «родной» — качество на русских корпусах обычно выше, чем у зарубежных моделей без дообучения.

Зарубежные облачные

Claude (Anthropic), GPT-4 / GPT-5 (OpenAI), Gemini (Google), Grok (xAI), DeepSeek, Command (Cohere). Самое высокое качество на многих задачах, сильный reasoning, большой контекст, развитые tool-use и structured output. Плюс — очень простая интеграция. Минус — данные покидают периметр, не все модели доступны из РФ напрямую.

Китайские open-weight

Qwen3 (Alibaba), Kimi K2.5 (Moonshot), MiniMax M2.7, GLM 5.1 (Zhipu), DeepSeek-V3. Отдельная ветка, которая за последние два года догнала или обошла часть западных моделей по цене за токен и по ряду бенчмарков (особенно кодовые и математические задачи). Доступны и как облачный API, и как открытые веса — можно развернуть у себя. Сильный русский не у всех из коробки, но Qwen3 и Kimi K2.5 — достойно.

Локальные open-source

Llama 3.x (Meta), Mistral / Mixtral, Phi (Microsoft), Gemma (Google) + вышеупомянутые китайские open-weight. Разворачиваются на вашем GPU-сервере или в выделенном облаке. Данные вообще не уходят из контура, нулевая зависимость от внешнего провайдера, предсказуемая стоимость. Требуют чуть более вдумчивой настройки и GPU от 24 ГБ памяти для моделей от 7B до 70B параметров; для топовых open-weight (Qwen3-235B, Kimi K2.5) нужен мульти-GPU узел или квантизация.

Гибрид

Часто лучший вариант — роутер между моделями. Для рутинных запросов — локальная или российская облачная; для сложных случаев, где важен reasoning, — Claude или GPT. Настраиваю такие маршрутизаторы с учётом стоимости, качества, приватности и задержки.

§ 08.4 Частые вопросы

А ChatGPT же бесплатный. Зачем платить за интеграцию?

Бесплатный чат-бот — это демо, куда нужно копировать данные вручную. Интеграция — это когда модель работает внутри вашего процесса: читает базу, пишет в CRM, присылает отчёты. Разница — в часах времени, которые не тратятся на копипаст.

Модели же врут и выдумывают.

Да, и это нужно учитывать в архитектуре. RAG с обязательными цитатами, проверка формата ответа, fallback на оператора при низкой уверенности, eval-наборы для контроля качества. Галлюцинации не лечатся — но их влияние можно ограничить до терпимого.

Что с приватностью? У нас персональные данные клиентов.

Для ПДн в России естественный выбор — YandexGPT или GigaChat: данные хранятся и обрабатываются в РФ, есть типовой договор на обработку ПДн, соответствие 152-ФЗ. Второй вариант — локальные open-weight модели (Llama, Qwen3, Kimi K2.5, Mistral, GLM 5.1) на вашем железе: данные не выходят из контура вообще. Третий — зарубежные облачные (Claude, GPT) с enterprise-контрактом и гарантиями невключения в тренировку. Разбираемся под вашу ситуацию и требования комплаенса.

Сколько стоит эксплуатация?

Зависит от объёма и выбранной модели. Обычно для компаний до 100 сотрудников — от нескольких тысяч до нескольких десятков тысяч рублей в месяц на токены. При больших объёмах — локальная модель окупается за 2–4 месяца.

§ — Написать

Опишите
процесс, где модель пригодится.

hi@weiss.help ↗

или в Telegram · по телефону

Первый созвон 20 минут — бесплатно. План интеграции за сутки.