Как устроены языковые модели и где проходят их границы
В прошлой статье мы разобрались, в каких областях искусственный интеллект действительно растёт и почему одни сферы масштабируются быстрее других. Теперь углубимся и посмотрим не на рынок, а на саму технологию. Разберёмся, как устроены языковые модели, в чём их сильные и слабые стороны.
Что такое LLM на самом деле и почему это важно
Важно сразу прояснить связь. Когда сегодня говорят «ИИ», в большинстве продуктов имеют в виду именно языковые модели. Они лежат в основе чат-ботов, ассистентов, генерации кода, текстов и аналитики. Однако это не интеллект в привычном смысле. Это система, которая научилась очень хорошо угадывать, какой символ должен идти следующим. Буква, слово, кусок кода, нота, команда — не важно. Для неё это просто последовательность знаков.
LLM не понимает реальность напрямую — она понимает описание реальности, если это описание дано в виде языка. Поэтому главный вопрос: можно ли описать задачу языком так, чтобы и результат тоже был выражен языком.
Если задачу и результат можно описать языком, ИИ масштабируется быстро. Если нет, никакие инвестиции не отменят фундаментальных ограничений LLM.
Почему языки программирования идеально подходят для LLM
Возьмём программирование. Код — это язык, созданный специально для точного описания действий машины. Он строгий, формальный и не допускает двусмысленностей. Каждая конструкция имеет однозначный смысл, а результат выполнения всегда можно проверить. Когда LLM работает с кодом, она оказывается в максимально благоприятных условиях.
Большой массив обучающих данных
В обучающих данных миллионы реальных примеров того, как люди решают похожие задачи. Это конкретные рабочие решения, повторяющиеся паттерны, типовые ошибки и способы их исправления. Модель легко учится воспроизводить проверенные способы решения задач.
Обратная связь как источник быстрого улучшения
Программирование даёт языковым моделям редкое преимущество: результат их работы легко проверить и так же легко применять для дальнейшего улучшения. Код либо работает, либо нет — разночтений практически не бывает. Ошибки имеют конкретную форму: программа не запускается, тест не проходит, система прямо указывает на проблемное место. Разработчики массово собирают ошибки, видят, где модель системно сбоит, и используют эту информацию для обучения и донастройки.
Получается цепочка: простой формальный язык → понятные ошибки → многочисленная обратная связь → быстрое улучшение моделей.
Готовая и обширная инфраструктура
Вокруг программирования уже существует зрелая инфраструктура. Среды разработки, библиотеки, фреймворки, документация и готовые инструменты решают большую часть вспомогательных задач. LLM не нужно изобретать решения с нуля. Она собирает готовые блоки, комбинирует известные подходы и сразу встраивается в существующий инженерный процесс.
Быстрый вывод
Сочетание:
- формализованного языка
- огромного объёма качественных данных
- автоматической проверки результата
- развитой инфраструктуры
объясняет, почему прогресс LLM в программировании оказался настолько заметным.
Примеры: когда LLM работает хорошо, а когда не очень
В робототехнике прогресс идёт заметно медленнее, чем в программировании, потому что сама задача устроена иначе. Чтобы робот просто научился ходить, требуются большие объёмы дорогих данных: люди часами записывают движения через motion capture или управляют роботами вручную, чтобы система поняла базовые траектории.
Музыка, наоборот, оказалась гораздо ближе к языковой природе LLM. У неё есть формальная запись: ноты, ритм, структура. Модель работает не со звуком как таковым, а с символическим описанием музыки. Если результат неудачный, его просто отбрасывают и пробуют снова. Низкая цена ошибки и наличие языка позволяют развиваться быстрее.
Там, где задача уже сведена к языку, то есть формальным символам, LLM быстро дают результат. Там, где язык нужно превратить в физическое действие, или высока цена ошибки, прогресс неизбежно замедляется: робототехника, беспилотные автомобили, медицина, критическая инфраструктура.
Почему LLM лучше работают на английском, чем на русском
Вы наверняка замечали, что при работе с некоторыми нейросетями ответы на английском языке получаются лучше и точнее. Не случайно в большинстве гайдов по промптам до сих пор советуют формулировать запросы именно на английском. Это прямое следствие того, как устроены и обучаются современные LLM.
Причина первая
Разница в качестве ответов LLM на английском и русском языках объясняется техническими причинами, которые хорошо описаны в исследованиях по токенизации и обучающим данным. В работе How does a Language-Specific Tokenizer affect LLMs (Frontiers in Artificial Intelligence, 2025) показано, что английский язык кодируется заметно эффективнее: слова короче, морфология проще, и большинство слов укладываются в один-два токена. В языках с более сложной морфологией, таких как русский, одно слово чаще разбивается на большее число токенов из-за приставок, окончаний и форм слов.
Это напрямую влияет на работу модели. Чем больше токенов требуется, тем выше вычислительная нагрузка и тем сложнее модели удерживать контекст. Из-за обработки более длинных последовательностей растёт вероятность ошибок при предсказании следующего токена.
Причина вторая
Ещё один фактор — распределение обучающих данных. В оригинальном анализе GPT-3 и последующих моделей (Brown et al., OpenAI) показано, что более 90% обучающих токенов приходятся на английский язык. Получается, что и словарь токенайзера, и параметры модели изначально оптимизированы под английский текст.
Быстрый вывод
Если резюмировать, LLM точнее и быстрее отвечают на английском языке, потому что:
- проще структура языка и меньше токенов на слово
- значительно больше объём качественных данных, используемых в обучении
Общий вывод
Сильные стороны LLM
Сильны в языковых задачах. Лучше всего работают с текстом, кодом, инструкциями, отчётами, перепиской и любыми задачами, где вход и выход выражены символами.
Быстро дают результат. Хорошо подходят для подготовки черновиков, идей, вариантов решений и структурирования информации.
Эффективны там, где есть проверка. В коде это тесты и запуск, в бизнес-задачах — человеческая проверка. Быстрая обратная связь ускоряет улучшение результата.
Хорошо масштабируются как помощник. Снимают рутину, ускоряют работу специалистов и легко встраиваются в существующие процессы.
Развиваются быстрее в формальных средах. Там, где язык однозначен и ошибок легко собирать и анализировать, модели улучшаются быстрее.
Слабые стороны LLM
Не понимают реальность напрямую. Работают с описаниями, а не с физическим миром, поэтому могут звучать убедительно и при этом ошибаться.
Плохо подходят для задач с высокой ценой ошибки. Там, где требуется надёжное поведение в реальном мире и строгая ответственность, одного языкового предсказания недостаточно.
Слабо работают без быстрой проверки результата. Если нельзя быстро понять, правильно ли решение, качество падает.
Зависят от данных и языка. Меньше данных или сложная языковая структура обычно означают худший результат.
Не заменяют человека в критических решениях. Требуют контроля, ограничений и понятного контура ответственности.
Заключение
LLM дают лучший эффект там, где задача сведена к языку, результат можно проверять и совершенствовать, а ошибка не критична.
- LM быстро масштабируются в коде и корпоративных задачах, где результат можно проверить и исправить без серьёзных последствий.
- LLM медленно развиваются в областях, где ошибка приводит к физическому ущербу, рискам для людей или дорогостоящим сбоям — таких как робототехника, автономный транспорт и критические системы.
Если смотреть на LLM так, становится понятно, где их можно внедрять массово уже сейчас, а где не стоит ожидать автономных решений в обозримом будущем.