Сложность: Уровень сложностиУровень сложностиУровень сложности

Что такое токены в нейросетях и как они работают

Каждый раз, когда вы пользуетесь ChatGPT, Claude или Gemini, нейросеть работает не со словами и не с символами, а с токенами. Это единицы, на которые модель разбивает любой текст перед обработкой. От токенов зависит стоимость запросов через API, размер памяти модели и лимиты в бесплатных тарифах. Разбираемся, как именно работают токены, почему русский текст расходует их быстрее и как с этим справляться.

Что такое токены

Сразу оговорка: токен в контексте нейросетей не имеет отношения ни к криптовалюте, ни к токенам авторизации. Здесь токен означает единицу информации, с которой работает языковая модель. Чаще всего это часть слова, реже целое слово или отдельный символ.

Представьте конструктор LEGO. У вас есть набор из нескольких десятков тысяч деталей разного размера. Некоторые детали крупные — это целые слова: «the», «cat», «and». Другие мелкие и обозначают части слов или даже отдельные буквы.

Из этих деталей можно собрать любое слово, даже то, которое создателями конструктора не предполагалось.

что такое токены в нейросети

Давайте разберемся на примере. Английское слово «cat» укладывается в один токен. Слово «darkness» разбивается на два: «dark» и «ness». По-русски «нейросеть» превращается в «нейро» + «сеть», а «интернационализация» распадается на четыре токена: «интер», «наци», «онали», «зация». Если завтра появится новый бренд «Нейромаркет», модель разобьет его на «Нейро» + «маркет» и поймет обе части по отдельности.

Нейросети работают с токенами, а не с обычными словами, по двум причинам. 

  1. В любом языке существуют миллионы словоформ: только из слова «бежать» можно образовать «побежал», «забегала», «перебежишь» и десятки других вариантов. Уместить все формы в словарь невозможно, зато из ограниченного набора токенов можно собрать каждую из них.
  2. Токены позволяют работать с незнакомыми словами и разными языками одновременно, включая китайский и японский, где между словами нет пробелов.

Каждый токен модель преобразует в числовой идентификатор, потому что нейросети оперируют числами, а не буквами. Текст превращается в последовательность чисел, проходит через вычисления и на выходе снова становится текстом. Токены здесь работают как переводчик между человеческим языком и математикой модели.

Как подсчитать количество токенов в тексте

Один токен покрывает примерно 4 символа латиницы или около 2 символов кириллицы. Среднее английское слово занимает 1-1,3 токена, русское слово тяжелее и весит 2-3 токена.

Поэтому тысяча токенов вмещает около 750 английских слов, но только 350-400 русских. Одна страница А4 на русском языке (2000-2500 символов) занимает примерно 1000-1250 токенов. Книга на 300 страниц по-английски укладывается примерно в 100 000 токенов. Чтобы было понятнее, можете посмотреть на сравнительную таблицу ниже:

МетрикаАнглийскийРусский
1000 токенов~750 слов~350-400 слов
Среднее слово~1-1,3 токена~2-3 токена
Символов на токен~4~2
Фраза в 75 слов~100 токенов~120-150 токенов

Почему русский текст расходует больше токенов

Основная причина — в обучающих данных. Модели GPT, Claude и Gemini тренировались преимущественно на английских текстах, и их токенизаторы лучше работают с латиницей. Для английского языка в словаре много готовых заготовок: частые слова и устойчивые сочетания хранятся целиком. Русских заготовок в словаре значительно меньше, поэтому модель чаще разбивает русские слова на мелкие фрагменты.

Есть и техническая сторона. Кириллические символы в кодировке UTF-8 занимают 2 байта каждый, а латинские в среднем около 1,25 байта. Вдобавок русский язык богат морфологически: приставки, суффиксы, падежные окончания удлиняют слова и увеличивают число токенов на каждое из них.

Поэтому совет: если вам нужно анализировать большие объемы информации и вы платите именно за токены (работаете за API или пользуетесь нейросетями через сервисы-посредники) — вам выгоднее общаться на английском языке.

Что такое контекстное окно

Это максимальное количество токенов, которое нейросеть может обработать за один запрос. Можно представить его как коробку фиксированного размера: все, что вы вложили в разговор, должно в нее поместиться. Если не помещается, старое выталкивается.

В контекстное окно входит не только ваш запрос. Туда попадают системные инструкции, вся предыдущая история диалога, загруженные файлы и документы, а также ответ модели. Когда окно заполняется, модель начинает забывать ранние части разговора и теряет контекст. Именно поэтому в длинных диалогах нейросеть иногда перестает учитывать то, что вы обсуждали в начале.

У разных нейросетей разные контекстные окна:

МодельКонтекстное окно
Grok 4.1 Fast2 000 000
GPT-4.11 000 000
Gemini 3 Pro1 000 000
GPT-5.2400 000
Claude Opus 4.61 000 000
DeepSeek V3.2128 000

Давайте переведем эти цифры в понятные объемы: 

  • 128 000 токенов вмещают примерно 200 страниц английского текста или книгу среднего размера. 
  • Миллион токенов покрывает около 1500 страниц, 50 000 строк кода или 200 расшифровок подкастов. 
  • Окно в 200 000 токенов для русского текста означает примерно 90-100 страниц.

Но большое окно не гарантирует, что модель одинаково хорошо обработает все, что в него загружено. Исследователи Стэнфордского университета выяснили, что модели лучше всего работают с информацией в начале и в конце контекста, а данные в середине длинного текста теряют. 

Поэтому самую важную информацию лучше размещать в начале и в конце промпта, если он очень большой.

Сколько стоят токены

Важно! Покупать токены и платить за подписку на нейросеть — разные вещи. Подписки обычно стоят $20-100 и позволяют общаться с нейронками практически без ограничений. Платить за токены нужно, если вы интегрируете нейросети в свои проекты через API. В этом случае нужно оплачивать каждый израсходованный токен. Стоимость токенов обычно рассчитывается за 1 миллион входящих и исходящих токенов.

Входные (ваш запрос) токены всегда дешевле, выходные (ответ модели) — дороже. Так происходит потому, что генерация нового текста требует от модели значительно больше вычислений, чем чтение входных данных.

У разных моделей и компаний цены на токены разнятся. На февраль 2026 года картина выглядит так:

МодельВход (/1Mтокенов)Выход(/1M токенов)
Claude Opus 4.6$5,00$25,00
GPT-5.2$1,75$14,00
Gemini 3 Flash$0,50$3,00
Grok 4.1 Fast$0,20$0,50
GPT-5-Nano$0,05$0,40
DeepSeek V3.2$0,28$0,42

Допустим, вы просите нейросеть написать статью на 500 слов по-русски. Входной промпт займет примерно 1000-1250 токенов, ответ модели около 1500 токенов. На Claude Opus 4.6 такой запрос обойдется примерно в $0,04 (около 3-4 рублей). На GPT-5.2 в $0,02 (около 2 рублей). А на DeepSeek V3.2 меньше чем в копейку.

Как считать токены

Прежде чем оптимизировать расходы, нужно понимать, сколько токенов уходит на ваши задачи. Для этого есть бесплатные онлайн-инструменты.

OpenAI Tokenizer показывает, как именно текст разбивается на токены, и подсвечивает каждый из них отдельным цветом. Можно вставить свой текст и увидеть разбивку наглядно.

Price Per Token поддерживает больше 300 моделей от разных провайдеров и сразу считает стоимость запроса. Подходит, чтобы сравнить расходы на одну и ту же задачу в разных моделях.

стоимость токенов нейросетей

Как экономить на токенах нейросетей

Пишите конкретные промпты. Вместо «Пожалуйста, предоставьте мне подробный анализ представленного документа» достаточно написать «Проанализируйте документ подробно». Экономия в 8-10 токенов на каждом запросе кажется мелочью, но в масштабе сотен и тысяч запросов набегает ощутимая сумма.

Используйте подходящие модели. Для простых задач вроде форматирования текста или ответов на типовые вопросы не нужен Claude Opus или GPT-5.2. Модели вроде Claude Haiku или GPT-4o-mini стоят в 50-100 раз дешевле и справляются с такими задачами не хуже.

Структурируйте промпты. Можно разделять промпт на четкие блоки с Markdown-разделителями или XML-тегами. Сами провайдеры рекомендуют такой формат, потому что он помогает модели быстрее извлечь нужную информацию.

Еще можно кэшировать промпты, в этом случае не придется платить повторно за одинаковые части запроса. У Claude кеш-чтение стоит 10% от обычной цены, у GPT-5.2 кешированные промпты дают скидку 90%. Но в этой статье не будем останавливаться на том, как это настроить.

Как считаются токены в картинках и аудио

Современные нейросети работают не только с текстом. Изображения, аудио и видео тоже пересчитываются в токены перед обработкой.

У каждого провайдера своя формула пересчета. Claude считает токены для изображения по формуле: ширина умножить на высоту и разделить на 750. Стандартное изображение занимает около 1600 токенов, что при ценах Opus 4.6 обходится примерно в $0,008. GPT оценивает картинку 1024×1024 примерно в 765 токенов. У Gemini изображение занимает от 258 до 1290 токенов в зависимости от разрешения.

С видео расход еще больше. Модель раскладывает видео на отдельные кадры и аудиодорожку. Каждый кадр считается как отдельное изображение. Поэтому минутное видео может весить десятки тысяч токенов.

Коротко о главном

Токен в нейросетях означает единицу текста, с которой работает модель. Чаще всего это часть слова, иногда целое слово или символ. Из набора в 30-100 тысяч токенов модель может собрать любое слово на любом языке.

Русский текст расходует токены в 1,5-3 раза быстрее английского. Причины в том, что модели обучались преимущественно на английском, кириллица занимает больше байтов в UTF-8, а богатая морфология русского языка удлиняет слова. При работе с русскоязычным контентом через API стоит закладывать запас в 15-20%.

Контекстное окно определяет, сколько информации модель может обработать за один запрос. Цены на токены различаются в сотни раз: от $0,28 за миллион входных токенов у DeepSeek до $25 за миллион выходных у Claude Opus. Для подсчета и оптимизации расходов можно использовать бесплатные онлайн-калькуляторы вроде OpenAI Tokenizer или Price Per Token, а для экономии выбирать модель под конкретную задачу и пользоваться кешированием промптов.

0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии