


Что такое токены в нейросетях и как они работают
Каждый раз, когда вы пользуетесь ChatGPT, Claude или Gemini, нейросеть работает не со словами и не с символами, а с токенами. Это единицы, на которые модель разбивает любой текст перед обработкой. От токенов зависит стоимость запросов через API, размер памяти модели и лимиты в бесплатных тарифах. Разбираемся, как именно работают токены, почему русский текст расходует их быстрее и как с этим справляться.
Что такое токены
Сразу оговорка: токен в контексте нейросетей не имеет отношения ни к криптовалюте, ни к токенам авторизации. Здесь токен означает единицу информации, с которой работает языковая модель. Чаще всего это часть слова, реже целое слово или отдельный символ.
Представьте конструктор LEGO. У вас есть набор из нескольких десятков тысяч деталей разного размера. Некоторые детали крупные — это целые слова: «the», «cat», «and». Другие мелкие и обозначают части слов или даже отдельные буквы.
Из этих деталей можно собрать любое слово, даже то, которое создателями конструктора не предполагалось.

Давайте разберемся на примере. Английское слово «cat» укладывается в один токен. Слово «darkness» разбивается на два: «dark» и «ness». По-русски «нейросеть» превращается в «нейро» + «сеть», а «интернационализация» распадается на четыре токена: «интер», «наци», «онали», «зация». Если завтра появится новый бренд «Нейромаркет», модель разобьет его на «Нейро» + «маркет» и поймет обе части по отдельности.
Нейросети работают с токенами, а не с обычными словами, по двум причинам.
- В любом языке существуют миллионы словоформ: только из слова «бежать» можно образовать «побежал», «забегала», «перебежишь» и десятки других вариантов. Уместить все формы в словарь невозможно, зато из ограниченного набора токенов можно собрать каждую из них.
- Токены позволяют работать с незнакомыми словами и разными языками одновременно, включая китайский и японский, где между словами нет пробелов.
Каждый токен модель преобразует в числовой идентификатор, потому что нейросети оперируют числами, а не буквами. Текст превращается в последовательность чисел, проходит через вычисления и на выходе снова становится текстом. Токены здесь работают как переводчик между человеческим языком и математикой модели.
Как подсчитать количество токенов в тексте
Один токен покрывает примерно 4 символа латиницы или около 2 символов кириллицы. Среднее английское слово занимает 1-1,3 токена, русское слово тяжелее и весит 2-3 токена.
Поэтому тысяча токенов вмещает около 750 английских слов, но только 350-400 русских. Одна страница А4 на русском языке (2000-2500 символов) занимает примерно 1000-1250 токенов. Книга на 300 страниц по-английски укладывается примерно в 100 000 токенов. Чтобы было понятнее, можете посмотреть на сравнительную таблицу ниже:
| Метрика | Английский | Русский |
|---|---|---|
| 1000 токенов | ~750 слов | ~350-400 слов |
| Среднее слово | ~1-1,3 токена | ~2-3 токена |
| Символов на токен | ~4 | ~2 |
| Фраза в 75 слов | ~100 токенов | ~120-150 токенов |
Почему русский текст расходует больше токенов
Основная причина — в обучающих данных. Модели GPT, Claude и Gemini тренировались преимущественно на английских текстах, и их токенизаторы лучше работают с латиницей. Для английского языка в словаре много готовых заготовок: частые слова и устойчивые сочетания хранятся целиком. Русских заготовок в словаре значительно меньше, поэтому модель чаще разбивает русские слова на мелкие фрагменты.
Есть и техническая сторона. Кириллические символы в кодировке UTF-8 занимают 2 байта каждый, а латинские в среднем около 1,25 байта. Вдобавок русский язык богат морфологически: приставки, суффиксы, падежные окончания удлиняют слова и увеличивают число токенов на каждое из них.
Поэтому совет: если вам нужно анализировать большие объемы информации и вы платите именно за токены (работаете за API или пользуетесь нейросетями через сервисы-посредники) — вам выгоднее общаться на английском языке.
Что такое контекстное окно
Это максимальное количество токенов, которое нейросеть может обработать за один запрос. Можно представить его как коробку фиксированного размера: все, что вы вложили в разговор, должно в нее поместиться. Если не помещается, старое выталкивается.
В контекстное окно входит не только ваш запрос. Туда попадают системные инструкции, вся предыдущая история диалога, загруженные файлы и документы, а также ответ модели. Когда окно заполняется, модель начинает забывать ранние части разговора и теряет контекст. Именно поэтому в длинных диалогах нейросеть иногда перестает учитывать то, что вы обсуждали в начале.
У разных нейросетей разные контекстные окна:
| Модель | Контекстное окно |
|---|---|
| Grok 4.1 Fast | 2 000 000 |
| GPT-4.1 | 1 000 000 |
| Gemini 3 Pro | 1 000 000 |
| GPT-5.2 | 400 000 |
| Claude Opus 4.6 | 1 000 000 |
| DeepSeek V3.2 | 128 000 |
Давайте переведем эти цифры в понятные объемы:
- 128 000 токенов вмещают примерно 200 страниц английского текста или книгу среднего размера.
- Миллион токенов покрывает около 1500 страниц, 50 000 строк кода или 200 расшифровок подкастов.
- Окно в 200 000 токенов для русского текста означает примерно 90-100 страниц.
Но большое окно не гарантирует, что модель одинаково хорошо обработает все, что в него загружено. Исследователи Стэнфордского университета выяснили, что модели лучше всего работают с информацией в начале и в конце контекста, а данные в середине длинного текста теряют.
Поэтому самую важную информацию лучше размещать в начале и в конце промпта, если он очень большой.
Сколько стоят токены
Важно! Покупать токены и платить за подписку на нейросеть — разные вещи. Подписки обычно стоят $20-100 и позволяют общаться с нейронками практически без ограничений. Платить за токены нужно, если вы интегрируете нейросети в свои проекты через API. В этом случае нужно оплачивать каждый израсходованный токен. Стоимость токенов обычно рассчитывается за 1 миллион входящих и исходящих токенов.
Входные (ваш запрос) токены всегда дешевле, выходные (ответ модели) — дороже. Так происходит потому, что генерация нового текста требует от модели значительно больше вычислений, чем чтение входных данных.
У разных моделей и компаний цены на токены разнятся. На февраль 2026 года картина выглядит так:
| Модель | Вход (/1Mтокенов) | Выход(/1M токенов) |
|---|---|---|
| Claude Opus 4.6 | $5,00 | $25,00 |
| GPT-5.2 | $1,75 | $14,00 |
| Gemini 3 Flash | $0,50 | $3,00 |
| Grok 4.1 Fast | $0,20 | $0,50 |
| GPT-5-Nano | $0,05 | $0,40 |
| DeepSeek V3.2 | $0,28 | $0,42 |
Допустим, вы просите нейросеть написать статью на 500 слов по-русски. Входной промпт займет примерно 1000-1250 токенов, ответ модели около 1500 токенов. На Claude Opus 4.6 такой запрос обойдется примерно в $0,04 (около 3-4 рублей). На GPT-5.2 в $0,02 (около 2 рублей). А на DeepSeek V3.2 меньше чем в копейку.
Как считать токены
Прежде чем оптимизировать расходы, нужно понимать, сколько токенов уходит на ваши задачи. Для этого есть бесплатные онлайн-инструменты.
OpenAI Tokenizer показывает, как именно текст разбивается на токены, и подсвечивает каждый из них отдельным цветом. Можно вставить свой текст и увидеть разбивку наглядно.
Price Per Token поддерживает больше 300 моделей от разных провайдеров и сразу считает стоимость запроса. Подходит, чтобы сравнить расходы на одну и ту же задачу в разных моделях.

Как экономить на токенах нейросетей
Пишите конкретные промпты. Вместо «Пожалуйста, предоставьте мне подробный анализ представленного документа» достаточно написать «Проанализируйте документ подробно». Экономия в 8-10 токенов на каждом запросе кажется мелочью, но в масштабе сотен и тысяч запросов набегает ощутимая сумма.
Используйте подходящие модели. Для простых задач вроде форматирования текста или ответов на типовые вопросы не нужен Claude Opus или GPT-5.2. Модели вроде Claude Haiku или GPT-4o-mini стоят в 50-100 раз дешевле и справляются с такими задачами не хуже.
Структурируйте промпты. Можно разделять промпт на четкие блоки с Markdown-разделителями или XML-тегами. Сами провайдеры рекомендуют такой формат, потому что он помогает модели быстрее извлечь нужную информацию.
Еще можно кэшировать промпты, в этом случае не придется платить повторно за одинаковые части запроса. У Claude кеш-чтение стоит 10% от обычной цены, у GPT-5.2 кешированные промпты дают скидку 90%. Но в этой статье не будем останавливаться на том, как это настроить.
Как считаются токены в картинках и аудио
Современные нейросети работают не только с текстом. Изображения, аудио и видео тоже пересчитываются в токены перед обработкой.
У каждого провайдера своя формула пересчета. Claude считает токены для изображения по формуле: ширина умножить на высоту и разделить на 750. Стандартное изображение занимает около 1600 токенов, что при ценах Opus 4.6 обходится примерно в $0,008. GPT оценивает картинку 1024×1024 примерно в 765 токенов. У Gemini изображение занимает от 258 до 1290 токенов в зависимости от разрешения.
С видео расход еще больше. Модель раскладывает видео на отдельные кадры и аудиодорожку. Каждый кадр считается как отдельное изображение. Поэтому минутное видео может весить десятки тысяч токенов.
Коротко о главном
Токен в нейросетях означает единицу текста, с которой работает модель. Чаще всего это часть слова, иногда целое слово или символ. Из набора в 30-100 тысяч токенов модель может собрать любое слово на любом языке.
Русский текст расходует токены в 1,5-3 раза быстрее английского. Причины в том, что модели обучались преимущественно на английском, кириллица занимает больше байтов в UTF-8, а богатая морфология русского языка удлиняет слова. При работе с русскоязычным контентом через API стоит закладывать запас в 15-20%.
Контекстное окно определяет, сколько информации модель может обработать за один запрос. Цены на токены различаются в сотни раз: от $0,28 за миллион входных токенов у DeepSeek до $25 за миллион выходных у Claude Opus. Для подсчета и оптимизации расходов можно использовать бесплатные онлайн-калькуляторы вроде OpenAI Tokenizer или Price Per Token, а для экономии выбирать модель под конкретную задачу и пользоваться кешированием промптов.
