Что такое токены ChatGPT?

Что такое токены ChatGPT?

Мы с Вами знаем, что ChatGPT является платным. В этой статье я хочу помочь сформировать представление, как и из чего происходит оплата за использование данного сервиса. Первое что нужно понимать, это то, что учитывается трафик в две стороны. То есть сообщения, которые Вы отправили ему и сообщения, которые Вы получили от него учитываются. Второе что нужно понимать, так это то, что при переписке с ChatGPT тянется и ее контекст, ну или если говорить проще и грубее, то история Вашей переписки в разрезе текущего диалога. Это позволяет сервису продолжать беседу с Вами, а не воспринимать каждое сообщение, как нечто новое.

Теперь поговорим о том, что очень сложно, но вместе с тем и очень важно. Для того что бы произвести расчет стоимости за количество переданного текста   сервис оперирует таким мерилом как токены. И тут возникает сложность.

Возьмем для анализа текст:

Буря мглою небо кроет,
Вихри снежные крутя;
То, как зверь, она завоет,
То заплачет, как дитя,
То по кровле обветшалой
Вдруг соломой зашумит,
То, как путник запоздалый,
К нам в окошко застучит.

В этом тексте 32 слова, а токенов 215.

Теперь этот же текст на английском языке:

The storm covers the sky with a haze
As it swirls heaps of snow in the air.
At times, it howls like a beast,
And then cries like a child;
At times, on top of the threadbare roof,
It suddenly rustles straw,
And then, like a late traveller,
It knocks upon our window.

53 слова, а токенов 75.

Как мы видим, слова на русском и английском содержат разное количество токенов. Все дело в том, что все русские символы преобразуются (как и другие национальные символы не входящие в ASCII) в UTF-8.

Как считаются токены

Расчет производился с помощью специального калькулятора токенов, которые мы рекомендуем использовать для расчета, если это потребуется. Я думаю, все обратили внимание на огромную разницу подсчета в текстах выше?

Несмотря на то, что в английском варианте больше слов, токенов намного меньше. Для расчета токенов данный сервис ChatGPT использует сложный алгоритм, который не позволяет сходу быстро подсчитать количество токенов на основе символов или слов. Тем кому интересно разобраться с данными алгоритмами, можно обратиться к официальной документации самого ChatGPT. Мы же пользуемся калькулятором токенов.

Выводы

Исходя из всего этого, понятно, что токен, это не символ и в то же время не слово, а некоторая величина, отвязанная от их количества, хотя конечно определенная связь есть. Чем больше слов, тем больше токенов.

Изображение автора статьи

Специалист техподдержки компании Софтонит. Веб-разработчик и front developer

Теги
Загрузка...
Поделитесь статьей
Рекомендуем почитать
Статьи Как использовать ChatGPT для решения IT-задач?

В статье кратко рассказываем о том, как современные технологии помогают упростить работу, избавить от рутинных задач и как стоит формировать запрос для чата GPT (ChatGPT), чтобы получить наиболее подходящий, полезный ответ.

Статьи Инструменты для создания видеороликов

Современные технологии на IT службе.
В статье делимся опытом использования цифровых инструментов для ускоренного создания качественных видео роликов.
Крайне полезная инфа для тех, кто хочет регулярно и быстро создавать короткие обучающие видео.

Статьи Изменение раскладки текста на 1C EN в RU (ghbdtn => привет)

Иногда встречаются задачи, когда необходимо преобразовать текст с не верной раскладкой клавиатуры. Это тот случай, когда долго и упорно вводится текст, а потом мы смотрим на экран и видим, что был выбран другой язык ввода :)

0 / 0