Мы с Вами знаем, что ChatGPT является платным. В этой статье я хочу помочь сформировать представление, как и из чего происходит оплата за использование данного сервиса. Первое что нужно понимать, это то, что учитывается трафик в две стороны. То есть сообщения, которые Вы отправили ему и сообщения, которые Вы получили от него учитываются. Второе что нужно понимать, так это то, что при переписке с ChatGPT тянется и ее контекст, ну или если говорить проще и грубее, то история Вашей переписки в разрезе текущего диалога. Это позволяет сервису продолжать беседу с Вами, а не воспринимать каждое сообщение, как нечто новое.
Теперь поговорим о том, что очень сложно, но вместе с тем и очень важно. Для того что бы произвести расчет стоимости за количество переданного текста сервис оперирует таким мерилом как токены. И тут возникает сложность.
Возьмем для анализа текст:
Буря мглою небо кроет,
Вихри снежные крутя;
То, как зверь, она завоет,
То заплачет, как дитя,
То по кровле обветшалой
Вдруг соломой зашумит,
То, как путник запоздалый,
К нам в окошко застучит.
В этом тексте 32 слова, а токенов 215.
Теперь этот же текст на английском языке:
The storm covers the sky with a haze
As it swirls heaps of snow in the air.
At times, it howls like a beast,
And then cries like a child;
At times, on top of the threadbare roof,
It suddenly rustles straw,
And then, like a late traveller,
It knocks upon our window.
53 слова, а токенов 75.
Как мы видим, слова на русском и английском содержат разное количество токенов. Все дело в том, что все русские символы преобразуются (как и другие национальные символы не входящие в ASCII) в UTF-8.
Как считаются токены
Расчет производился с помощью специального калькулятора токенов, которые мы рекомендуем использовать для расчета, если это потребуется. Я думаю, все обратили внимание на огромную разницу подсчета в текстах выше?
Несмотря на то, что в английском варианте больше слов, токенов намного меньше. Для расчета токенов данный сервис ChatGPT использует сложный алгоритм, который не позволяет сходу быстро подсчитать количество токенов на основе символов или слов. Тем кому интересно разобраться с данными алгоритмами, можно обратиться к официальной документации самого ChatGPT. Мы же пользуемся калькулятором токенов.
Выводы
Исходя из всего этого, понятно, что токен, это не символ и в то же время не слово, а некоторая величина, отвязанная от их количества, хотя конечно определенная связь есть. Чем больше слов, тем больше токенов.