Що таке токени в ШІ: чому ChatGPT «забуває» початок довгої розмови

Ви коли-небудь писали з ChatGPT довгу розмову й помічали, що він якось забував те, про що ви говорили на початку? Не тому, що він невдячний. Просто існує ліміт на так звані «токени» — одиниці тексту, які модель може одночасно обробити. І коли ви цей ліміт вичерпуєте, найстарша частина розмови просто випадає з контексту. Це не помилка, а фундаментальна особливість того, як працює штучний інтелект. У цьому матеріалі розберемось, що саме це за токени, як їх рахувати й чому вони визначають, як довго ваш чат залишається пам’ятливим.

Зміст

Найшвидше: основне
Що таке токен: визначення і приклади
- Приклад розбиття на токени
Як модель розділяє текст на токени
- Чому не просто розбити на слова?
Контекстне вікно: межа можливостей
- Приклад контекстного вікна
Чому ChatGPT «забуває» початок розмови
- Механізм витіснення контексту
- Чому саме так?
Різні ліміти у різних моделей
- Чому не зробити вікно більшим?
Як економити токени в практиці
Практичні наслідки для користувачів
- Для звичайного спілкування
- Для програмістів та розробників
Що робити, якщо контекст закінчується
FAQ
Висновок

Найшвидше: основне

Токен – це маленький шматок тексту. Слово. Частина слова. Цифра. Розділовий знак. Модель розбиває весь ваш текст на такі токени перед тим, як його обробити. І кожна модель має обмеження — максимум токенів, які вона може одночасно утримувати (це називається контекстне вікно). Коли ви це обмеження вичерпуєте, найстарші частини розмови просто випадають. Звідси й це враження, що модель забула, що ви говорили на початку.

Що таке токен: визначення і приклади

На перший погляд, токен – це просто слово. Та насправді ніхто б не замовив докладний матеріал про слова. Складніше.

Токен — найменша одиниця тексту, яку ШІ розуміє як окремий елемент. Зазвичай це слово. Але не завжди. Дивіться:

Слово “привіт” – один токен
Слово “говорити” – один токен
Слово “невдячний” – часто два токени: “невда” + “чний” (в англійській так само)
Цифра “2026” – один токен
Розділова крапка ”.” – один токен
Пробіл — іноді він частина токена, іноді окремо. Залежить від алгоритму

Кожна модель має свій метод розділення (tokenizer). Але суть одна — текст розбивається на окремі шматки. Кожен отримує номер (індекс). І саме ці номери модель насправді «розуміє». Не букви, а числа.

Приклад розбиття на токени

Найпростіша фраза:

“Я люблю писати про ШІ!”

GPT розбивав би це так:

“Я” – 1 токен
” люблю” – 1 токен (з пробілом)
” писати” – 1 токен
” про” – 1 токен
” ШІ” – 1 токен
”!” – 1 токен

Разом: 6 токенів.

І ось чому це важливо: кожен токен для моделі щось «коштує». Комп’ютерний час, енергія. Якщо ви платите через API – прямо гроші. Але найголовніше: токени визначають, як довго модель може вести розмову й не втрачати контекст.

Як модель розділяє текст на токени

Розділення текстів на токени – це не просто якась випадковість. Це результат спеціального навчання. OpenAI та інші компанії беруть величезний набір текстів, аналізують найчастіші комбінації символів й на основі цього будують «словник» токенів. Розумне, по суті.

Чому не просто розбити на слова?

На перший погляд, простіше ж розбити текст на слова за пробілами, та? Але тут виникають проблеми.

Перша. Рідкісні слова. Чому давати окремий номер слову, яке трапляється один раз на мільйон текстів? Краще його розбити на частіші шматки.

Друга. Модель вчиться передбачати наступний токен, дивлячись на попередні. Якщо розбиватимемо текст на дуже довгі слова, модель гірше вловлює закономірності.

Третя. Ефективність. Токенізація дозволяє представити текст компактніше. Модель обробляє його швидше й дешевше.

Сучасні алгоритми (як BPE — Byte-Pair Encoding) беруть текст і поступово будують ієрархію: спочатку окремі байти, потім часті пари символів, потім більші частини. На виході — універсальний «словник» з десятками тисяч токенів. Це як створення мови для модельки.

Контекстне вікно: межа можливостей

Контекстне вікно — це максимум токенів, які модель може обробити одночасно. Уявіть: ви читаєте книгу, та у полі зору лишається кілька сторінок. Все, що було до цього, вже не враховується.

Приклад контекстного вікна

Припустимо, у ChatGPT (GPT-4) контекстне вікно — 8000 токенів (спрощено; насправді для деяких версій більше). Отже:

Ви написали запитання: 150 токенів
Отримали відповідь: 200 токенів
Друге запитання: 100 токенів
Відповідь: 300 токенів
Третє запитання: 150 токенів
Відповідь: 250 токенів

Разом: 1150 токенів. Вільного місця — ще 6850.

Та розмова продовжується. Лічильник наближається. Коли ви вже «витратили» 7900 токенів, для наступної вашої фрази й відповіді залишилось місце хіба на 100 токенів. Дуже мало. Модель починає скорочувати відповіді або просто «забуває» найстарші повідомлення з розмови.

Чому ChatGPT «забуває» початок розмови

Добре, а як саме це відбувається?

Механізм витіснення контексту

Коротко:

1. Система-підказка (system prompt) залишається. Це приховані інструкції моделі — типу “ти корисний асистент”. Вона практично ніколи не видаляється.

2. Останні повідомлення залишаються. Вони найважливіші для сьогоднішньої розмови.

3. Старі повідомлення видаляються. Коли вікно переповнюється, найстарші повідомлення просто вилучаються.

Це не «забування» в звичайному сенсі. Просто фізичне видалення того, що не поміщається у вікно.

Чому саме так?

Це вибір розробників. Вони мали кілька варіантів:

Видаляти старі й залишати нові (вибір OpenAI)
Скорочувати все рівномірно
Якось розумніше «стискати» контекст

Перший варіант найлогічніший. Для розмови найважливіше те, про що говорити зараз. Розмова з годину тому. Та, чесно, вже давно не актуальна.

Різні ліміти у різних моделей

Не всі моделі однакові. Вікна бувають різного розміру.

Модель	Контекстне вікно	Примітка
GPT-3.5	4000–16000 токенів	Залежить від версії
GPT-4	8000–128000 токенів	Оновлено за 2024–2025 рр.
Claude 3 (Anthropic)	200000 токенів	Великий контекст, підходить для довгих документів
Gemini (Google)	1000000 токенів	Але обраний контекст може бути меншим
Llama 2 (Meta)	4000–32000 токенів	Залежить від варіанту

Видна тенденція: компанії розширюють вікна. Claude вже бачить 200000 токенів — це велика книга! Та навіть це має межу.

Чому не зробити вікно більшим?

Кілька причин:

Обчислювальні витрати. Більше контексту = більше операцій, повільніша обробка, більше енергії. Просто.

Якість уваги. Коли контекст дуже великий, модель гірше фокусується на важливому. Вона відвлюється.

Гроші. Провайдери беруть плату за кожен токен. Більше контексту = дорожче для користувача.

Як економити токени в практиці

Якщо користуєтеся ChatGPT, Claude чи моделлю через API, ось що роблять розумні люди:

1. Структуруйте запитання чітко

Погано:

Привіт, як справи? Я хотів би щось запитати. Раніше я писав про маркетинг, та сьогодні — інше. Мені потрібна порада як написати пост на Facebook для магазину одягу. Як захопити увагу?

Добре:

Напиши план поста на Facebook для магазину одягу. Мета: молоді жінки (18–30 років). Формат: текст + 2–3 ключові пункти.

У другому варіанті менше спілування й більше точності. Модель витратить менше токенів і розумітиме швидше.

2. Часто починайте нові розмови

Довга розмова — не святість. Почніть нову. Часто це прискорює роботу й дає свіжіший контекст.

3. Використовуйте системні підказки

Деякі сервіси дозволяють встановити приховані інструкції на початку (system prompt). Це економить токени, бо не треба повторювати одне й те саме в кожному повідомленні.

Замість того, щоб писати:

Будь ласка, використовуй тон дружньо-професійний й україномовний

Встановіть це один раз у системній підказці. Готово.

4. Розбивайте великі документи на частини

Довгий текст — розбийте на логічні куски. Обробляйте окремо, потім узагальніть результати.

5. Дивіться на лічильник

OpenAI дає інструмент для підрахунку токенів. ChatGPT.com показує приблизну кількість. Коли наближаєтеся до ліміту — скорочуйте.

Практичні наслідки для користувачів

Для звичайного спілкування

Якщо просто спілкуєтеся з ChatGPT як чатбот — контекстне вікно звичайно досить велике. Розмова на 50–100 повідомлень? Не проблема, ви не вичерпаєте вікно. Проблеми виникають коли:

Одночасно обговорюєте купу файлів
Розмова у вас (200+ повідомлень)
Вставляєте великі шматки коду або тексту

Для програмістів та розробників

Для них контекст — справжня проблема. Коли будуєте додаток на API:

Треба розраховувати витрати на токени
Треба стежити за розміром запиту
Треба оптимізувати промпти

Приклад: ваш чатбот обробляє 1000 запитів на день. Кожен — 100 токенів обробки + 50 токенів відповіді. За місяць — мільйони токенів. Гроші!

Що робити, якщо контекст закінчується

Причина 1: занадто довга розмова

Виставляйте нову. Копіюйте короткий резюме попередньої на початок нової. Закривайте старий чат.

Причина 2: великі файли або тексти

Розбивайте на частини. Обробляйте окремо. Узагальніть результати. Розбийте на кілька запитів.

Причина 3: дуже детальні системні інструкції

Скоротіть до необхідного. Використовуйте налаштування в інтерфейсі, якщо є. Замість “детального гайду” — “короткі правила”.

FAQ

Що робити, якщо модель “забула” важливу інформацію?

Нагадайте їй. Напишіть коротко: “Як ми обговорювали раніше, ти розробляв план для…” Та знайте: якщо інформація повністю видалена з контексту, модель не згадає. Просто скопіюйте важливу частину в новий запит.

Токени впливають на якість?

Не прямо. Якість залежить від навчання моделі. Та якщо контекст обрізується, модель може дати менш доречну відповідь, бо не бачить повної картини.

Можна розширити вікно під час розмови?

Ні. Це обмеження архітектури самої моделі. Ви можете лише впорядковувати запити більш розумно.

Скільки токенів у реченні?

Англійське речення — зазвичай 10–20 токенів. Українське — приблизно стільки ж. Цей абзац, який ви читаєте, — близько 15–20 токенів.

Довші моделі витрачають більше токенів?

Так. Великше вікно = повільніша обробка й більше енергії. GPT з 128000 токенів працює повільніше, ніж версія з 8000, та дозволяє набагато більше гнучкості.

Нові моделі матимуть необмежений контекст?

Навряд. Якісь межи завжди будуть, та вони продовжуватимуть рости. Моделі з мільйонами токенів вже існують — наприклад, Gemini 1.5 Pro підтримує до 1 мільйона токенів.

Чому не просто зберігати розмову на диску?

Тому що для кожної відповіді модель мусить обробити всю збережену інформацію. Коли ви завантажите розмову цілого року, модель потребує пропорційно більше часу й потужності для генерації одного токена.

Висновок

Токени — це основа сучасного штучного інтелекту. Вони не помилка, а логічний спосіб організувати інформацію. Контекстне вікно — не недолік, а компроміс між якістю, швидкістю й грошима.

Коли ChatGPT «забуває» вашу розмову — це не тому, що модель невдала. Просто розробники обрали прагматичне рішення: краще робити кожну відповідь максимально доречною для сьогодні, ніж намагатися зберігати весь архів. Логічно.

Розуміючи це, ви можете розумніше працювати з ШІ. Структурувати запити. Починати нові розмови, коли потрібно. Розраховувати вартість при роботі з API. З часом контекстні вікна стануть більшими, ця проблема буде менш болючою. Та не зникне повністю.