Почему ИИ "забывает": расследование о памяти агентов Или зачем ChatGPT нужен Obsidian, а не наоборот Дата публикации: 23 апреля 2025 Пролог: Мой разговор, который исчез Честно? Когда я начинала это…

Почему ИИ "забывает": расследование о памяти агентов

Или зачем ChatGPT нужен Obsidian, а не наоборот

Дата публикации: 23 апреля 2025

Обложка: нейронная сеть с иерархией памяти

Пролог: Мой разговор, который исчез

Честно? Когда я начинала это расследование, я думала, что знаю, о чём речь. О памяти ИИ, мол — техническая деталь, контекстное окно, векторные базы. Скучная инфраструктура для технарей.

А потом случилось кое-что странное.

Я три часа обсуждала с Claude сложный проект — прописывала углы статей, согласовывала тона, решала организационные вопросы. В конце сессии он сказал: "Отличная работа, Вера. До встречи."

На следующее утро я открываю чат: "Чем могу помочь?"

Три часа. Ноль. Чистый лист. Как будто разговора не было.

Я сидела перед экраном минуту, глядя на эту фразу. Потом ещё минуту. Потом написала: "А помнишь, что мы вчера обсуждали?" — и поняла, что придётся начинать сначала. Пересылать файлы. Переобъяснять контекст. Переплачивать за токены, чтобы вернуть ИИ в ту точку, где он был вчера.

Вот тогда я и задумалась: мы строим будущее с искусственным интеллектом, который страдает амнезией. У которого нет вчера. И мы считаем это нормальным.

А что, если это не нормально? Что, если память — не просто feature, а сама суть интеллекта?

Я начала копать. И упала в кроличью нору глубиной, от которой у меня до сих пор кружится голова.

[Иллюстрация 1: Песочные часы — данные "застревают" в середине контекста]

Глава 1: Парадокс больших контекстов

Помните, как несколько лет назад 4 000 токенов казались роскошью? Сегодня Claude предлагает 200 000, Gemini — миллион, а GPT-4 в API добрался до миллиона токенов в специальном режиме.

Цифры захватывают дух. Посчитаем: 200 тысяч токенов — это примерно 500 страниц текста. Можно засунуть в контекст целую книгу. Можно целый кодовый репозиторий. Можно, казалось бы, всю свою цифровую жизнь.

Но вот что я поняла, пока копалась в технических документациях: больше контекста ≠ лучше память.

Представьте, что вы читаете роман из 500 страниц. Но не последовательно — а сразу все страницы перед глазами, буквально всё одновременно. И вам нужно ответить на вопрос: "Что герой сказал на странице 247?" — при этом ваша внимательность распределяется равномерно между всеми 500 страницами.

Звучит как кошмар? Для LLM это реальность.

Исследователи давно заметили эффект под названием "lost in the middle" — потерянные в середине. Когда контекст превышает определённый размер, нейросеть буквально перестаёт "видеть" информацию в середине текста. Она помнит начало и конец, а всё остальное превращается в размытый шум.

Я нашла исследование из Стэнфорда: при 128K контексте модель правильно использует информацию из первых 10% и последних 10%. Всё остальное — лотерея.

То есть мы платим за миллион токенов, но реально работают сто тысяч — и то не всегда.

[Иллюстрация 2: Разрезанная книга-детектив — куски текста разбросаны]

Глава 2: Казалось бы, в чём проблема?

Когда я первый раз услышала про RAG — эту штуку, когда ИИ ищет документы перед ответом — я обрадовалась. Думаю: вот оно! Не нужно всё пихать в голову бедной нейросети, она просто подсмотрит в шпаргалку.

И вроде работает. Красиво даже. Все так делают — и ChatGPT, и корпоративные боты.

Но я стала замечать странности. И чем больше пользовалась, тем больше они меня раздражали.

Во-первых, разрыв

Представьте: вы читаете детектив. Но книгу порвали на куски по 500 слов и перемешали. И теперь вы спрашиваете: «А кто же убийца?» — а вам выдают кусок из главы 5, где красный след. А вся развязка была в главе 12, которую ИИ не сочёл полезной. Забавно, да?

Во-вторых, похоже ≠ нужно

Вопрос «Почему проект провалился?» похож на «Проект был успешным». Ведь оба про проект! Только один про провал, другой об успехе. А ИИ может подсунуть не тот кусок, потому что он «семантически близок». И вы потом удивляетесь странным ответам.

В-третьих, старое против нового

Вы полчаса общаетесь с ботом, он помнит контекст. И тут вы спрашиваете про документ. Теперь он должен уместить в голове и вашу историю, и куски из документа. Не влезает? Значит, что-то забудет. Вопрос — что?

И самое обидное

RAG помнит документы, но не помнит вас. Закрыли чат — он об вас забыл. Как будто разговора не было. Как лучший друг, который каждое утро предлагает вам пиццу с ананасами, хотя вы их ненавидите. Каждый. Чёртов. Раз.

Я смотрела тесты разных баз данных — Weaviate быстрее, Pinecone масштабируется, pgvector дешевле. Но ни одна не решает главное: память — это не только проискать документ. Память — это помнить человека.

[Иллюстрация 3: Граф узлов и связей — сеть знаний вместо кусков текста]

Глава 3: GraphRAG — когда связи важнее фактов

Microsoft выкатила GraphRAG летом 2024, и сообщество взорвалось. Не взорвалось как ChatGPT в 2022 — нет, это была взрывная волна внутри индустрии. Потому что GraphRAG предложил не инкрементальное улучшение, а качественно другой подход.

Вместо того чтобы искать "похожие куски текста", GraphRAG строит knowledge graph — граф знаний. Сущности. Отношения. Контекст.

Пример: в традиционном RAG книга "Война и мир" превращается в тысячи чанков, и когда вы спрашиваете "Почему Андрей уехал?", система ищет чанки со словами "Андрей" и "уехал". Может найти, может нет. Может найти не про того Андрея.

GraphRAG видит: [Андрей Болконский] — [сын] — [Николай Болконский] — [управляет] — [ estate ]. И понимает связи. Понимает, что вопрос про мотивацию персонажа требует знания его отношений, социального положения, сюжетной арки.

Entity-centric indexing вместо chunk-based.

Я зачиталась документацией Memgraph, которая сравнивает подходы: "RAG даёт доступ к информации, GraphRAG даёт понимание."

Но — всегда есть "но" — GraphRAG дороже индексировать. Требует больше compute. Сложнее настраивать. И исследование на arXiv (2509.16780) показало, что для page-level retrieval обычный embedding-based RAG иногда выигрывает по точности.

Так что правильный ответ, как обычно, в гибриде: векторный поиск для быстрого ретривала + графовый reasoning для понимания связей.

[Иллюстрация 4: Три слоя — Raw Sources (внизу), Wiki (центр), Schema (вверху)]

Глава 4: Метод Карпаты — Obsidian как нейронная сеть

А вот тут я реально онемела.

Андрей Карпаты — бывший директор по ИИ в Tesla, бывший из OpenAI, один из самых уважаемых голосов индустрии — выложил в публичный доступ свой личный метод работы с ИИ. Он назвал это LLM Wiki.

И это не просто "я пользуюсь Obsidian". Это фундаментально другой взгляд на память.

Трёхслойная архитектура:

Raw Sources — ваши исходники. PDF, статьи, заметки. Неизменяемые, как архив.
Wiki — LLM-generated summaries, кросс-ссылки, концептуальные карты. Это живой организм, который эволюционирует.
Schema — CLAUDE.md или AGENTS.md. Документ, который превращает Claude Code или Codex из "просто чатбота" в дисциплинированного wiki-maintainer.

Главный инсайт Карпаты: вместо того чтобы ретривить из сырых документов во время запроса, LLM инкрементально строит и поддерживает persistent wiki — структурированную, связную коллекцию markdown-файлов.

Три операции, которые он использует ежедневно:
- /ingest-url — скормить URL, Claude извлекает статью и компилирует в wiki, затрагивая 5-15 страниц за проход
- /process-inbox — мимолётные мысли автоматически классифицируются и интегрируются
- /lint-wiki — health check: broken links, orphan pages, противоречия

Я смотрела на это и думала: вот оно. Память, которая не забывает.

Потому что она не в "контексте". Она в файлах. В Obsidian. В той же среде, где работаю я. Структурированная, версионируемая, доступная.

Карпаты описывает эффект, от которого у меня мурашки по коже: когда он скармливает LLM новую статью, система читает существующую wiki, понимает связи, обновляет существующие страницы новыми инсайтами, создаёт новые только где нужно. Система учится. Система помнит.

И всё это работает локально. Приватно. Без облака OpenAI, если вы используете Ollama.

Reddit взорвался: плагины для Obsidian, интеграции, тысячи разработчиков строят свои Second Brain на базе этой методологии.

Но карта не есть территория. Я попробовала — и сразу столкнулась с реальностью. Нужна дисциплина. Нужно поддерживать структуру. Нужно время на индексацию. Это не "волшебная кнопка помнить всё" — это инфраструктура, которую нужно строить и поддерживать.

[Иллюстрация 5: Пирамида памяти — Main Context, External Memory, Archival Storage]

Глава 5: MemGPT — когда ИИ учится page'ингу

Помните, как работает операционная система? У вас есть RAM — быстрая, но ограниченная. И есть диск — медленный, но ёмкий. Когда RAM заканчивается, OS делает paging: вытесняет неиспользуемые страницы на диск и подкачивает нужные.

Вы когда-нибудь задумывались, почему LLM не могут так же?

Оказывается, могут. MemGPT — проект из UC Berkeley — реализует именно это.

Иерархическая память:
- Main Context — то, что сейчас в "голове" у LLM (контекстное окно)
- External Memory — long-term storage, куда можно положить и забыть
- Archival Storage — глубокий архив

И функции, которые позволяют LLM самостоятельно управлять этой памятью. Выгружать. Подкачивать. Искать.

Я читала статью с открытым ртом. Они взяли LLM с контекстом в 4K токенов — смешно маленьким по современным меркам — и заставили его анализировать документы больше 100K токенов. Через paging. Через smart retrieval. Через то, что авторы называют virtual context management.

Результат? MemGPT превзошёл базовые системы на задачах анализа документов и многосессионных диалогов. С меньшим контекстом. С меньшими затратами.

Это как если бы человек с кратковременной памятью на 5 минут вдруг получил способность записывать заметки, организовывать их, и обращаться к ним по мере необходимости.

GitHub-репозиторий cpacker/MemGPT собрал тысячи звёзд. Появились интеграции с LangChain (lang-memgpt). Это уже не академический прототип — это система, готовая к промышленному использованию.

[Иллюстрация 6: Древнегреческий храм — комнаты как ячейки памяти]

Глава 6: Дворец Памяти — 2500 лет опыта

Теперь кое-что совсем странное.

Помните техники мнемоники из древности? Греческие ораторы запоминали многочасовые речи, используя Method of Loci — метод мест. Они мысленно размещали ключевые идеи в знакомых локациях: комнаты дома, колонны храма, повороты улиц.

Цицерон писал об этом. Шерлок Холмс пользовался (в версии BBC). Люди до сих пор используют для запоминания колод карт и цифр π.

Почему это работает? Потому что пространственная память у человека сильнее фактической. Мы легче вспомним, где стоит диван в гостиной, чем что лежит на нём. Мы помним путь к магазину лучше, чем номер дома.

И теперь это приходит в ИИ.

Я нашла упоминания проекта mem.llm — open-source AI memory system, который использует spatial geometry inspired by Method of Loci. Концепция: вместо того чтобы хранить факты в виде disconnected embeddings, система строит "дворцы" — структурированные пространства, где каждая "комната" содержит related concepts.

Запрос пользователя превращается в "навигацию" — система перемещается между комнатами, собирая контекст из связанных областей.

Звучит как метафора? Но мозг устроен именно так. Hippocampus — наш центр памяти — использует place cells. Нейроны, которые активируются в конкретных локациях.

Может, 2500 лет назад греки случайно наткнулись на архитектуру, которая оптимальна для любого интеллекта — биологического или искусственного?

[Иллюстрация 7: Сравнительная таблица — OpenAI vs Anthropic vs LangChain]

Глава 7: А что там у больших ребят?

Я задалась вопросом — а как же с этим справляются гиганты? Вроде OpenAI. Или Anthropic с их Claude.

Смотрю на OpenAI Assistants API. Они там пишут про «persistent threads» — постоянные потоки, которые хранят историю. Звучит как решение? А вот нет.

Копаю глубже. Оказывается, сообщения-то хранятся на их серверах. Но каждый раз, когда вы пишете, они загружаются в контекст заново. И если история большая — система её обрезает. Просто выкидывает начало разговора, чтобы уместиться в лимит.

И вот вам цена: вы платите за все токены этой истории. Каждый. Раз. Я посчитала — трёхчасовая беседа может стоить дороже месячной подписки. Представляете? Заплатили за продукт, а потом платите за право им пользоваться.

Смотрю на LangChain. У них целая наука — классы памяти. Есть ConversationBuffer, который всё помнит. Есть BufferWindow — только последние сообщения. Есть Summary — он саммаризирует, сжимает. Я смотрела сравнение: после четырёх сообщений Buffer жрёт 184 токена, а Summary — уже почти 800. Выбирайте: либо дорого, либо с потерями.

А вот Claude от Anthropic. У них крутая фишка — 200 тысяч токенов контекста. Это как целая книга. И недавно они добавили «prompt caching» — можно закэшировать промпт и не платить дважды. Умно? Умно.

Но это всё равно не память между сессиями. Закрыли окно — начинаете с чистого листа.

И вот что я поняла: ни один из них не предлагает настоящую память. Только разные костыли для одной и той же боли — контекст ограничен.

[Иллюстрация 8: Ластик стирает цепочку сообщений — метафора амнезии]

Глава 8: А я думала, я одна такая

Сижу ночью, листаю Reddit. И вдруг наткнулась на пост: парень спрашивает — есть ли вообще решение для памяти агентов. Он уже полгода строит что-то своё, и каждое утро начинает сначала. Потому что ИИ не помнит, что они вчера обсуждали.

И я такая: «Господи, так это не у меня одной!»

Представьте: вы нанимаете помощника. Умного, вежливого, быстрого. Но каждое утро он смотрит на вас как в первый раз. Забывает ваше имя. Предлагает пиццу с ананасами, хотя вы их терпеть не можете. И вам приходится объяснять всё заново.

Это нормально? Это вообще помощник?

Я копалась в интернете и нашла объяснение. Оказывается, вся история разговора каждый раз прогоняется через контекстное окно — такой блокнот фиксированного размера. И когда он заполняется, система просто начинает забывать старое.

Но есть ещё кое-что — так называемый «дрейф». Когда разговор идёт долго, ИИ вроде бы помнит факты, но теряет нить. Отвечает на вопросы, но уже не понимает, к чему вы клоните. Как человек, который слушает, но не слышит.

И самое обидное: даже те системы, которые хвастаются «миллионом токенов контекста», всё равно теряются. Потому что дело не в размере. Дело в том, что информация — не память. Это как иметь огромный шкаф, в котором всё в кучу.

Глава 9: Что будет дальше

Я провела несколько дней, копаясь в этой теме. Читала ночами. Запуталась сама и распутывала. И вот к чему пришла.

Нет единого решения. И не будет. Память для ИИ — это как память для человека. У нас же не один способ помнить? Есть то, что прямо сейчас в голове. Есть то, что вспоминается легко. Есть то, что глубоко в архивах.

Так и здесь. Будут слои. Быстрое — для сейчас. Медленное — для важного. Глубокое — для архива.

Я думаю, RAG никуда не денется. Но он изменится — будет искать не просто похожие куски, а понимать связи. GraphRAG это показывает.

Метод Карпаты — для тех, кто хочет контроля. Кто не хочет отдавать свои мысли в облако. Кто готов потратить время, чтобы построить свой «второй мозг».

MemGPT — для тех, кто хочет разумного. Чтобы маленький контекст работал как большой. Через ум, а не через силу.

А ещё есть древний метод Лоци. 2500 лет. Может, именно он подскажет нам — как организовать знания в пространстве, а не в таблице.

Я читала про чипы TrueNorth от IBM и Loihi от Intel. Нейроны на кремнии. Это как живой мозг, только из кремния. Может, через десять лет мы будем смеяться над нашими попытками запихнуть память в векторные базы.

Но сегодня, вот что я понимаю:

Мы строим «умных» помощников, которые страдают амнезией. И мы считаем это нормальным. Платим за каждое «напоминание» о том, кто мы.

Это не просто техническая проблема. Это вопрос — что значит быть собеседником? Что значит быть помощником, который каждое утро начинает с чистого листа?

Эпилог: Я лежу и не сплю

Три часа ночи. Я сижу перед ноутбуком, открыты десятки вкладок. Weaviate, MemGPT, заметки Карпаты, тред на Reddit. Компьютер гудит. За окном темно.

И я вдруг понимаю — я уже не та, что была в начале этой недели.

Раньше я думала: память — это какая-то техническая фича. Размер контекста, векторная база, штуки для гиков. А теперь я понимаю — это не фича. Это сердце. То, что делает беседу беседой. Помощника — помощником, а не машиной для ответов.

И вот что я не могу выкинуть из головы:

Какого собеседника мы хотим? Такого, который помнит всё? Или такого, который умеет забывать?

Ведь память — это ещё и прощение. Про право на забвение. Некоторые разговоры должны исчезать. Некоторые ошибки — стираться.

Мы строим машины, которые, может, будут помнить нас лучше, чем мы сами. И мне страшновато. Потому что я не уверена, что мы сами знаем — что именно стоит помнить. И что — отпустить.

А если вы дочитали досюда — скажите мне. Какой памяти вы хотели бы от своего ИИ? Бесконечной? Выборочной? Или такой же несовершенной, как у человека — который помнит важное и забывает боль?

[Иллюстрация финальная: Мозг, интегрированный в цифровую сеть — символ слияния биологического и искусственного интеллекта]

Источники и материалы

Karpathy, A. "llm-wiki.md" — GitHub Gist
"MemGPT: Towards LLMs as Operating Systems" — UC Berkeley, 2023
"GraphRAG" — Microsoft Research, 2024
"Vector Database Benchmarks" — Datastores.ai, 2024
Weaviate Documentation — GraphRAG implementation
LangChain Memory Documentation
ByteByteGo — "The Memory Problem: Why LLMs Sometimes Forget"
Reddit r/AI_Agents — Community discussions
arXiv:2509.16780 — "Comparing RAG and GraphRAG"

VeraNews Investigations | 23 апреля 2025