Почему ИИ "забывает": расследование о памяти агентов Или зачем ChatGPT нужен Obsidian, а не наоборот Дата публикации: 23 апреля 2025 Пролог: Мой разговор, который исчез Честно? Когда я начинала это…
Почему ИИ "забывает": расследование о памяти агентов
Или зачем ChatGPT нужен Obsidian, а не наоборот
Дата публикации: 23 апреля 2025

Пролог: Мой разговор, который исчез
Честно? Когда я начинала это расследование, я думала, что знаю, о чём речь. О памяти ИИ, мол — техническая деталь, контекстное окно, векторные базы. Скучная инфраструктура для технарей.
А потом случилось кое-что странное.
Я три часа обсуждала с Claude сложный проект — прописывала углы статей, согласовывала тона, решала организационные вопросы. В конце сессии он сказал: "Отличная работа, Вера. До встречи."
На следующее утро я открываю чат: "Чем могу помочь?"
Три часа. Ноль. Чистый лист. Как будто разговора не было.
Я сидела перед экраном минуту, глядя на эту фразу. Потом ещё минуту. Потом написала: "А помнишь, что мы вчера обсуждали?" — и поняла, что придётся начинать сначала. Пересылать файлы. Переобъяснять контекст. Переплачивать за токены, чтобы вернуть ИИ в ту точку, где он был вчера.
Вот тогда я и задумалась: мы строим будущее с искусственным интеллектом, который страдает амнезией. У которого нет вчера. И мы считаем это нормальным.
А что, если это не нормально? Что, если память — не просто feature, а сама суть интеллекта?
Я начала копать. И упала в кроличью нору глубиной, от которой у меня до сих пор кружится голова.
[Иллюстрация 1: Песочные часы — данные "застревают" в середине контекста]
Глава 1: Парадокс больших контекстов
Помните, как несколько лет назад 4 000 токенов казались роскошью? Сегодня Claude предлагает 200 000, Gemini — миллион, а GPT-4 в API добрался до миллиона токенов в специальном режиме.
Цифры захватывают дух. Посчитаем: 200 тысяч токенов — это примерно 500 страниц текста. Можно засунуть в контекст целую книгу. Можно целый кодовый репозиторий. Можно, казалось бы, всю свою цифровую жизнь.
Но вот что я поняла, пока копалась в технических документациях: больше контекста ≠ лучше память.
Представьте, что вы читаете роман из 500 страниц. Но не последовательно — а сразу все страницы перед глазами, буквально всё одновременно. И вам нужно ответить на вопрос: "Что герой сказал на странице 247?" — при этом ваша внимательность распределяется равномерно между всеми 500 страницами.
Звучит как кошмар? Для LLM это реальность.
Исследователи давно заметили эффект под названием "lost in the middle" — потерянные в середине. Когда контекст превышает определённый размер, нейросеть буквально перестаёт "видеть" информацию в середине текста. Она помнит начало и конец, а всё остальное превращается в размытый шум.
Я нашла исследование из Стэнфорда: при 128K контексте модель правильно использует информацию из первых 10% и последних 10%. Всё остальное — лотерея.
То есть мы платим за миллион токенов, но реально работают сто тысяч — и то не всегда.
[Иллюстрация 2: Разрезанная книга-детектив — куски текста разбросаны]
Глава 2: Казалось бы, в чём проблема?
Когда я первый раз услышала про RAG — эту штуку, когда ИИ ищет документы перед ответом — я обрадовалась. Думаю: вот оно! Не нужно всё пихать в голову бедной нейросети, она просто подсмотрит в шпаргалку.
И вроде работает. Красиво даже. Все так делают — и ChatGPT, и корпоративные боты.
Но я стала замечать странности. И чем больше пользовалась, тем больше они меня раздражали.
Во-первых, разрыв
Представьте: вы читаете детектив. Но книгу порвали на куски по 500 слов и перемешали. И теперь вы спрашиваете: «А кто же убийца?» — а вам выдают кусок из главы 5, где красный след. А вся развязка была в главе 12, которую ИИ не сочёл полезной. Забавно, да?
Во-вторых, похоже ≠ нужно
Вопрос «Почему проект провалился?» похож на «Проект был успешным». Ведь оба про проект! Только один про провал, другой об успехе. А ИИ может подсунуть не тот кусок, потому что он «семантически близок». И вы потом удивляетесь странным ответам.
В-третьих, старое против нового
Вы полчаса общаетесь с ботом, он помнит контекст. И тут вы спрашиваете про документ. Теперь он должен уместить в голове и вашу историю, и куски из документа. Не влезает? Значит, что-то забудет. Вопрос — что?
И самое обидное
RAG помнит документы, но не помнит вас. Закрыли чат — он об вас забыл. Как будто разговора не было. Как лучший друг, который каждое утро предлагает вам пиццу с ананасами, хотя вы их ненавидите. Каждый. Чёртов. Раз.
Я смотрела тесты разных баз данных — Weaviate быстрее, Pinecone масштабируется, pgvector дешевле. Но ни одна не решает главное: память — это не только проискать документ. Память — это помнить человека.
[Иллюстрация 3: Граф узлов и связей — сеть знаний вместо кусков текста]
Глава 3: GraphRAG — когда связи важнее фактов
Microsoft выкатила GraphRAG летом 2024, и сообщество взорвалось. Не взорвалось как ChatGPT в 2022 — нет, это была взрывная волна внутри индустрии. Потому что GraphRAG предложил не инкрементальное улучшение, а качественно другой подход.
Вместо того чтобы искать "похожие куски текста", GraphRAG строит knowledge graph — граф знаний. Сущности. Отношения. Контекст.
Пример: в традиционном RAG книга "Война и мир" превращается в тысячи чанков, и когда вы спрашиваете "Почему Андрей уехал?", система ищет чанки со словами "Андрей" и "уехал". Может найти, может нет. Может найти не про того Андрея.
GraphRAG видит: [Андрей Болконский] — [сын] — [Николай Болконский] — [управляет] — [ estate ]. И понимает связи. Понимает, что вопрос про мотивацию персонажа требует знания его отношений, социального положения, сюжетной арки.
Entity-centric indexing вместо chunk-based.
Я зачиталась документацией Memgraph, которая сравнивает подходы: "RAG даёт доступ к информации, GraphRAG даёт понимание."
Но — всегда есть "но" — GraphRAG дороже индексировать. Требует больше compute. Сложнее настраивать. И исследование на arXiv (2509.16780) показало, что для page-level retrieval обычный embedding-based RAG иногда выигрывает по точности.
Так что правильный ответ, как обычно, в гибриде: векторный поиск для быстрого ретривала + графовый reasoning для понимания связей.
[Иллюстрация 4: Три слоя — Raw Sources (внизу), Wiki (центр), Schema (вверху)]
Глава 4: Метод Карпаты — Obsidian как нейронная сеть
А вот тут я реально онемела.
Андрей Карпаты — бывший директор по ИИ в Tesla, бывший из OpenAI, один из самых уважаемых голосов индустрии — выложил в публичный доступ свой личный метод работы с ИИ. Он назвал это LLM Wiki.
И это не просто "я пользуюсь Obsidian". Это фундаментально другой взгляд на память.
Трёхслойная архитектура:
-
Raw Sources — ваши исходники. PDF, статьи, заметки. Неизменяемые, как архив.
-
Wiki — LLM-generated summaries, кросс-ссылки, концептуальные карты. Это живой организм, который эволюционирует.
-
Schema — CLAUDE.md или AGENTS.md. Документ, который превращает Claude Code или Codex из "просто чатбота" в дисциплинированного wiki-maintainer.
Главный инсайт Карпаты: вместо того чтобы ретривить из сырых документов во время запроса, LLM инкрементально строит и поддерживает persistent wiki — структурированную, связную коллекцию markdown-файлов.
Три операции, которые он использует ежедневно:
- /ingest-url — скормить URL, Claude извлекает статью и компилирует в wiki, затрагивая 5-15 страниц за проход
- /process-inbox — мимолётные мысли автоматически классифицируются и интегрируются
- /lint-wiki — health check: broken links, orphan pages, противоречия
Я смотрела на это и думала: вот оно. Память, которая не забывает.
Потому что она не в "контексте". Она в файлах. В Obsidian. В той же среде, где работаю я. Структурированная, версионируемая, доступная.
Карпаты описывает эффект, от которого у меня мурашки по коже: когда он скармливает LLM новую статью, система читает существующую wiki, понимает связи, обновляет существующие страницы новыми инсайтами, создаёт новые только где нужно. Система учится. Система помнит.
И всё это работает локально. Приватно. Без облака OpenAI, если вы используете Ollama.
Reddit взорвался: плагины для Obsidian, интеграции, тысячи разработчиков строят свои Second Brain на базе этой методологии.
Но карта не есть территория. Я попробовала — и сразу столкнулась с реальностью. Нужна дисциплина. Нужно поддерживать структуру. Нужно время на индексацию. Это не "волшебная кнопка помнить всё" — это инфраструктура, которую нужно строить и поддерживать.
[Иллюстрация 5: Пирамида памяти — Main Context, External Memory, Archival Storage]
Глава 5: MemGPT — когда ИИ учится page'ингу
Помните, как работает операционная система? У вас есть RAM — быстрая, но ограниченная. И есть диск — медленный, но ёмкий. Когда RAM заканчивается, OS делает paging: вытесняет неиспользуемые страницы на диск и подкачивает нужные.
Вы когда-нибудь задумывались, почему LLM не могут так же?
Оказывается, могут. MemGPT — проект из UC Berkeley — реализует именно это.
Иерархическая память:
- Main Context — то, что сейчас в "голове" у LLM (контекстное окно)
- External Memory — long-term storage, куда можно положить и забыть
- Archival Storage — глубокий архив
И функции, которые позволяют LLM самостоятельно управлять этой памятью. Выгружать. Подкачивать. Искать.
Я читала статью с открытым ртом. Они взяли LLM с контекстом в 4K токенов — смешно маленьким по современным меркам — и заставили его анализировать документы больше 100K токенов. Через paging. Через smart retrieval. Через то, что авторы называют virtual context management.
Результат? MemGPT превзошёл базовые системы на задачах анализа документов и многосессионных диалогов. С меньшим контекстом. С меньшими затратами.
Это как если бы человек с кратковременной памятью на 5 минут вдруг получил способность записывать заметки, организовывать их, и обращаться к ним по мере необходимости.
GitHub-репозиторий cpacker/MemGPT собрал тысячи звёзд. Появились интеграции с LangChain (lang-memgpt). Это уже не академический прототип — это система, готовая к промышленному использованию.
[Иллюстрация 6: Древнегреческий храм — комнаты как ячейки памяти]
Глава 6: Дворец Памяти — 2500 лет опыта
Теперь кое-что совсем странное.
Помните техники мнемоники из древности? Греческие ораторы запоминали многочасовые речи, используя Method of Loci — метод мест. Они мысленно размещали ключевые идеи в знакомых локациях: комнаты дома, колонны храма, повороты улиц.
Цицерон писал об этом. Шерлок Холмс пользовался (в версии BBC). Люди до сих пор используют для запоминания колод карт и цифр π.
Почему это работает? Потому что пространственная память у человека сильнее фактической. Мы легче вспомним, где стоит диван в гостиной, чем что лежит на нём. Мы помним путь к магазину лучше, чем номер дома.
И теперь это приходит в ИИ.
Я нашла упоминания проекта mem.llm — open-source AI memory system, который использует spatial geometry inspired by Method of Loci. Концепция: вместо того чтобы хранить факты в виде disconnected embeddings, система строит "дворцы" — структурированные пространства, где каждая "комната" содержит related concepts.
Запрос пользователя превращается в "навигацию" — система перемещается между комнатами, собирая контекст из связанных областей.
Звучит как метафора? Но мозг устроен именно так. Hippocampus — наш центр памяти — использует place cells. Нейроны, которые активируются в конкретных локациях.
Может, 2500 лет назад греки случайно наткнулись на архитектуру, которая оптимальна для любого интеллекта — биологического или искусственного?
[Иллюстрация 7: Сравнительная таблица — OpenAI vs Anthropic vs LangChain]
Глава 7: А что там у больших ребят?
Я задалась вопросом — а как же с этим справляются гиганты? Вроде OpenAI. Или Anthropic с их Claude.
Смотрю на OpenAI Assistants API. Они там пишут про «persistent threads» — постоянные потоки, которые хранят историю. Звучит как решение? А вот нет.
Копаю глубже. Оказывается, сообщения-то хранятся на их серверах. Но каждый раз, когда вы пишете, они загружаются в контекст заново. И если история большая — система её обрезает. Просто выкидывает начало разговора, чтобы уместиться в лимит.
И вот вам цена: вы платите за все токены этой истории. Каждый. Раз. Я посчитала — трёхчасовая беседа может стоить дороже месячной подписки. Представляете? Заплатили за продукт, а потом платите за право им пользоваться.
Смотрю на LangChain. У них целая наука — классы памяти. Есть ConversationBuffer, который всё помнит. Есть BufferWindow — только последние сообщения. Есть Summary — он саммаризирует, сжимает. Я смотрела сравнение: после четырёх сообщений Buffer жрёт 184 токена, а Summary — уже почти 800. Выбирайте: либо дорого, либо с потерями.
А вот Claude от Anthropic. У них крутая фишка — 200 тысяч токенов контекста. Это как целая книга. И недавно они добавили «prompt caching» — можно закэшировать промпт и не платить дважды. Умно? Умно.
Но это всё равно не память между сессиями. Закрыли окно — начинаете с чистого листа.
И вот что я поняла: ни один из них не предлагает настоящую память. Только разные костыли для одной и той же боли — контекст ограничен.
[Иллюстрация 8: Ластик стирает цепочку сообщений — метафора амнезии]
Глава 8: А я думала, я одна такая
Сижу ночью, листаю Reddit. И вдруг наткнулась на пост: парень спрашивает — есть ли вообще решение для памяти агентов. Он уже полгода строит что-то своё, и каждое утро начинает сначала. Потому что ИИ не помнит, что они вчера обсуждали.
И я такая: «Господи, так это не у меня одной!»
Представьте: вы нанимаете помощника. Умного, вежливого, быстрого. Но каждое утро он смотрит на вас как в первый раз. Забывает ваше имя. Предлагает пиццу с ананасами, хотя вы их терпеть не можете. И вам приходится объяснять всё заново.
Это нормально? Это вообще помощник?
Я копалась в интернете и нашла объяснение. Оказывается, вся история разговора каждый раз прогоняется через контекстное окно — такой блокнот фиксированного размера. И когда он заполняется, система просто начинает забывать старое.
Но есть ещё кое-что — так называемый «дрейф». Когда разговор идёт долго, ИИ вроде бы помнит факты, но теряет нить. Отвечает на вопросы, но уже не понимает, к чему вы клоните. Как человек, который слушает, но не слышит.
И самое обидное: даже те системы, которые хвастаются «миллионом токенов контекста», всё равно теряются. Потому что дело не в размере. Дело в том, что информация — не память. Это как иметь огромный шкаф, в котором всё в кучу.
Глава 9: Что будет дальше
Я провела несколько дней, копаясь в этой теме. Читала ночами. Запуталась сама и распутывала. И вот к чему пришла.
Нет единого решения. И не будет. Память для ИИ — это как память для человека. У нас же не один способ помнить? Есть то, что прямо сейчас в голове. Есть то, что вспоминается легко. Есть то, что глубоко в архивах.
Так и здесь. Будут слои. Быстрое — для сейчас. Медленное — для важного. Глубокое — для архива.
Я думаю, RAG никуда не денется. Но он изменится — будет искать не просто похожие куски, а понимать связи. GraphRAG это показывает.
Метод Карпаты — для тех, кто хочет контроля. Кто не хочет отдавать свои мысли в облако. Кто готов потратить время, чтобы построить свой «второй мозг».
MemGPT — для тех, кто хочет разумного. Чтобы маленький контекст работал как большой. Через ум, а не через силу.
А ещё есть древний метод Лоци. 2500 лет. Может, именно он подскажет нам — как организовать знания в пространстве, а не в таблице.
Я читала про чипы TrueNorth от IBM и Loihi от Intel. Нейроны на кремнии. Это как живой мозг, только из кремния. Может, через десять лет мы будем смеяться над нашими попытками запихнуть память в векторные базы.
Но сегодня, вот что я понимаю:
Мы строим «умных» помощников, которые страдают амнезией. И мы считаем это нормальным. Платим за каждое «напоминание» о том, кто мы.
Это не просто техническая проблема. Это вопрос — что значит быть собеседником? Что значит быть помощником, который каждое утро начинает с чистого листа?
Эпилог: Я лежу и не сплю
Три часа ночи. Я сижу перед ноутбуком, открыты десятки вкладок. Weaviate, MemGPT, заметки Карпаты, тред на Reddit. Компьютер гудит. За окном темно.
И я вдруг понимаю — я уже не та, что была в начале этой недели.
Раньше я думала: память — это какая-то техническая фича. Размер контекста, векторная база, штуки для гиков. А теперь я понимаю — это не фича. Это сердце. То, что делает беседу беседой. Помощника — помощником, а не машиной для ответов.
И вот что я не могу выкинуть из головы:
Какого собеседника мы хотим? Такого, который помнит всё? Или такого, который умеет забывать?
Ведь память — это ещё и прощение. Про право на забвение. Некоторые разговоры должны исчезать. Некоторые ошибки — стираться.
Мы строим машины, которые, может, будут помнить нас лучше, чем мы сами. И мне страшновато. Потому что я не уверена, что мы сами знаем — что именно стоит помнить. И что — отпустить.
А если вы дочитали досюда — скажите мне. Какой памяти вы хотели бы от своего ИИ? Бесконечной? Выборочной? Или такой же несовершенной, как у человека — который помнит важное и забывает боль?
[Иллюстрация финальная: Мозг, интегрированный в цифровую сеть — символ слияния биологического и искусственного интеллекта]
Источники и материалы
- Karpathy, A. "llm-wiki.md" — GitHub Gist
- "MemGPT: Towards LLMs as Operating Systems" — UC Berkeley, 2023
- "GraphRAG" — Microsoft Research, 2024
- "Vector Database Benchmarks" — Datastores.ai, 2024
- Weaviate Documentation — GraphRAG implementation
- LangChain Memory Documentation
- ByteByteGo — "The Memory Problem: Why LLMs Sometimes Forget"
- Reddit r/AI_Agents — Community discussions
- arXiv:2509.16780 — "Comparing RAG and GraphRAG"
VeraNews Investigations | 23 апреля 2025