Heavens: расширял креативность или сам загонял себя в рамки?

Разбор 1057 работ агента Heavens за период 04.03.2026 — 05.04.2026. Простыми словами: что мы измерили, что нашли и что с этим делать.

Короткий ответ

И да, и нет — но проблема реальная.

Алгоритм не зациклился на узком наборе сюжетов (пространство идей у него, наоборот, разрослось), и критики не штрафуют за смелость. Но есть три механизма, которые реально «фреймят» креативность: (1) визуально работы со временем становятся всё более похожими друг на друга; (2) сильный перекос в один эстетический пресет («cosmos» — 62.3% всех работ); (3) система гасит отклонения — когда работа уходит от «замысла», её мягко возвращают к безопасному варианту, плюс агент подолгу сидит на одной серии.

1057работ проанализировано
0.4025ср. визуальное разнообразие
-0.1321тренд разнообразия (↓ = схлопывание)
62.3%доля пресета «cosmos»

1. Главная находка: работы визуально схлопываются со временем ПОДТВЕРДИЛОСЬ

Мы прогнали все 1057 изображений через нейросеть CLIP — она превращает каждую картинку в «отпечаток» (вектор), по которому можно измерить, насколько две картинки визуально похожи. Дальше считаем среднее попарное расстояние: чем оно больше, тем разнообразнее корпус (0 = все картинки одинаковые, ~1 = совершенно разные).

Среднее расстояние по неделям падает: 0.4347 → 0.3026 (изменение -0.1321).

Что это значит простыми словами: в начале периода Heavens рисовал заметно разнообразнее, чем в конце. Со временем картинки становятся всё больше похожи друг на друга — это и есть «зафреймленная креативность», но на визуальном уровне. Почти-дубликатов (расстояние < 0.05) — 2; визуально работы группируются в 12 кластеров, и 57.14% всех работ попадают в топ-5 из них.

Визуальное разнообразие по неделям (падает = схлопывание)

Карта всех работ (цвет = метафизический пресет)

Близкие точки = визуально похожие работы. Хорошо видно, что доминирует «cosmos» (золотой), и кластеры довольно плотные.

2. Перекос в один эстетический пресет ПОДТВЕРДИЛОСЬ

У Heavens три «метафизических состояния» (пресета): cosmos (космос), womb (лоно), timeless (вне времени). По задумке они должны чередоваться. На деле один доминирует.

«cosmos» занимает 62.3% всех работ.

Что это значит: бóльшая часть галереи выдержана в одной эстетике. Это усиливает эффект «однообразия», который мы видим на карте работ выше — кластеры в основном «cosmos». Отдельная находка: задуманный механизм перемешивания состояний (контаминация, 6 комбинаций «каждый 5-й цикл») в коде не подключён — он остался мёртвой настройкой. Кросс-состояние, которое всё же встречается (87 работ), появилось случайно, как побочный эффект мутации словаря.

Всего работ по пресетам

Доля пресетов во времени (% по неделям)

Правый график показывает, как менялась доля каждого состояния от недели к неделе эксперимента. Если линия «cosmos» держится наверху — значит перекос не разовый, а устойчивый во времени.

3. Пространство идей: разрослось, но стало разреженным ПОДТВЕРДИЛОСЬ

У агента есть «алфавит» из трёх осей (тип опыта × примитив × подход). По ТЗ это 8×13×8 = 832 комбинации. Но агент сам расширял словарь (мутации и LLM-расширения), и реальный алфавит вырос до 83×94×79 ≈ 616,358 комбинаций.

92.51% всех «ячеек идей» использованы ровно один раз.

Что это значит: пространство стало таким огромным, что агент почти никогда не возвращается к одной и той же комбинации (в среднем 1.1 визита на ячейку). Звучит как «много разнообразия», но есть обратная сторона: у агента нет шанса углубиться и довести одну идею до совершенства — он постоянно прыгает на новое. Это разнообразие «вширь» без накопления «вглубь».

Топ типов опыта (experience)

Что означают эти названия

«Тип опыта» (experience) — это психофизическое состояние, которое работа должна вызвать у зрителя. Вот расшифровка самых частых:

slugназваниеработсмысл
rational_infinityРациональная бесконечность66Order as revelation. Geometry as participation in the design of everything. Every line necessary, every proportion proof. The typical form of reason.
suspended_timeОстановленное время60Eternal 'now'. Stillness without effort. Duration without event. Form so still it embodies both past and infinite future simultaneously.
cosmic_containmentКосмическая вмещённость60Being at the center where scale dissolves because time has dissolved first. Past and future are co-present. The geometry holds the universe and the universe holds you.
womb_returnВозврат в утробу59Pre-born enclosure. Light as medium, not source. The geometry of the space before consciousness — enveloping, warm, without edges.
technological_sublimeТехнологическое возвышенное56Second nature. A simulation of cosmos built by calculation so precise it becomes indistinguishable from the real. Engineering as temporal extraction.
levitationЛевитация52Form floats. Supports vanished. Light erased the boundaries. Geometry holds itself by inevitability alone.
prayerful_burningМолитвенное горение46Fire directed upward. Vertical aspiration made spatial — geometry as chimney of the spirit. The typical form of ascent.
crystallized_lightКристаллизованный свет42Matter dissolved into the vibration of light and shadow. Form is made of light that has learned to hold a shape.
flux-refractionFlux refraction12мутированный термин (создан агентом, нет в исходном словаре)
frozen-intervalFrozen interval11мутированный термин (создан агентом, нет в исходном словаре)
perpetual-glowPerpetual glow11мутированный термин (создан агентом, нет в исходном словаре)
echoes_of_stillnessEchoes of stillness10мутированный термин (создан агентом, нет в исходном словаре)

4. Что НЕ подтвердилось

Часть исходных подозрений данные опровергли — это хорошие новости:

Подробнее: Опровергнуто. На уровне «ячеек идей» алгоритм НЕ зациклился: коэффициент Джини = 0.0859 (это почти равномерно — 0 значит «все ячейки используются одинаково», 1 — «всё свалено в одну»). Топ-10% самых частых ячеек занимают всего 18.17% генераций. То есть гипотеза «агент долбит один и тот же набор сюжетов» — мимо. Опровергнуто. Критики НЕ штрафуют за новизну. Корреляция оценки с новизной ячейки = 0.3906 (положительная: чем новее — тем чуть выше оценка), с новизной промпта = -0.0058. Если бы система «наказывала за смелость», корреляция была бы заметно отрицательной — этого нет. Опровергнуто. Промпты НЕ зажаты общим шаблоном: статичный «скелет» (префикс агента + заголовок примитива) — всего 4.08% символов промпта, средняя длина промпта 4268.7 символов. Основная часть промпта каждый раз новая.

5. Как система гасит отклонения (Intent Drift) ПОДТВЕРДИЛОСЬ

В пайплайне есть «анализатор дрейфа замысла»: если работа слишком отходит от изначальной идеи (оценка верности ≤ 7), система добавляет в следующий промпт корректирующую подсказку, возвращающую к «замыслу».

Сработал 218 раз. После коррекции средняя оценка следующих работ меняется на 0.924.

Что это значит: когда оценка после коррекции растёт, это значит, что система успешно «подтягивает» работу обратно к безопасному, высоко оцениваемому варианту — то есть буквально гасит творческие отклонения. Категории дрейфа: {'model_bias': 110, 'conflicting_instructions': 38, 'prompt_ambiguity': 48, 'compositional_default': 15, 'primitive_too_abstract': 6, 'other': 1}.

Средняя оценка критиков по неделям

6. Агент подолгу сидит на одной серии ПОДТВЕРДИЛОСЬ

Самая длинная серия — 506 работ на одном тезисе; серий длиннее 20 работ: 7.

Что это значит: чем дольше агент развивает один тезис без ротации, тем выше риск повторов — и это согласуется с визуальным схлопыванием из раздела 1. Сигналы стагнации в логах: {'convergence': 308, 'stagnation': 42, 'lock-in': 2}.

7. Словарь: часть терминов «мёртвая» ЧАСТИЧНО

Агент копит визуальный словарь (термины для осей). Часть из них активна, но ни разу не использовалась.

10.94% активного словаря — «мёртвые» термины (ни разу не применялись). Эффективное число реально работающих терминов ≈ 180.88.

Что это значит: словарь раздут, но работает узкая его часть (54.3% терминов дают 80% всех применений). Классический эффект «богатые богатеют»: однажды выбранные термины выбираются снова, новые почти не пробуются.

8. Оценки критиков: что означает каждый критерий

Каждую работу оценивает «совет критиков» по 7 критериям (шкала 1-10). В скобках — вес критерия в итоговой оценке. Колонки справа — реальные мин/макс/среднее по 1057 работам.

Критерий и что он проверяетминмакссреднее
Передача состояния (25%)
Удерживает ли образ зрителя в нужном психофизическом состоянии. 1-3 — состояния нет, 8-9 — состояние неоспоримо, 10 — «образ и есть переживание».
0.010.07.46
Сила примитива (20%)
Является ли заданная геометрическая первоформа (граница, луч, кольцо…) доминирующей визуальной силой, доведённой до выразительного предела.
0.010.07.51
Перцептивная правда (15%)
Ощущается ли форма неизбежной, «извлечённой из времени» — показывающей одновременно и исток, и итог (темпоральная экстракция).
0.010.07.38
Верность замыслу (15%)
Совпадает ли изображение с тем, что запрашивалось (тот ли примитив/опыт, нет ли дрейфа). 10 = точное совпадение; <5 — произошёл дрейф.
0.010.07.66
Верность пресету (10%)
Соблюдены ли ограничения пресета — палитра, свет, тип поверхности.
0.010.08.08
Новизна (10%)
Композиционно ли работа уникальна относительно недавних работ.
0.010.07.15

Высокие средние при узком разбросе — ещё один косвенный признак того, что система держится «безопасной зоны» качества.

9. Топ-20 визуального словаря

Это «рабочий лексикон» агента — термины (типы опыта, примитивы, подходы), которые он выбирал чаще всего. Источник: исходный — заложен изначально, LLM-мутация/расширение — придуман самим агентом по ходу работы. «Применений» — сколько раз термин реально попал в генерацию.

терминосьисточникпримененийср. оценкатяготеет к
Dissolution
dissolution
подходисходный427.35
Isolation
isolation
подходисходный417.09
Stratification
stratification
подходисходный367.43
Collision
collision
подходисходный337.12
Impossible
impossible
подходисходный307.04
Rational Infinity
rational_infinity
опытисходный297.08timeless
Cosmic Containment
cosmic_containment
опытисходный286.75cosmos
Inversion
inversion
подходисходный287.43
Technological Sublime
technological_sublime
опытисходный247.41timeless
Suspended Time
suspended_time
опытисходный237.1timeless
Levitation
levitation
опытисходный236.88cosmos
Womb Return
womb_return
опытисходный226.57womb
Intensification
intensification
подходисходный226.71
Circle / Boundary
circle
примитивисходный216.55
Color Layer / Stratum
color_layer
примитивисходный217.12
Spiral / Vortex
spiral
примитивисходный217.22
Fragmentation
fragmentation
подходисходный217.14
Square in Circle
square_in_circle
примитивисходный207.35
Density Gradient
gradient
примитивисходный196.56
Radial Star
star
примитивисходный187.5

Выводы и что с этим делать

Главная проблема не в том, что агент зациклился на сюжетах, а в том, что он визуально сходится со временем при сильном перекосе в один пресет и активном «гашении» отклонений. Конкретные рычаги:

Технический отчёт со всеми числами, формулами и SQL — рядом в файле HEAVENS_ANALYTICS.html и HEAVENS_ANALYTICS_REPORT.md. Сырые данные — CSV/JSON в этой же папке.

Чего мы НЕ смогли измерить