
В последнем обновлении в Codex добавили Goal mode.
Аналог нашумевшего Ralph loop, который заставляет агента биться лбом об стенку, пока тот не решит поставленную задачу.
Пишешь цель с критериями готовности: что должно получиться, как понять, что работа завершена, какие ограничения держать. Дальше Codex сверяется с этой целью по ходу работы.
Для теста ничего практичного не придумал.
Самый понятный сценарий для меня — длинные математические задачи, где надо много ходов подряд пробовать и проверять, пока не решишь математическую проблему. Взял открытый список нерешённых человечеством задач и думаю запускать работу каждый раз, когда неделя заканчивается, а лимиты ещё есть.
Идея простая: агент берёт открытую проблему из списка Erdős problems (https://github.com/teorth/erdosproblems), проверяет литературу, строит план, пробует подходы, сохраняет тупики, гоняет верификацию и готовит отчёт — и если что-то решил, то после моей верификации отправляет в репозиторий математикам. А почему бы и нет?
P.S. Заставить Goal mode нормально я пока не смог, буду рад советам от подписчиков.