
На arxiv предложили метод оценки параметров закрытых моделей через факт-бенчмарк: 1400 вопросов разной редкости, калибровка на 89 открытых моделях, R²=0.917, не идеальная точность, но неплохая. Логика простая: фактические знания LLM ограничены энтропией Шеннона. Объём памяти конкретных фактов у модели близок к её числу параметров.
Проекция, нижняя граница:
— GPT-5.5 ≈ 9.7T
— Claude Opus 4.6 ≈ 5.3T
— Claude Sonnet 4.6 ≈ 1.7T
— Gemini 2.5 Pro ≈ 1.2T
Год индустрия продавала идею, что параметры больше не главное. Дистилляция и цепочки рассуждений хорошо переносят способность рассуждать в меньшую модель — это правда. Бенчмарки проходятся неплохо. Но эрудиция так не сжимается: Sonnet 4.6 в фактах примерно втрое слабее Opus и вшестеро слабее OpenAI-флагмана.
DeepSeek V4 на 1.6T параметров для широкого круга задач — это открытый аналог Sonnet 4.6, как ни крути. Не Opus.