Можно оценивать размер закрытых моделей через факты

На arxiv предложили метод оценки параметров закрытых моделей через факт-бенчмарк: 1400 вопросов разной редкости, калибровка на 89 открытых моделях, R²=0.917, не идеальная точность, но неплохая. Логика простая: фактические знания LLM ограничены энтропией Шеннона. Объём памяти конкретных фактов у модели близок к её числу параметров.

Проекция, нижняя граница:
— GPT-5.5 ≈ 9.7T
— Claude Opus 4.6 ≈ 5.3T
— Claude Sonnet 4.6 ≈ 1.7T
— Gemini 2.5 Pro ≈ 1.2T

Год индустрия продавала идею, что параметры больше не главное. Дистилляция и цепочки рассуждений хорошо переносят способность рассуждать в меньшую модель — это правда. Бенчмарки проходятся неплохо. Но эрудиция так не сжимается: Sonnet 4.6 в фактах примерно втрое слабее Opus и вшестеро слабее OpenAI-флагмана.

DeepSeek V4 на 1.6T параметров для широкого круга задач — это открытый аналог Sonnet 4.6, как ни крути. Не Opus.

arxiv.org/pdf/2604.24827

#deepseek #инструменты

Обсудим ИИ-трансформацию вашей компании.

Отвечаю в Telegram. Быстро поймём, где ИИ может дать эффект, какой формат подойдёт руководителю или команде и с чего начать без лишней сложности.