Главная / Блог

Блог

Можно оценивать размер закрытых моделей через факты

Как факт-бенчмарк даёт нижнюю оценку параметров закрытых LLM и почему эрудиция хуже сжимается дистилляцией.

Можно оценивать размер закрытых моделей через факты

На arxiv предложили метод оценки параметров закрытых моделей через факт-бенчмарк: 1400 вопросов разной редкости, калибровка на 89 открытых моделях, R²=0.917, не идеальная точность, но неплохая. Логика простая: фактические знания LLM ограничены энтропией Шеннона. Объём памяти конкретных фактов у модели близок к её числу параметров.

Проекция, нижняя граница:
— GPT-5.5 ≈ 9.7T
— Claude Opus 4.6 ≈ 5.3T
— Claude Sonnet 4.6 ≈ 1.7T
— Gemini 2.5 Pro ≈ 1.2T

Год индустрия продавала идею, что параметры больше не главное. Дистилляция и цепочки рассуждений хорошо переносят способность рассуждать в меньшую модель — это правда. Бенчмарки проходятся неплохо. Но эрудиция так не сжимается: Sonnet 4.6 в фактах примерно втрое слабее Opus и вшестеро слабее OpenAI-флагмана.

DeepSeek V4 на 1.6T параметров для широкого круга задач — это открытый аналог Sonnet 4.6, как ни крути. Не Opus.

arxiv.org/pdf/2604.24827

#deepseek #инструменты

Этот пост впервые вышел в Telegram-канале @zvasilchannel 05 мая 2026. На сайте — для архива и поиска.
Открыть в Telegram →

КОНТАКТЫ

Обсудим ИИ-трансформацию вашей компании.

Отвечаю в Telegram. Быстро поймём, где ИИ может дать эффект, какой формат подойдёт руководителю или команде и с чего начать без лишней сложности.

Менторская консультация

60 000 ₽

  • Диагностика процессов и задач под ИИ
  • Выбор первых внедрений с понятным эффектом
  • Подбор инструментов: Искработ, модели, сервисы и автоматизации
  • План действий на 30 / 60 / 90 дней
Записаться