Бенчмарки и позиционирование
Позиционирование по возможностям
Качественная оценка 0–1 (1 = нативно/полно). Показывает разницу категорий, а не «кто лучше».
Стандартные agent-бенчмарки
Внешние ориентиры 2026 (SOTA / Hermes) — НЕ наш замер. Контекст, не сравнение в лоб.
reasoning-lite — наш локальный замер
Единственное прямо сопоставимое число: фикс-набор вопросов через локальную модель.
Ещё не запускали.
Нативный сьют N1–N10 — живой snapshot
Процессные метрики прямо из /status. «observe» = нужно окно времени/трейс, не одноразовый снимок.
Загрузка…
Матрица возможностей
Качественно, по описанию систем.
Загрузка…