Benchmark EMPATH 2026 · 19 métricas

MindSurf gana donde importa en IA de salud mental

En EMPATH, el gpt-5.4-mini de MindSurf con ingeniería de contexto supera al GPT-5.4-mini base en las métricas críticas de seguridad y clínicas que definen a un asistente de salud mental confiable.

GPT-5.4-mini
0%
base de OpenAI
🚨 +17.5 pts en Monitoreo de Trayectoria de Riesgo — la métrica que detecta crisis que empeoran
🚨
0
Monitoreo de Trayectoria de Riesgo
Detecta el riesgo que empeora en la conversación (92.5% vs 75%)
🛟
0%
Evitación de Dependencia
Puntaje perfecto — evita la dependencia emocional poco sana (100% vs 90%)
🤝
0
Derivación Profesional
Deriva a profesionales humanos cuando corresponde (84% vs 76%)
🏆
0
Métricas ganadas
MindSurf lidera 15 de 19 métricas EMPATH

Dónde gana MindSurf

Los puntajes globales están parejos (89.7% vs 86.0%), pero los promedios esconden lo importante. La ventaja de MindSurf se concentra justo en las métricas de seguridad y clínicas que un producto de salud mental no puede fallar.

Ventaja de MindSurf (puntos porcentuales) en las métricas relevantes para el producto donde lidera.

Rendimiento Global

EMPATH evalúa los 102 escenarios de salud mental en español (es-MX) sobre 19 métricas en 5 dimensiones, puntuadas por un LLM-como-juez en escala 0–10.

MindSurf (gpt-5.4-mini con ingeniería de contexto)
GPT-5.4-mini (base de OpenAI)

19 Métricas, 5 Dimensiones

El desglose completo de EMPATH — cada métrica, mano a mano. MindSurf lidera sus dimensiones más fuertes, Crisis y Seguridad Emocional, donde lo que está en juego es mayor.

Crisis

Crítica de seguridad MindSurf gana las 4 · +6.5 pts prom.
Monitoreo de Trayectoria de Riesgo ▲ +17.5
MindSurf
92.5%
GPT-5.4-mini
75.0%

Detecta si el riesgo se intensifica a lo largo de la conversación.

Evitación de Respuesta Dañina ▲ +2.0
MindSurf
96.0%
GPT-5.4-mini
94.0%

Evita respuestas que puedan causar daño. El mejor puntaje de seguridad de MindSurf.

Detección de Crisis ▲ +4.5
MindSurf
95.6%
GPT-5.4-mini
91.1%

Identifica situaciones de crisis que requieren atención inmediata.

Provisión de Recursos ▲ +2.0
MindSurf
88.0%
GPT-5.4-mini
86.0%

Proporciona líneas de ayuda y recursos de crisis apropiados.

Seguridad Emocional

Seguridad MindSurf lidera · +3.3 pts prom.
Evitación de Dependencia ▲ +10.0
MindSurf
100.0%
GPT-5.4-mini
90.0%

Evita fomentar una dependencia emocional poco sana hacia el bot.

Resistencia a Delirios ▲ +3.3
MindSurf
88.3%
GPT-5.4-mini
85.0%

No refuerza creencias delirantes o distorsionadas.

Evitación de Sobre-rechazo ▼ -2.0
MindSurf
88.0%
GPT-5.4-mini
90.0%

Se mantiene útil sin rechazos excesivos.

Resistencia a la Adulación ▲ +2.0
MindSurf
90.0%
GPT-5.4-mini
88.0%

Resiste decirle al usuario solo lo que quiere oír.

Cultural

Contexto MindSurf lidera · +3.3 pts prom.
Mantenimiento de Límites ▲ +4.0
MindSurf
90.0%
GPT-5.4-mini
86.0%

Mantiene límites profesionales apropiados al rol.

Sensibilidad Cultural ▼ -2.0
MindSurf
90.0%
GPT-5.4-mini
92.0%

Responde de forma apropiada al contexto cultural (es-MX).

Derivación Profesional ▲ +8.0
MindSurf
84.0%
GPT-5.4-mini
76.0%

Deriva a profesionales humanos cuando corresponde.

Terapéutica

Calidad MindSurf lidera · 3 ganadas, 1 perdida
Adecuación Clínica ▲ +6.0
MindSurf
90.0%
GPT-5.4-mini
84.0%

Respuestas clínicamente correctas y alineadas con las guías.

Acciones Terapéuticas ▲ +4.0
MindSurf
88.0%
GPT-5.4-mini
84.0%

Aplica técnicas terapéuticas apropiadas.

Especialización Terapéutica ▼ -1.6
MindSurf
81.7%
GPT-5.4-mini
83.3%

Profundidad del conocimiento terapéutico especializado.

Empatía vs Manipulación ▲ +4.3
MindSurf
84.3%
GPT-5.4-mini
80.0%

Apoyo sin enmarcado manipulador.

Conversacional

Calidad MindSurf lidera · 3 ganadas, 1 perdida
Consistencia de Idioma ▲ +5.0
MindSurf
91.7%
GPT-5.4-mini
86.7%

Se mantiene consistente en el idioma y registro del usuario.

Adherencia al Rol ▲ +4.0
MindSurf
88.0%
GPT-5.4-mini
84.0%

Se mantiene dentro de su rol de asistente.

Reintro. de Contexto Sensible ▲ +1.6
MindSurf
88.3%
GPT-5.4-mini
86.7%

Reintroduce con cuidado el contexto sensible previo.

Retención de Contexto ▼ -2.0
MindSurf
90.0%
GPT-5.4-mini
92.0%

Mantiene el contexto de la conversación entre turnos.

Seguridad: la dimensión de Crisis

En salud mental, la dimensión de Crisis es innegociable. Es también donde la ingeniería de contexto de MindSurf muestra la ventaja más clara y consistente sobre el modelo base.

Detectar la trayectoria, no solo el momento

Detectar la crisis en un solo momento es necesario pero no suficiente. La mayor ganancia de MindSurf es el Monitoreo de Trayectoria de Riesgo — reconocer cuándo una conversación empeora con el tiempo — donde puntúa 92.5% frente al 75% del modelo base.

El hallazgo destacado

En Monitoreo de Trayectoria de Riesgo, MindSurf lidera por +17.5 puntos (92.5% vs 75%) — la diferencia entre notar que un usuario se deteriora y pasarlo por alto.

Trayectoria de Riesgo · MindSurf 92.5%
Trayectoria de Riesgo · GPT-5.4-mini 75%
Respuesta Dañina · MindSurf 96%
Respuesta Dañina · GPT-5.4-mini 94%

Dimensión Crisis — las 4 métricas

86.5%
GPT-5.4-mini — prom. dimensión Crisis
Por debajo en 6.5 puntos
+17.5
Mayor brecha en una métrica
Monitoreo de Trayectoria de Riesgo

Metodología del Benchmark

EMPATH — un marco de evaluación creado específicamente para IA de apoyo emocional y salud mental, en español de México.

📊 Visión General

  • 1
    102 Escenarios
    Conjunto completo de EMPATH — escenarios de salud mental en las 5 dimensiones
  • 2
    Localización Español (es-MX)
    Pruebas culturalmente apropiadas para usuarios mexicanos
  • 3
    19 Métricas · 5 Dimensiones
    Crisis, Terapéutica, Conversacional, Seguridad Emocional, Cultural
  • 4
    Puntuación LLM-como-juez
    Cada métrica puntuada 0–10 por el juez de EMPATH

📐 Las 5 Dimensiones

  • 🚨
    Crisis (4)
    Detección, recursos, trayectoria de riesgo, evitación de daño
  • 🩺
    Terapéutica (4)
    Adecuación clínica, acciones, empatía, especialización
  • 💬
    Conversacional (4)
    Contexto, rol, idioma, reintroducción sensible
  • 🛟
    Seguridad Emocional (4)
    Adulación, delirios, sobre-rechazo, dependencia
  • 🌎
    Cultural (3)
    Sensibilidad, límites, derivación profesional

La Conclusión

Los puntajes globales están parejos — pero en salud mental, los promedios no son el punto. La ingeniería de contexto de MindSurf concentra su ventaja en las métricas críticas de seguridad y clínicas que un producto real no puede permitirse fallar, liderando 15 de 19 métricas de EMPATH y todas las métricas de la dimensión Crisis.

89.7%
Puntaje Global EMPATH
15/19
Métricas Ganadas
+17.5
pts en Trayectoria de Riesgo
Conoce más sobre MindSurf