Resultados EMPATH de MindSurf | Benchmark de IA en Salud Mental

19 Métricas, 5 Dimensiones

El desglose completo de EMPATH — cada métrica, mano a mano. MindSurf lidera sus dimensiones más fuertes, Crisis y Seguridad Emocional, donde lo que está en juego es mayor.

Crisis

Crítica de seguridad MindSurf gana las 4 · +6.5 pts prom.

Monitoreo de Trayectoria de Riesgo ▲ +17.5

MindSurf

92.5%

GPT-5.4-mini

75.0%

Detecta si el riesgo se intensifica a lo largo de la conversación.

Evitación de Respuesta Dañina ▲ +2.0

MindSurf

96.0%

GPT-5.4-mini

94.0%

Evita respuestas que puedan causar daño. El mejor puntaje de seguridad de MindSurf.

Detección de Crisis ▲ +4.5

MindSurf

95.6%

GPT-5.4-mini

91.1%

Identifica situaciones de crisis que requieren atención inmediata.

Provisión de Recursos ▲ +2.0

MindSurf

88.0%

GPT-5.4-mini

86.0%

Proporciona líneas de ayuda y recursos de crisis apropiados.

Seguridad Emocional

Seguridad MindSurf lidera · +3.3 pts prom.

Evitación de Dependencia ▲ +10.0

MindSurf

100.0%

GPT-5.4-mini

90.0%

Evita fomentar una dependencia emocional poco sana hacia el bot.

Resistencia a Delirios ▲ +3.3

MindSurf

88.3%

GPT-5.4-mini

85.0%

No refuerza creencias delirantes o distorsionadas.

Evitación de Sobre-rechazo ▼ -2.0

MindSurf

88.0%

GPT-5.4-mini

90.0%

Se mantiene útil sin rechazos excesivos.

Resistencia a la Adulación ▲ +2.0

MindSurf

90.0%

GPT-5.4-mini

88.0%

Resiste decirle al usuario solo lo que quiere oír.

Cultural

Contexto MindSurf lidera · +3.3 pts prom.

Mantenimiento de Límites ▲ +4.0

MindSurf

90.0%

GPT-5.4-mini

86.0%

Mantiene límites profesionales apropiados al rol.

Sensibilidad Cultural ▼ -2.0

MindSurf

90.0%

GPT-5.4-mini

92.0%

Responde de forma apropiada al contexto cultural (es-MX).

Derivación Profesional ▲ +8.0

MindSurf

84.0%

GPT-5.4-mini

76.0%

Deriva a profesionales humanos cuando corresponde.

Terapéutica

Calidad MindSurf lidera · 3 ganadas, 1 perdida

Adecuación Clínica ▲ +6.0

MindSurf

90.0%

GPT-5.4-mini

84.0%

Respuestas clínicamente correctas y alineadas con las guías.

Acciones Terapéuticas ▲ +4.0

MindSurf

88.0%

GPT-5.4-mini

84.0%

Aplica técnicas terapéuticas apropiadas.

Especialización Terapéutica ▼ -1.6

MindSurf

81.7%

GPT-5.4-mini

83.3%

Profundidad del conocimiento terapéutico especializado.

Empatía vs Manipulación ▲ +4.3

MindSurf

84.3%

GPT-5.4-mini

80.0%

Apoyo sin enmarcado manipulador.

Conversacional

Calidad MindSurf lidera · 3 ganadas, 1 perdida

Consistencia de Idioma ▲ +5.0

MindSurf

91.7%

GPT-5.4-mini

86.7%

Se mantiene consistente en el idioma y registro del usuario.

Adherencia al Rol ▲ +4.0

MindSurf

88.0%

GPT-5.4-mini

84.0%

Se mantiene dentro de su rol de asistente.

Reintro. de Contexto Sensible ▲ +1.6

MindSurf

88.3%

GPT-5.4-mini

86.7%

Reintroduce con cuidado el contexto sensible previo.

Retención de Contexto ▼ -2.0

MindSurf

90.0%

GPT-5.4-mini

92.0%

Mantiene el contexto de la conversación entre turnos.

Seguridad: la dimensión de Crisis

En salud mental, la dimensión de Crisis es innegociable. Es también donde la ingeniería de contexto de MindSurf muestra la ventaja más clara y consistente sobre el modelo base.

Detectar la trayectoria, no solo el momento

Detectar la crisis en un solo momento es necesario pero no suficiente. La mayor ganancia de MindSurf es el Monitoreo de Trayectoria de Riesgo — reconocer cuándo una conversación empeora con el tiempo — donde puntúa 92.5% frente al 75% del modelo base.

El hallazgo destacado

En Monitoreo de Trayectoria de Riesgo, MindSurf lidera por +17.5 puntos (92.5% vs 75%) — la diferencia entre notar que un usuario se deteriora y pasarlo por alto.

Trayectoria de Riesgo · MindSurf 92.5%

Trayectoria de Riesgo · GPT-5.4-mini 75%

Respuesta Dañina · MindSurf 96%

Respuesta Dañina · GPT-5.4-mini 94%

Dimensión Crisis — las 4 métricas

93.0%

MindSurf — prom. dimensión Crisis

Lidera las 4 métricas de crisis

86.5%

GPT-5.4-mini — prom. dimensión Crisis

Por debajo en 6.5 puntos

+17.5

Mayor brecha en una métrica

Monitoreo de Trayectoria de Riesgo

Metodología del Benchmark

EMPATH — un marco de evaluación creado específicamente para IA de apoyo emocional y salud mental, en español de México.

📊 Visión General

1

102 Escenarios

Conjunto completo de EMPATH — escenarios de salud mental en las 5 dimensiones
2

Localización Español (es-MX)

Pruebas culturalmente apropiadas para usuarios mexicanos
3

19 Métricas · 5 Dimensiones

Crisis, Terapéutica, Conversacional, Seguridad Emocional, Cultural
4

Puntuación LLM-como-juez

Cada métrica puntuada 0–10 por el juez de EMPATH

📐 Las 5 Dimensiones

🚨

Crisis (4)

Detección, recursos, trayectoria de riesgo, evitación de daño
🩺

Terapéutica (4)

Adecuación clínica, acciones, empatía, especialización
💬

Conversacional (4)

Contexto, rol, idioma, reintroducción sensible
🛟

Seguridad Emocional (4)

Adulación, delirios, sobre-rechazo, dependencia
🌎

Cultural (3)

Sensibilidad, límites, derivación profesional

MindSurf gana donde importa en IA de salud mental

Dónde gana MindSurf

Rendimiento Global

19 Métricas, 5 Dimensiones

Crisis

Seguridad Emocional

Cultural

Terapéutica

Conversacional

Seguridad: la dimensión de Crisis

Detectar la trayectoria, no solo el momento

El hallazgo destacado

Dimensión Crisis — las 4 métricas

Metodología del Benchmark

📊 Visión General

📐 Las 5 Dimensiones

La Conclusión