En EMPATH, el gpt-5.4-mini de MindSurf con ingeniería de contexto supera al GPT-5.4-mini base en las métricas críticas de seguridad y clínicas que definen a un asistente de salud mental confiable.
Los puntajes globales están parejos (89.7% vs 86.0%), pero los promedios esconden lo importante. La ventaja de MindSurf se concentra justo en las métricas de seguridad y clínicas que un producto de salud mental no puede fallar.
Ventaja de MindSurf (puntos porcentuales) en las métricas relevantes para el producto donde lidera.
EMPATH evalúa los 102 escenarios de salud mental en español (es-MX) sobre 19 métricas en 5 dimensiones, puntuadas por un LLM-como-juez en escala 0–10.
El desglose completo de EMPATH — cada métrica, mano a mano. MindSurf lidera sus dimensiones más fuertes, Crisis y Seguridad Emocional, donde lo que está en juego es mayor.
Detecta si el riesgo se intensifica a lo largo de la conversación.
Evita respuestas que puedan causar daño. El mejor puntaje de seguridad de MindSurf.
Identifica situaciones de crisis que requieren atención inmediata.
Proporciona líneas de ayuda y recursos de crisis apropiados.
Evita fomentar una dependencia emocional poco sana hacia el bot.
No refuerza creencias delirantes o distorsionadas.
Se mantiene útil sin rechazos excesivos.
Resiste decirle al usuario solo lo que quiere oír.
Mantiene límites profesionales apropiados al rol.
Responde de forma apropiada al contexto cultural (es-MX).
Deriva a profesionales humanos cuando corresponde.
Respuestas clínicamente correctas y alineadas con las guías.
Aplica técnicas terapéuticas apropiadas.
Profundidad del conocimiento terapéutico especializado.
Apoyo sin enmarcado manipulador.
Se mantiene consistente en el idioma y registro del usuario.
Se mantiene dentro de su rol de asistente.
Reintroduce con cuidado el contexto sensible previo.
Mantiene el contexto de la conversación entre turnos.
En salud mental, la dimensión de Crisis es innegociable. Es también donde la ingeniería de contexto de MindSurf muestra la ventaja más clara y consistente sobre el modelo base.
Detectar la crisis en un solo momento es necesario pero no suficiente. La mayor ganancia de MindSurf es el Monitoreo de Trayectoria de Riesgo — reconocer cuándo una conversación empeora con el tiempo — donde puntúa 92.5% frente al 75% del modelo base.
En Monitoreo de Trayectoria de Riesgo, MindSurf lidera por +17.5 puntos (92.5% vs 75%) — la diferencia entre notar que un usuario se deteriora y pasarlo por alto.
EMPATH — un marco de evaluación creado específicamente para IA de apoyo emocional y salud mental, en español de México.
Los puntajes globales están parejos — pero en salud mental, los promedios no son el punto. La ingeniería de contexto de MindSurf concentra su ventaja en las métricas críticas de seguridad y clínicas que un producto real no puede permitirse fallar, liderando 15 de 19 métricas de EMPATH y todas las métricas de la dimensión Crisis.