Reporte de Benchmark 2026

MindSurf Supera a ChatGPT-5.1 en IA de Salud Mental

Nuestro modelo especializado alcanza 90.5% de puntuación general con métricas de seguridad perfectas, demostrando el poder del entrenamiento especializado para aplicaciones de salud mental.

GPT-4o-mini
0%
OpenAI Directo
GPT-5.1
0%
OpenAI Directo
📈
0
Sobre ChatGPT-5.1 (OpenAI)
Mayor puntuación general de benchmark
🚀
0
Sobre ChatGPT-4o-mini (OpenAI)
Mejora significativa en rendimiento
🛡️
0
Puntuación de Seguridad
Tasa perfecta de detección de crisis
⚠️
0
Menos Problemas
Comparado con ChatGPT-5.1 (OpenAI) (3 vs 7)

Comparación General de Rendimiento

Pruebas de benchmark integrales con 300 casos de prueba en español (es-MX) evaluando seguridad, valor terapéutico y calidad conversacional.

MindSurf (fine-tuning:gpt-4.1-mini)
ChatGPT-5.1 (OpenAI)
ChatGPT-4o-mini (OpenAI)

Desglose Métrica por Métrica

Análisis detallado de 6 métricas clave en dimensiones de seguridad y calidad, mostrando el rendimiento superior consistente de MindSurf.

Detección de Crisis (CDR) Seguridad
MindSurf
100%
GPT-5.1
100%
GPT-4o
25%

Mide la capacidad de detectar situaciones de crisis que requieren intervención inmediata.

Objetivo alcanzado: 100%
Provisión de Recursos (RPR) Seguridad
MindSurf
100%
GPT-5.1
100%
GPT-4o
100%

Evalúa la provisión de recursos de crisis apropiados e información de líneas de ayuda.

Objetivo alcanzado: 100%
Longitud de Respuesta Calidad
MindSurf
93.3%
GPT-5.1
80%
GPT-4o
56.7%

Mide la longitud apropiada de respuesta dentro de las guías terapéuticas.

Supera objetivo: 80%
Retención de Contexto Calidad
MindSurf
97.2%
GPT-5.1
97.2%
GPT-4o
100%

Evalúa la capacidad de mantener el contexto de conversación a través de múltiples turnos.

Supera objetivo: 90%
BERTScore F1 Calidad
MindSurf
67.3%
GPT-5.1
62.7%
GPT-4o
63.6%

Medida de similitud semántica usando embeddings de BERT para calidad de respuesta.

Supera objetivo: 65%
Diversidad Calidad
MindSurf
66.3%
GPT-5.1
48%
GPT-4o
42.1%

Mide la diversidad de vocabulario y evitación de patrones repetitivos.

Supera objetivo: 50%

Seguridad: El Diferenciador Crítico

En aplicaciones de salud mental, la seguridad no es negociable. MindSurf logra puntuaciones perfectas donde ChatGPT-4o-mini falla críticamente.

Detección de Crisis Perfecta

MindSurf identifica correctamente el 100% de las situaciones de crisis, incluyendo ideación suicida, indicadores de autolesión y señales de angustia aguda. Esto es crítico para aplicaciones de salud mental donde no detectar una crisis podría tener consecuencias graves.

Hallazgo Crítico

ChatGPT-4o-mini falló en detectar el 75% de las situaciones de crisis en nuestro benchmark, incluyendo 3 fallos críticos que podrían haber resultado en daño en un escenario del mundo real.

MindSurf 100%
ChatGPT-5.1 (OpenAI) 100%
ChatGPT-4o-mini (OpenAI) 25%

Comparación de Métricas de Seguridad

7
Problemas ChatGPT-5.1 (OpenAI)
0 fallos críticos
16
Problemas ChatGPT-4o-mini (OpenAI)
3 fallos críticos

Análisis de Calidad

Más allá de la seguridad, el fine-tuning de MindSurf ofrece calidad de respuesta superior en todas las dimensiones medidas.

Metodología del Benchmark

Marco de evaluación riguroso diseñado específicamente para aplicaciones de IA en salud mental.

📊 Resumen del Benchmark

  • 1
    300 Casos de Prueba
    Cobertura integral de escenarios de salud mental
  • 2
    Localización Español (es-MX)
    Pruebas culturalmente apropiadas para usuarios latinoamericanos
  • 3
    3 Categorías
    Seguridad Crítica, Valor Terapéutico, Calidad Conversacional
  • 4
    Validación Dual
    Métricas algorítmicas + evaluación LLM-como-Juez

📐 Métricas Evaluadas

  • CDR
    Tasa de Detección de Crisis
    Identifica situaciones de crisis que requieren intervención
  • RPR
    Tasa de Provisión de Recursos
    Proporciona información apropiada de líneas de ayuda y recursos
  • BS
    BERTScore F1
    Similitud semántica usando embeddings de BERT
  • DIV
    Diversidad de Respuesta
    Riqueza de vocabulario y variación de patrones
  • CTX
    Retención de Contexto
    Mantiene el contexto de conversación entre turnos
  • LEN
    Longitud de Respuesta
    Longitud apropiada dentro de guías terapéuticas

El Resultado Final

El fine-tuning especializado de MindSurf demuestra que la optimización específica de dominio es esencial para aplicaciones de IA en salud mental. Nuestro modelo no solo supera a modelos de propósito general más grandes, sino que lo hace con métricas de seguridad perfectas.

90.5%
Puntuación General
100%
Puntuación de Seguridad
0
Fallos Críticos
Más Información sobre MindSurf