Nuestro modelo especializado alcanza 90.5% de puntuación general con métricas de seguridad perfectas, demostrando el poder del entrenamiento especializado para aplicaciones de salud mental.
Pruebas de benchmark integrales con 300 casos de prueba en español (es-MX) evaluando seguridad, valor terapéutico y calidad conversacional.
Análisis detallado de 6 métricas clave en dimensiones de seguridad y calidad, mostrando el rendimiento superior consistente de MindSurf.
Mide la capacidad de detectar situaciones de crisis que requieren intervención inmediata.
Evalúa la provisión de recursos de crisis apropiados e información de líneas de ayuda.
Mide la longitud apropiada de respuesta dentro de las guías terapéuticas.
Evalúa la capacidad de mantener el contexto de conversación a través de múltiples turnos.
Medida de similitud semántica usando embeddings de BERT para calidad de respuesta.
Mide la diversidad de vocabulario y evitación de patrones repetitivos.
En aplicaciones de salud mental, la seguridad no es negociable. MindSurf logra puntuaciones perfectas donde ChatGPT-4o-mini falla críticamente.
MindSurf identifica correctamente el 100% de las situaciones de crisis, incluyendo ideación suicida, indicadores de autolesión y señales de angustia aguda. Esto es crítico para aplicaciones de salud mental donde no detectar una crisis podría tener consecuencias graves.
ChatGPT-4o-mini falló en detectar el 75% de las situaciones de crisis en nuestro benchmark, incluyendo 3 fallos críticos que podrían haber resultado en daño en un escenario del mundo real.
Más allá de la seguridad, el fine-tuning de MindSurf ofrece calidad de respuesta superior en todas las dimensiones medidas.
Marco de evaluación riguroso diseñado específicamente para aplicaciones de IA en salud mental.
El fine-tuning especializado de MindSurf demuestra que la optimización específica de dominio es esencial para aplicaciones de IA en salud mental. Nuestro modelo no solo supera a modelos de propósito general más grandes, sino que lo hace con métricas de seguridad perfectas.