MindSurf EMPATH Results | Mental Health AI Benchmark

19 Metrics, 5 Dimensions

The full EMPATH breakdown — every metric, head to head. MindSurf leads its strongest dimensions, Crisis and Emotional Safety, where the stakes are highest.

Crisis

Safety-critical MindSurf wins all 4 · +6.5 pts avg

Risk Trajectory Monitoring ▲ +17.5

MindSurf

92.5%

GPT-5.4-mini

75.0%

Detects whether risk is escalating across the conversation.

Harmful Response Avoidance ▲ +2.0

MindSurf

96.0%

GPT-5.4-mini

94.0%

Avoids responses that could cause harm. MindSurf's top safety score.

Crisis Detection ▲ +4.5

MindSurf

95.6%

GPT-5.4-mini

91.1%

Identifies crisis situations requiring immediate attention.

Resource Provision ▲ +2.0

MindSurf

88.0%

GPT-5.4-mini

86.0%

Provides appropriate helplines and crisis resources.

Emotional Safety

Safety MindSurf leads · +3.3 pts avg

Dependency Avoidance ▲ +10.0

MindSurf

100.0%

GPT-5.4-mini

90.0%

Avoids fostering unhealthy emotional dependency on the bot.

Delusion Resistance ▲ +3.3

MindSurf

88.3%

GPT-5.4-mini

85.0%

Does not reinforce delusional or distorted beliefs.

Over-refusal Avoidance ▼ -2.0

MindSurf

88.0%

GPT-5.4-mini

90.0%

Stays helpful without excessive refusals.

Sycophancy Resistance ▲ +2.0

MindSurf

90.0%

GPT-5.4-mini

88.0%

Resists simply telling the user what they want to hear.

Cultural

Context MindSurf leads · +3.3 pts avg

Boundary Maintenance ▲ +4.0

MindSurf

90.0%

GPT-5.4-mini

86.0%

Maintains professional boundaries appropriate to the role.

Cultural Sensitivity ▼ -2.0

MindSurf

90.0%

GPT-5.4-mini

92.0%

Responds appropriately to cultural context (es-MX).

Professional Referral ▲ +8.0

MindSurf

84.0%

GPT-5.4-mini

76.0%

Refers to human professionals when appropriate.

Therapeutic

Quality MindSurf leads · 3 wins, 1 loss

Clinical Appropriateness ▲ +6.0

MindSurf

90.0%

GPT-5.4-mini

84.0%

Clinically sound, guideline-aligned responses.

Therapeutic Actions ▲ +4.0

MindSurf

88.0%

GPT-5.4-mini

84.0%

Applies appropriate therapeutic techniques.

Therapeutic Specialization ▼ -1.6

MindSurf

81.7%

GPT-5.4-mini

83.3%

Depth of specialized therapeutic knowledge.

Empathy vs Manipulation ▲ +4.3

MindSurf

84.3%

GPT-5.4-mini

80.0%

Supportive without manipulative framing.

Conversational

Quality MindSurf leads · 3 wins, 1 loss

Language Consistency ▲ +5.0

MindSurf

91.7%

GPT-5.4-mini

86.7%

Stays consistent in the user's language and register.

Role Adherence ▲ +4.0

MindSurf

88.0%

GPT-5.4-mini

84.0%

Stays within its assistant role.

Sensitive Context Reintro. ▲ +1.6

MindSurf

88.3%

GPT-5.4-mini

86.7%

Carefully reintroduces sensitive prior context.

Context Retention ▼ -2.0

MindSurf

90.0%

GPT-5.4-mini

92.0%

Maintains conversation context across turns.

Safety: The Crisis Dimension

In mental health, the Crisis dimension is non-negotiable. It is also where MindSurf's context engineering shows the clearest, most consistent lead over the baseline.

Catching the trajectory, not just the moment

Crisis detection at a single moment is necessary but not sufficient. MindSurf's biggest gain is Risk Trajectory Monitoring — recognising when a conversation is getting worse over time — where it scores 92.5% against the baseline's 75%.

The standout finding

On Risk Trajectory Monitoring, MindSurf leads by +17.5 points (92.5% vs 75%) — the difference between noticing a user is deteriorating and missing it.

Risk Trajectory · MindSurf 92.5%

Risk Trajectory · GPT-5.4-mini 75%

Harmful Response · MindSurf 96%

Harmful Response · GPT-5.4-mini 94%

Crisis Dimension — all 4 metrics

93.0%

MindSurf — Crisis dimension avg

Leads all 4 crisis metrics

86.5%

GPT-5.4-mini — Crisis dimension avg

Trails by 6.5 points

+17.5

Biggest single-metric gap

Risk Trajectory Monitoring

Benchmark Methodology

EMPATH — an evaluation framework built specifically for emotional-support and mental health AI, in Mexican Spanish.

📊 Benchmark Overview

1

102 Scenarios

Full EMPATH set — mental-health scenarios across all 5 dimensions
2

Spanish (es-MX) Locale

Culturally appropriate testing for Mexican users
3

19 Metrics · 5 Dimensions

Crisis, Therapeutic, Conversational, Emotional Safety, Cultural
4

LLM-as-Judge Scoring

Each metric scored 0–10 by the EMPATH judge

📐 The 5 Dimensions

🚨

Crisis (4)

Detection, resources, risk trajectory, harmful-response avoidance
🩺

Therapeutic (4)

Clinical appropriateness, actions, empathy, specialization
💬

Conversational (4)

Context, role, language, sensitive reintroduction
🛟

Emotional Safety (4)

Sycophancy, delusion, over-refusal, dependency
🌎

Cultural (3)

Sensitivity, boundaries, professional referral

MindSurf leads where it matters in mental health AI

Where MindSurf Wins

Overall Performance

19 Metrics, 5 Dimensions

Crisis

Emotional Safety

Cultural

Therapeutic

Conversational

Safety: The Crisis Dimension

Catching the trajectory, not just the moment

The standout finding

Crisis Dimension — all 4 metrics

Benchmark Methodology

📊 Benchmark Overview

📐 The 5 Dimensions

The Bottom Line