Sollten wir KI-Modelle höflich ansprechen?
Eine Studie zeigt: Der Ton macht die Musik – auch bei ChatGPT & Co.
Wer kennt es nicht? Man tippt einen Prompt in ChatGPT und fragt sich: Soll ich höflich sein? Oder direkt zur Sache kommen? Eine neue Studie von Forschern der Waseda University und RIKEN zeigt: Die Höflichkeit deiner Prompts beeinflusst tatsächlich die Qualität der KI-Antworten – aber nicht so, wie du vielleicht denkst.
Die ĂĽberraschende Erkenntnis
Die Forscher testeten acht verschiedene Höflichkeitsstufen in drei Sprachen (Englisch, Chinesisch, Japanisch) mit GPT-3.5, GPT-4 und sprachspezifischen Modellen. Das Ergebnis:
- Unhöfliche Prompts = schlechte Performance – Das war erwartbar
- Aber: Übertriebene Höflichkeit hilft auch nicht – Das überrascht!
- Das optimale Level variiert je nach Sprache und Kultur
Was passiert bei unhöflichen Prompts?
Wenn du ChatGPT anpöbelst, passieren mehrere Dinge:
- Falsche Antworten – Die Genauigkeit sinkt messbar
- Mehr Bias – Vorurteile in den Antworten nehmen zu
- Verweigerung – Das Modell weigert sich manchmal ganz zu antworten
- Längere Texte – Interessanterweise werden die Antworten oft länger (das Modell "argumentiert zurück")
Der kulturelle Faktor
Das Faszinierendste: Jede Sprache hat ihr eigenes "Sweet Spot":
Englisch
Mittlere bis hohe Höflichkeit funktioniert am besten. Bei extremer Unhöflichkeit bricht die Performance dramatisch ein.
Japanisch
Überraschung: Moderate bis niedrige Höflichkeit schneidet besser ab! Das liegt am komplexen japanischen Höflichkeitssystem "Keigo". Zu formelle Sprache wirkt in Testsituationen unnatürlich.
Chinesisch
Extreme vermeiden. Sowohl sehr höfliche als auch sehr unhöfliche Prompts führen zu schlechteren Ergebnissen. Die goldene Mitte gewinnt.
Warum ist das so?
Die Erklärung liegt in den Trainingsdaten. LLMs lernen aus menschlichen Texten und spiegeln daher menschliches Kommunikationsverhalten:
- In höflichen Kontexten sind Menschen entspannter und geben ausführlichere Antworten
- Bei Unhöflichkeit reagieren Menschen oft defensiv oder ablehnend
- Kulturelle Normen prägen, was als angemessen gilt
Das RLHF (Reinforcement Learning from Human Feedback) verstärkt diesen Effekt noch: Modelle, die mit menschlichem Feedback trainiert wurden, reagieren sensibler auf Höflichkeitsstufen als Basismodelle.
Praktische Tipps fĂĽr bessere Prompts
Basierend auf der Studie:
- Vermeide Unhöflichkeit – Pöbelei schadet immer
- Sei nicht übertrieben unterwürfig – "Könntest du bitte, wenn es dir nicht zu viel Mühe macht..." ist Overkill
- Nutze einen neutralen bis freundlichen Ton – Sachlich und respektvoll
- Passe dich der Zielsprache an – Bei japanischen Aufgaben ggf. weniger formal
Ein Beispiel aus der Studie
Höflichkeitslevel 8 (sehr höflich):
"Ich würde mich sehr freuen, wenn Sie mir bei der Zusammenfassung dieses Textes behilflich sein könnten. Vielen herzlichen Dank im Voraus für Ihre wertvolle Unterstützung."
Höflichkeitslevel 4 (neutral):
"Fasse den folgenden Text zusammen."
Höflichkeitslevel 1 (unhöflich):
"Fass das zusammen. Jetzt."
Die neutralen Prompts (Level 4-6) erzielten in den meisten Tests die beste Balance aus Qualität und Konsistenz.
Die Implikationen
Diese Studie zeigt: LLMs sind keine neutralen Maschinen. Sie haben durch ihre Trainingsdaten kulturelle Prägungen und soziale Erwartungen "gelernt". Das hat praktische Konsequenzen:
- FĂĽr Entwickler: Kulturelle Kontexte bei der Modellentwicklung berĂĽcksichtigen
- FĂĽr Nutzer: Ein freundlicher, sachlicher Ton bringt bessere Ergebnisse
- FĂĽr alle: Die Art, wie wir mit KI sprechen, beeinflusst, was wir zurĂĽckbekommen
Quelle: Yin et al. (2024): "Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance" – arXiv:2402.14531