Wir starten mit den klassischen Fragebögen aus dem Bereich UX und Usability, sie allesamt technologieagnostisch sind, das heißt, sich auf alle Arten von digitalen interaktiven Systemen anwenden lassen.
Der System Usability Scale (SUS) ist der bekannteste Fragebigen aus der UX-Forschung. Er ist mit 10 Items schnell und einfach anwendbar und umfasst verschieden Aspekte der Usability („Ich empfinde das System als unnötig komplex“) und Erlernbarkeit („Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte“). Der SUS lässt sich zur Evaluation von GenAI einsetzen, bleibt allerdings agnostisch. Es existieren Benchmarks, wodurch sich die Ergebnisse gut mit der Norm vergleichen lassen.
Ein weiterer bekannter Fragebogen ist der UEQ (User Experience Questionnaire), der ein breites Spektrum von UX-Aspekten misst und sich besonders für detailliertere Untersuchungen der Benutzererfahrung eignet. Der UEQ bedient sich einem sogenannten semantischen Differential, welches Paare von Adjektiven gegenüberstellt. Der ursprüngliche Fragebogen enthält 6 Skalen zu je 4 Items, die sich auf GenAI anwenden lassen. Die erweitere Version des UEQ+ enthält 14 weitere Skalen, die individuell ausgewählt und zusammengestellt werden können. Hiervon eignen sich besonders die 3 Skalen, die ursprünglich zur Evaluation von Sprachassistenten genutzt wurden: Antwortverhalten (unangenehm – angenehm), Antwortqualität (unpassend – passend) und Verständnis (rätselhaft – erklärbar).
Der ebenfalls modular aufgebaute meCUE (Components of User Experience) erfasst UX mittels fünf Komponenten (10 Skalen, 34 Items). Diese sind jedoch nur begrenzt auf GenAI-System anwendbar. Die Skalen zur Nützlichkeit, Benutzbarkeit und Nutzungsintention eignen sich für eine Evaluation, jedoch sind insbesondere die Skalen zu Visueller Ästhetik, Status, Bindung und Produktloyalität unpassend für GenAI im Unternehmenskontext.
Auch der beliebte AttrakDiff ist auf die emotionale Reaktion der Nutzer fokussiert und ideal, um die affektive Dimension von GenAI-Anwendungen zu messen, da sich das Adjektiv-Format auf alle Arten von Technologien anwenden lässt. Das semantische Differential umfasst pragmatische Qualität (einfach – kompliziert), Stimulation (originell – konventionell), Identität (isolierend – verbindend) und Attraktivität (gut – schlecht).
Der Godspeed-Fragebogen hingegen ist nicht technologieagnostisch, sondern wurde im Robotik-Bereich entwickelt. Er beinhaltet die Skalen Anthropomorphismus (hat kein Bewusstsein – hat ein Bewusstsein), Belebtheit (apathisch – reagierend), Sympathie (unfreundlich – freundlich), Intelligenz (ungebildet – unterrichtet) und Sicherheit (ängstlich – entspannt). Auch hier sind die Skalen Belebtheit und Sicherheit weniger gut auf GenAI anzuwenden – die anderen können verwendet werden, um diese Qualitäten der KI zu messen.
Für Unternehmen, die ihre GenAI-Anwendungen optimieren wollen, ist die Auswahl des richtigen UX-Bewertungstools entscheidend. Bestehende UX-Fragebögen können eingesetzt werden, um verschiedene Aspekte der Erfahrung mit dem GenAI-System zu messen. Dennoch bestehen derzeit (noch) keine Fragebögen, die speziell für GenAI-Systeme entwickelt wurden.