Guten Tag, ich bin Emmy. Wie kann ich helfen?
Künstliche Intelligenz (KI) ist aus dem Alltag bei uns in der Software-Entwicklung nicht mehr wegzudenken. Erst am 30. November 2022 hat OpenAI ChatGPT für die Öffentlichkeit freigegeben, nur etwa einen Monat später wurde es von über 100 Million Menschen genutzt. Die Technologie entwickelt sich viel schneller als der Mensch die zentralen Fragen beantworten kann: Wie viel Arbeit kann KI uns abnehmen? Mit welcher Qualität tut sie das? Was macht das mit uns Menschen und unserer Rolle? Auch für uns User Experience Professionals finden sich für alle Prozessschritte des Human Centered Design KI gestützte Tools – vom Research bis hin zum UI Design.
Wir haben den Chatbot „Emmy“ von xelper in einer kleinen Vergleichsstudie getestet. Losgelöst vom Hype haben wir objektiv gemessen, wer besser qualitative Interviews führt: Emmy oder wir Menschen? Mit unserem Feedback haben wir die Gründer David und Paul ein kleines Stück auf dem Weg der Produktentwicklung begleitet und unterstützt. Die Punkte, die wir herausgefunden haben, sind also zum Zeitpunkt der Veröffentlichung dieses Artikels längst gefixt.
Unser Fazit: Es gibt ein paar Dinge, die man über die Skills von Emmy wissen sollte. Emmy kann aber gerade bei großen Stichproben enorm Zeit sparen.
Spoiler: Ganz ohne menschliche Kontrolle kommt man – wie aktuell bei allen Anwendungen mit KI – trotzdem nicht aus.
Was oder wer ist eigentlich Emmy?
Emmy ist ein Chatbot, der auf ChatGPT basiert und selbständig qualitative Interviews durchführt. Emmy wird über ein Konfigurationsformular gebrieft: Man gibt die zu stellenden Interviewfragen ein und definiert Begrüßung, Ansprache und ein Erscheinungsbild, z.B. Logo und Markenfarben. Der Chatbot kann auch umbenannt werden, es muss nicht „Emmy“ sein. Die gesamte Konfiguration dauert nicht länger als 15 Minuten.
Im Durchschnitt sind Menschen ca. 20 Minuten motiviert per Chat zu kommunizieren. Deswegen ist die Empfehlung 7 bis maximal 10 zentrale Fragen für das Interview festzulegen. Über Anschlussfragen muss man sich keine Gedanken machen, diese generiert Emmy jeweils passend zum Gesprächsfluss. Wie bei klassischen Pretests kann man Emmy auch vorab testen. Anpassungen können in enger Zusammenarbeit mit xelper vorgenommen werden. Anschließend erhält man einen Link, über den die Proband:innen jederzeit am Interview teilnehmen können. Nach einem verabredetem Zeitraum wird die Umfrage durch xelper geschlossen. Sehr zeitnah (in unserem Fall 1 Werktag nach deaktivieren des Interviewlinks) erhält man eine KI-generierte Auswertung in einem cloudbasierten Datenbank-/Tabellen-Tool sowie alle Transkripte.
Wie kommt man zu optimalen Ergebnissen mit xelper?
Die Stichprobengröße sollte ungefähr doppelt so groß sein wie bei einem klassisch geführten Interview.
Wie bei Umfragen auch sollte ausreichend überrekrutiert werden, um am Ende die gewünschte Datenmenge zu erreichen.
7-10 zentrale Fragen reichen aus, um ein Chat-Interview von ca. 15-20 Minuten zu füllen.
Um Emmy ideal zu prompten, kann der Frage ein Begriff zur Kategorisierung vorangestellt werden z.B. "Ausstattung: Was bietet dir das Home-Office, was du im Büro nicht hast?".
Ist Emmy sicher?
Ganz wichtig ist natürlich die Absicherung von rechtlicher Seite: Die Verarbeitung und Speicherung von personenbezogenen Daten findet ausschließlich auf Microsoft Servern innerhalb der EU statt. Die Daten, die an die KI gesendet werden, werden laut Datenschutzerklärung max. 30 Tage gespeichert. Die Dauer der Speicherung der Transkripte erfolgt je nach Kundenwunsch. Nach eigenen Angaben handelt xelper unter strikter Einhaltung aller DSGVO-Anforderungen in der EU und hält alle Bedingungen ein, wenn es um Datenschutz, Privatsphäre und die Weitergabe von personenbezogenen Daten geht. Microsoft versichert, dass die eingegebenen Daten nicht zum Training der KI weiter verwendet werden. Die Auswertung wird über das Open Source Tool baserow geteilt, welches von xelper auf Microsoft Azure gehostet wird. baserow selbst hat keinerlei Zugriff auf die Daten.
Wer ganz transparent sein möchte, kann in der Kommunikation mit den Teilnehmer:innen explizit darauf hinweisen, dass personenbezogene Daten wie z.B. Namen nicht genannt werden müssen.
Unsere Studie: Mensch vs. KI
Um diese Schlüsselfrage zu beantworten, haben wir ein Versuchsmodell mit zwei Dimensionen und 24 Teilnehmer:innen konzipiert. Im Fokus unserer Studie stand primär das Forschungsziel, herauszufinden ob und wie gut Emmy uns im Rahmen von Interviews tatsächlich unterstützen kann. Wir haben hierzu die Qualität sowohl der von Emmy geführten Interviews als auch der daran anschließenden Auswertung durch eine KI bewertet, indem wir sie mit den von uns Menschen durchgeführten Interviews verglichen haben. Für optimale Versuchsbedingungen haben wir uns für remote durchgeführte Interviews als Gegenstück zur Interaktion mit Emmy entschieden.
Für die Rekrutierung der Teilnehmer:innen haben wir uns bewusst auf unsere Kolleg:innen bei slashwhy am Standort Hamburg fokussiert. Die Stichprobengröße und der fachliche Querschnitt der Kolleg:innen stellten die primären Entscheidungskriterien dar.
Um potenzielle Abneigungen gegen Umfragen zu berücksichtigen, haben wir vor und nach dem Chatbot-Interview über eine entsprechende Umfrage die Grundeinstellung dazu erhoben. Dadurch haben wir einen umfassenden Einblick bekommen, wie die Teilnehmer:innen das Interview hinsichtlich verschiedener Dimensionen, so auch vor und nach dem tatsächlichen Austausch mit Emmy, wahrnehmen und bewerten.
Die zweite Dimension unserer Studie ist inhaltlicher Natur: Das Thema New Work beschäftigt seit der Pandemie noch mehr Führungskräfte und Organisationen - so auch uns und unsere Kolleg:innen. Wir dürfen frei entscheiden, ob wir im Büro oder von zu Hause aus arbeiten. Wir wollten es aber genauer untersuchen: Wie wird die Freiheit der Wahl von Kolleg:innen bewertet und genutzt? Das Thema zeichnete sich für unser primäres Forschungsziel als prädestiniert ab, da wir eine hohe Mitteilungsbereitschaft und ein starkes Engagement der Teilnehmer:innen mit Emmy vermuteten.
Unser Ergebnis: Emmy kann (noch) nicht alles
Durch die KI-generierte Auswertung von xelper erhielten wir ein Stimmungsbild, das sich mit den Erkenntnissen aus den von uns durchgeführten Interviews deckte. Für grobe Explorationen zu einem Thema ist es sehr hilfreich, so schnell erstes Feedback einholen zu können. In den Details haben wir jedoch eine gewisse Unschärfe festgestellt. Falls im Kontext Begriffe mit festen Bedeutungen belegt sind, die z.B. nur unternehmensintern bekannt sind, wird es passieren, dass nicht nur an der Frage vorbei geantwortet, sondern auch nicht passend zusammengefasst wird. Ebenso verschachtelte, individuelle, bildhafte Formulierungen hat die KI nicht immer richtig interpretiert. Die Analyse ist zudem eher allgemein formuliert, sodass wir auch die einzelnen Interviews gelesen haben, um den Kontext und somit den tatsächlichen Inhalt besser zu verstehen. Wir konnten uns so viel besser in die Teilnehmer:innen hineinversetzen.
Man sollte sich zudem bewusst sein, für welche Aufgaben solche Large Language Models (LLM) geeignet sind. Aufgaben wie z.B. das Errechnen einer exakten Summe können andere Tools einfach besser lösen. Die Frage, wie häufig unsere Kolleg:innen denn ins Büro kommen, wurden nicht korrekt ausgewertet. Unseren Forschungsergebnissen zufolge ist generell die Zählung von Häufigkeiten durch KI innerhalb von Interviews noch ein klares Manko.
Emmy möchte vorzugsweise einen Dialog in ganzen Sätzen, damit Emmy das Gespräch besser führen kann. Diese Prämisse wurde am Anfang des Interviews beschrieben. Es ist aber nicht auszuschließen, dass in kurzen Sätzen geantwortet wird. Im Pretest haben wir u.a. auch mal kurz und stark umgangssprachlich geantwortet. Dabei stellte sich heraus, dass Emmy Formulierungen wie „geiles Arbeitssetting“ nicht verarbeiten kann und im Pretest in einer so genannten Null-Schleife feststeckte. Jegliche Versuche das Gespräch mit Emmy innerhalb desselben Chats wieder neu zu starten – dann natürlich in ganzen Sätzen – waren vergeblich. Emmy sprach nur noch von „Null“. Hier kommt eine Limitation beim Einsatz von LLMs deutlich zum Vorschein: So genannte Trigger-Begriffe wie „geil“ werden geblockt, um sexualisierte Inhalte und die weiterführende Verarbeitung dieser durch KI per se zu blocken. Sinnvollerweise besteht diese Regel und klare Limitation, die nochmal deutlich aufzeigt, wie treffsicher wir im Umgang mit LLMs und Sprache sein müssen, damit wir intelligente Ergebnisse mit KI erzielen. xelper hat Emmy inzwischen so angepasst, dass keine Null-Schleife mehr vorkommt.
Wie wars für die Teilnehmer:innen?
Insgesamt war die Bewertung der Erfahrung mit Emmy positiv und „spannend“. Die Interaktion wurde als flüssig und natürlich wahrgenommen. Antworten und Fragen von Emmy seien passend gewesen. Vereinzelt wurde bemängelt, dass Antworten nicht verstanden wurden, „dass Emmy nur oberflächlich auf die Antworten reagiert. So als würde das Gegenüber zwar zuhören, aber nicht wirklich interessiert sein.“ Die Teilnehmer:innen haben teilweise versucht, den Bot herauszufordern und an seine Grenzen zu bringen. Emmy hat es trotzdem geschafft, zurück zum Gesprächsfaden zu führen. xelper überprüft jedes Interview mit einem KI-Detektor, um Manipulationsversuche durch die Teilnahme einer weiteren, fremden KI in der Datenerfassung auszuschließen.
Hey Emmy, wie geht's weiter?
Je nach Kontext sollte man abwägen, wie viel Fingerspitzengefühl ein Thema erfordert. Ist es von Vorteil, dass sich die Menschen der „Maschine“ öffnen, z.B. ohne eine Diskriminierung zu befürchten oder braucht es eher ein tiefergehendes Verständnis und auch die Fähigkeit eines Menschen, feinste Nuancen zwischen den Zeilen zu erfassen? Stand heute bedarf es noch einer Kontrolle der Interviewdurchführung und der dazugehörigen Ergebnisse. Abhängig von Anspruch und Inhalt müssen die Daten mehr oder minder intensiv nachbereitet werden. Emmy eignet sich vor allem für explorative und innovative Themen, die wenig Fingerspitzengefühl, Fach- und Expertenwissen voraussetzen. Wenn man keine bis wenig konkrete Vorstellungen hat, ist der Einsatz von Emmy sehr sinnvoll.
Der Support durch künstliche Intelligenz ist nicht mehr aufzuhalten. Um Vorurteile abzubauen und für sich herauszufinden, wo einem diese Technologie helfen kann, sollte man sich damit beschäftigen und neue Wege ausprobieren. Perspektivisch gehen wir davon aus, dass auch komplexere Aufgabenstellungen durch Chatbots wie Emmy vollends zufriedenstellend durchgeführt werden. Emmy ist vielleicht heute noch ein engagierter, unerfahrener Junior, schon morgen kann sie uns User Experience Professionals tatkräftig und souverän im Bereich Research unterstützen.
Unsere Learnings:
Emmy erspart sehr viel Zeit, weil Interviews nicht persönlich durchgeführt werden müssen. Innerhalb von einer Woche lagen uns die ausgewerteten Studienergebnisse vor.
Auch in der Vorbereitung wird Aufwand reduziert, weil nur die wichtigsten Kernfragen definiert sein müssen. Anschlussfragen stellt Emmy dynamisch im Gespräch.
Für eine initiale Exploration zu einem Thema reicht die Qualität aus. Komplexere und tiefergehende Erkenntnisse können menschliche Interviewer besser herausarbeiten.
Die Interviews werden wie in einer lockeren Gesprächssituation mit Freunden geführt, da kommen geschlossene oder suggestive Fragen einfach mal vor.
Wenn es darum geht, Empathie für Nutzer:innen aufzubauen und sich in die Menschen hineinzuversetzen, sollte man sich die Zeit nehmen die Einzelinterviews zu lesen.
Hier könnt ihr euch über Emmy informieren und auch direkt ausprobieren: https://www.xelper.de/
An dieser Studie haben Curie Kure, Mirijana Irnich und Kim Müller mitgewirkt. Für die Teilnahme der Kolleg:innen des Standorts Hamburg möchten wir uns an dieser Stelle herzlich bedanken.
Wie können wir dir helfen?
Du interessierst dich für User Research und andere UX Methoden? Du möchtest die Usability deiner Mobile App optimieren? Oder du willst ein neues Software-Produkt entwickeln, das wirklich von Anfang an konsequent auf die Bedürfnisse deiner Nutzer:innen ausgerichtet ist? Dann schick uns eine Nachricht und lass uns darüber reden – von Mensch zu Mensch!