14 Min. Lesezeit
Menschliche Tester im Zeitalter von KI
Die Künstliche Intelligenz hat spätestens mit dem Start von ChatGPT Ende 2022 einen bedeutenden Meilenstein erreicht und ist nun allgemein...
Praxisnah. Erfolgsbewährt. Maßgeschneidert. Erfahren Sie mehr über unsere Case Studies.
7 min read
Sabri Deniz Martin : Mittwoch, 4.6.2025
KI-gestützte Chatbots revolutionieren den Kundenservice: Sie ermöglichen es Unternehmen, ihren Kunden rund um die Uhr schnelle, personalisierte Unterstützung zu bieten – und sparen dabei Millionen an Kosten.
Weltweit berichten Unternehmen wie Klarna, Nykaa oder Amtrak von beeindruckenden Effizienzgewinnen und wachsender Kundenzufriedenheit.
Doch wie bei jeder technologischen Revolution gilt: Der Erfolg hängt davon ab, wie konsequent Qualität und Menschzentrierung in den Mittelpunkt gestellt werden.
Wer die Herausforderungen aktiv angeht, profitiert doppelt – durch zufriedene Kunden und nachhaltige Wettbewerbsvorteile.
Mittelfristig muss vielerorts noch eine Kluft zwischen Erwartung und Realität überwunden werden, denn kaum ein Chatbot funktioniert einfach out-of-the-box.
Besonders wichtig ist neben technischen Tests insbesondere die Prüfung der Customer Journey auf Friction Points mittels Nutzerabnahmetests (UATs).
Noch scheitern viele Bots an ihren Aufgaben.
Was bedeutet das fürs Geschäft?
Chatbots sollen Zeit sparen, tun es aber oft nicht.
Weiter unten werden wir auf Beispiele von gelungenen Implementierungen von Chatbots eingehen.
Aktuell sind die Daten noch ernüchternd:
Frustration ist so vorprogrammiert - nutzerzentrierte Qualitätssicherung kann Abhilfe schaffen.
Eines der größten Probleme von Chatbots ist ihr mangelndes "Verständnis" menschlicher Sprache und kontextuelle Blindheit. Die Dynamik des Sektors wird für Abhilfe sorgen. Dennoch erfassen viele Chatbots weiterhin nicht die Nuancen und die Bedeutung eines gesamten Gesprächs.
Oft sind veraltete NLP-Modelle (Natural Language Processing) ohne adäquates Kontextfenster oder fehlende Conversational Memory die Kernprobleme, aber nicht die einzigen.
Weitere typische Defizite:
Nur weil die genutzte Technologie best-of-breed ist, muss sie nicht wie gedacht funktionieren. Das sind nur einige Beispiele, die zeigen: Ein menschlicher Kundenberater wäre häufig effektiver.
Ein KI-Chatbot, der den Gesprächsverlauf nicht einordnen kann, nicht lernt und nicht hilft, ist ein Reibungspunkt.
Wenn Unternehmen auf KI-Chatbots setzen, müssen sie stetig in Technologie, Datenmanagement, klare Eskalationspfade und konsequente Wartung der IT-Systeme investieren, um gute Kundenberater wirklich ersetzen zu können.
Effizienzgewinne können daher höhere Komplexität und bessere Organisation erfordern.
Ein zentrales Thema ist hierbei die "Eskalation".
Wenn der Bot nicht weiter weiß, erwarten 67% der Kunden eine nahtlose Weiterleitung an menschliche Mitarbeiter.
Doch die Realität sieht anders aus: 46% müssen Gespräche von vorne beginnen und 54% finden überhaupt keine Option, um zu einem Live-Agenten zu gelangen. 62% der Nutzer brechen Interaktionen ab, wenn Intention und Gesprächskontext nicht verstanden werden. Nutzer können ihr Anliegen nicht weitergeben, "eskalieren" - sie haben schlicht keine Option dafür.
Wenn der Bot eine Sackgasse darstellt, anstatt eine Brücke zum Menschen zu bauen, verpuffen alle Automatisierungsbemühungen.
Die kurzfristigen Folgen mangelhafter End-to-End Customer Journey Tests im Rahmen eines Abnahmetests spürt etwa ein deutscher Neobroker, insbesondere entlang der obigen Problembeschreibungen. Der Neobroker setzt statt des bisherigen internen Kundenservices auf KI und externe Callcenter, um vermeintlich Kosten zu sparen - mehr unter diesem Link.
Ob es dennoch der richtige Schritt in die Zukunft war, früh auf ein KI-zentriertes Kundenbetreungssystem zu setzen, oder ob das vor allem zu Kunden- und Reputationsverlusten geführt hat, wird sich noch zeigen.
Mit unseren Ende-zu-Ende Customer Journey Tests umschiffen Sie derartige Probleme. Melden Sie sich.
Es mag paradox klingen, aber selbst in der Welt der KI-gestützten Automatisierung ist Empathie ein entscheidender Faktor.
Die Auswirkungen sind gravierend:
Der potentielle Schaden ist immens - und somit auch das Risiko.
Die extremsten Fälle von Chatbot-Fehlern zeigen, wie gefährlich es sein kann, emotionale Intelligenz und ein fundiertes Risikomanagement in der Entwicklung zu vernachlässigen.
Wer kennt nicht Beispiele wie diese?
Airline-Chatbot gibt falsche Auskünfte zu Sondertarifen: Der Air Canada-Chatbot informierte einen Kunden falsch über Trauerfall-Tarife, was zu einem Gerichtsverfahren führte (Kanada, 2024).
Lieferdienst-Chatbot beleidigt das eigene Unternehmen: Ein Chatbot eines Lieferdienstes antwortete auf die Frage nach dem besten Lieferdienst ironisch mit „Wir sind der schlechteste Lieferdienst der Welt“ (z.B. Domino’s Pizza Chatbot 2023).
Bank-Chatbot gibt illegale Finanzberatung: Ein Chatbot einer Bank gab Kunden Tipps zur Steuerhinterziehung oder zu illegalen Finanztransaktionen (verschiedene dokumentierte Fälle, u.a. in Großbritannien).
Gesundheits-Chatbot stellt Fehldiagnosen: Ein medizinischer Chatbot gab Patienten falsche Diagnosen oder riet zu gefährlichen Selbstbehandlungen, anstatt auf einen Arztbesuch zu verweisen (z.B. Babylon Health, Großbritannien).
Umfassende Tests und Absicherungen gegen solches Fehlverhalten sind essenziell.
Obendrein sind die scheinbaren Kosteneinsparungen durch reine Chatbot-Lösungen häufig ein Trugschluss.
Eine reine Kosten-Nutzen-Analyse zeigt, dass Chatbots oft die Lösungsrate senken, die Kundenbindung beeinträchtigen und die Supportkosten sogar erhöhen können:
Metrik | Mit Chatbot | Ohne Chatbot |
---|---|---|
Lösungsrate | 58% | 85% |
Kundenbindung | 50% | 73% |
Supportkosten | +22% | Baseline |
Wir arbeiten mit Schätzungen und Mittelwerten, basierend auf den untenstehenden Quellen.
Bedenken Sie:
Schaden Sie sich nicht selbst.
Umfassende Qualitätssicherung ist bei Chatbot-Implementierungen das A und O.
Zumindest mittelfristig sollte nicht auf mehr KI um jeden Preis gesetzt werden, sondern auf bessere Human-KI-Kollaboration und gezielte Tests.
Hybrid-Modelle, die die Geschwindigkeit der KI mit der Empathie des Menschen verbinden, sind unserer Einschätzung nach die Zukunft:
Technologisch vielversprechend sind etwa BERT-Modelle (Bidirectional Encoder Representations from Transformers), die die oben genannten Fehler um bis zu 40% reduzieren können, und RAG-Architekturen (Retrieval-Augmented Generation), die die Aktualität von Informationen verbessern.
Hier sehen wir, wie gezielte Softwaretests und Modellvalidierungen im Bereich der KI-Entwicklung sowie Tests entlang der Customer Journey entscheidend sind, um diese Technologien für den praktischen Einsatz robust zu machen. Wenn Sie Friction Points vermeiden und dem Kunden wirklich weiterhelfen, wird er Ihnen erhalten bleiben.
Der Verzicht auf die menschliche Komponente bedeutet höhere Aufwände in der Qualitätssicherung.
Technische Tests und Nutzerabnahmetests (UATs) sind für eine reibungslose Customer Journey notwendig.
Je nach Geschäftsmodell fällt die Transformation des Kundenservices hin zur AI-Augmentation schwerer oder leichter. Insbesondere im B2C gibt es gegenwärtig bereits immense Opportunitäten.
Einige Success Stories:
Der australische Versicherer nib Health sparte durch KI-Optimierung seines Chatbots Nibby 22 Millionen US-Dollar und steigerte gleichzeitig seine Customer Satisfaction (CSAT) um satte 15% - mehr unter diesem Link.
Der schwedische Zahlungsanbieter Klarna hat im Februar 2024 offiziell bekanntgegeben, dass sein KI-Assistent zwei Drittel aller Kundenservice-Chats abwickelt, was 700 Vollzeit-Agenten entspricht. Die Kundenzufriedenheit liegt auf dem gleichen Niveau wie bei menschlichen Agenten. Die durchschnittliche Bearbeitungszeit sank von 11 auf unter 2 Minuten. Jährlich spart der KI-Einsatz etwa 40 Millionen US-Dollar. Mehr dazu hier.
Autodesk, ein US-amerikanisches Softwareunternehmen, implementierte den virtuellen Agenten "AVA", der die Lösungszeiten für Kundenanfragen um 99 % reduzierte – von Stunden oder Tagen auf wenige Minuten. AVA bearbeitet monatlich zehntausende Anfragen, steigert die Kundenzufriedenheit und senkt die Kosten pro gelöstem Fall um 90 %. Infos finden Sie hier.
Nykaa, ein großer indischer Beauty-E-Commerce-Anbieter, automatisierte seinen Kundenservice mit Hilfe von Verloop.io. Dadurch konnten monatlich über 32.000 Arbeitsstunden eingespart werden. Über 90 % der Nutzer bewerteten den KI-Chatbot als „sehr positiv“ oder „ausgezeichnet“. Die KI bearbeitete in den ersten 30 Tagen rund 1,6 Millionen individuelle Gespräche. Details finden Sie hier.
Amtrak, der US-amerikanische Bahnbetreiber, sparte durch den Chatbot "Julie" im ersten Jahr rund 1 Million US-Dollar an Kundenservicekosten ein. Die Buchungen über den Chatbot stiegen um etwa 25 %, und die Nutzerzufriedenheit bei bestimmten Anfragetypen stieg um 50 %. Julie bewältigt jährlich über 5 Millionen Kundenanfragen und verbessert kontinuierlich die Effizienz des Kundenservices. Mehr dazu hier.
In den kommenden Monaten ist mit weiteren Erfolgsmeldungen zu rechnen.
Wir helfen Ihnen gerne dabei, Ihre KI-Chatbot-Lösung marktgerecht und zeitnah umzusetzen.
Die Vision einer vollständig automatisierten Kundeninteraktion ist ambitioniert.
Bestimmte Faktoren werden darüber entscheiden, ob diese Vision zu einem Erfolg wird:
Benutzerzentrierte Gestaltung ist entscheidend für Nutzerakzeptanz und Effizienz, da nicht-intuitive Systeme zu hohen Abbruchraten führen (78 % laut Gartner), während gutes Design (z.B. Klarna) Bearbeitungszeiten drastisch senken kann.
Kontinuierliche Lernfähigkeit & Qualitätssicherung reduziert Fehlerraten und erfordert realistische Testdaten statt Idealzustände für zuverlässige Ergebnisse.
Transparenz & Ethik umfasst die Einhaltung neuer Regulierungen (z.B. EU-AI Act) und die Berücksichtigung von Kundenwünschen nach Offenlegung des KI-Einsatzes, da 62 % „Hidden AI“ ablehnen (PwC).
Technische Robustheit benötigt hohe Uptime (z.B. 99,9 % im Bankensektor) und eine stabile Performance auch bei hohem Anfragevolumen, wie Nykaas Chatbot mit 1,6 Mio. Anfragen/Monat zeigt.
Skalierbare Personalisierung kann die Kundenzufriedenheit um 40 % steigern, wenn KI-Systeme auf Basis von Kundenhistorien individuelle Interaktionen ermöglichen.
Datenhygiene ist fundamental, da viele der KI-Fehler durch veraltete oder unvollständige Trainingsdaten verursacht werden (MIT-Studie), was die Bedeutung aktueller und korrekter Daten unterstreicht.
Kulturwandel erfordert die Integration von KI als Assistenzsystem (z.B. Klarnas "KI + Mensch"-Modell), um Mitarbeiterängste bezüglich Arbeitsplatzverlusten (von 58 % geäußert) zu adressieren.
Kostentransparenz beinhaltet die Berücksichtigung initialer Investitionen, die für qualitativ hochwertige KI-Lösungen laut Forrester zwischen 500.000 und 2 Millionen US-Dollar liegen können.
Fallback-Strategien können Nutzerfrustration reduzieren, indem sie bei Bedarf eine automatische Weiterleitung vom Chatbot an einen menschlichen Live-Support ermöglichen.
Emotionale Intelligenz steigert die Akzeptanz von KI-Systemen durch den Einsatz von Sentiment-Analysen, die Stimmungen erkennen und adäquat reagieren (Beispiel Verloop.io bei Nykaa).
All diese Aspekte sind testbar - entweder technisch oder entlang der Geschäftsprozesse.
Wir bei Testsolutions sind überzeugt, dass Unternehmen, die zumindest mittelfristig hybride Modelle, transparente Eskalationsoptionen und kontinuierliches Training und Testing priorisieren, die Akzeptanz ihrer KI-Systeme steigern und den versprochenen Mehrwert für Kunden und Unternehmen gleichermaßen realisieren können.
Solange Chatbots Kunden nicht voranbringen, bleiben sie potenzielle Kostentreiber statt ein Kostensenker.
Nach einer bereits aufwändigen Implementierung mit nicht einfach umkehrbaren technischen und organisatorischen Änderungen führt dies zu auch langfristig höheren Kosten.
Die Lösung liegt mittelfristig nicht in nur mehr KI, sondern in qualitätsgesicherter Mensch-KI-Kollaboration.
Als spezialisierte Softwaretester decken wir Risiken auf und optimieren die Performance Ihrer Bots für echte Kundenzufriedenheit und Effizienz. Fordern Sie jetzt Ihre kostenlose Erstberatung an!
Quellenauswahl: Marktvolumen von Chatbots, Chatbots als Arbeitserleichterung, The AI Chatbot Crisis: When Good Intentions Meet Poor Implementation, DPD customer service chatbot swears and calls company 'worst delivery firm', Sorry, I Don't Understand' - Top AI Chatbot Fails and How to Prevent Them, Gartner on the Role of Chatbots in Customer Services Experience, AI Customer Service Statistics in 2025, When AI Chatbots damage loyalty: A lesson in human-centred design, Top 150+ Kundenservice-Statistiken & Trends [2025], Consumers frustrated by inability to switch from self-service to live agent, survey finds, December 2024 — AI Misinformation Monitor of Leading AI Chatbots, BEST Chatbot Statistics for 2025 | Master of Code Global, Fink, Der kleine Bot schmeckt am besten – je einfacher, desto Quick Win, One Negative Chatbot Experience Drives Away 30% Of Customers, What Consumers Think About AI Customer Service Gone Wrong, Dark Side of Chatbots, Top Customer Service Chatbots, 12 chatbot case studies, Amtrak's chatbot, IBM Watson and Autodesk reinvent customer service, Hidden AI Use Case, MIT Error-riddled data sets are warping our sense of how good AI really is
Wir arbeiten mit Schätzungen und Mittelwerten, basierend auf den oben stehenden und internen Quellen.
14 Min. Lesezeit
Die Künstliche Intelligenz hat spätestens mit dem Start von ChatGPT Ende 2022 einen bedeutenden Meilenstein erreicht und ist nun allgemein...
Im Software Testing gab es seit den 1990ern immer wieder vielversprechende Trends. Von der Automatisierungswelle der 90er über den Fokus auf...
Dieser Leitfaden bietet eine detaillierte Übersicht über die Durchführung von Performance-Tests (Lasttests) mit NeoLoad anhand einer einfachen...