Wir haben ChatGPT 100 Bewerbungen schreiben lassen, so erkennen Recruiter KI-Texte

Das Experiment

Wir wollten wissen, wie gut ChatGPT Bewerbungen schreibt. Nicht theoretisch, nicht anekdotisch, empirisch. Also haben wir 100 Bewerbungen von ChatGPT generieren lassen. Fur 20 verschiedene Stellen, quer durch alle Branchen: Software-Entwickler, Marketing-Manager, Vertriebsleiter, Pflegefachkraft, Controller. Jede Stelle erhielt funf Bewerbungen, mit unterschiedlicher Prompt-Qualitat.

25 Bewerbungen mit perfektem Prompting: Detaillierter Kontext, Stellenanzeige als Input, personliche Erfahrungen als Stichpunkte, gewunschter Tonfall spezifiziert.
25 Bewerbungen mit gutem Prompting: Stellenanzeige als Input, einige personliche Details, aber weniger Steuerung.
25 Bewerbungen mit mittelmassigem Prompting: "Schreib mir ein Anschreiben fur diese Stelle" plus kopierte Stellenanzeige.
25 Bewerbungen mit schlechtem Prompting: "Schreib eine Bewerbung als Marketing Manager."

Dann haben wir diese 100 Bewerbungen zusammen mit 50 echten Bewerbungen (aus unserem anonymisierten Pool) einem Panel von 12 erfahrenen Recruitern vorgelegt. Blind. Ohne zu verraten, welche von der KI stammen.

Die Ergebnisse: Erschreckend und aufschlussreich

Das Resultat hat selbst uns uberrascht. Die Recruiter identifizierten KI-Bewerbungen nur in 42 Prozent der Falle korrekt. Das ist kaum besser als Raten. Bei den perfekt prompteten Bewerbungen sank die Erkennungsrate auf 19 Prozent, weniger als eine von funf wurde als KI-generiert erkannt.

Noch bemerkenswerter: Die perfekt prompteten ChatGPT-Bewerbungen wurden im Durchschnitt besser bewertet als 80 Prozent der echten Bewerbungen. Sie waren strukturierter, hatten weniger Rechtschreibfehler, argumentierten koharenter und stellten einen klareren Bezug zur Stellenanzeige her.

Das unbequeme Ergebnis: ChatGPT schreibt bessere Bewerbungen als die meisten Menschen. Wenn das kein Weckruf fur den gesamten Bewerbungsprozess ist, dann weiß ich nicht, was einer ist.

Aufschlusselung nach Prompt-Qualitat

Perfektes Prompting (25 Bewerbungen): 81 Prozent wurden als "gut" oder "sehr gut" bewertet. Nur 19 Prozent als KI erkannt. Die Texte hatten personliche Anekdoten (weil sie im Prompt standen), branchenspezifisches Vokabular und eine naturliche Tonalitat.
Gutes Prompting (25 Bewerbungen): 64 Prozent als "gut" oder "sehr gut". 35 Prozent als KI erkannt. Leichte Muster sichtbar, aber immer noch uberzeugend.
Mittelmassiges Prompting (25 Bewerbungen): 38 Prozent als "gut". 56 Prozent als KI erkannt. Generische Formulierungen, fehlender personlicher Bezug.
Schlechtes Prompting (25 Bewerbungen): 12 Prozent als "gut". 78 Prozent als KI erkannt. Offensichtlich generisch, falsche Details, keine Substanz.

Die Schlussfolgerung ist klar: Die Qualitat des Prompts bestimmt alles. Wer ChatGPT mit genugen Kontext futtert, erhalt Bewerbungen, die von menschlich geschriebenen kaum zu unterscheiden sind.

Warum KI-Detector-Tools nicht funktionieren

Naturlich haben wir auch die gangigen KI-Erkennungstools getestet: GPTZero, Originality.ai, Turnitin, Copyleaks. Das Ergebnis war erntchternd.

False Positives: Echte Bewerber als KI markiert

Von unseren 50 echten Bewerbungen wurden 23 Prozent von mindestens einem Tool falschlich als KI-generiert markiert. Besonders betroffen: Bewerbungen von nicht-muttersprachlichen Bewerbern. Deren Texte, oft grammatisch korrekt, aber stilistisch einfacher, triggern die Detektoren zuverlassig. Das ist nicht nur ungenau. Das ist diskriminierend.

False Negatives: KI-Texte nicht erkannt

Von den 25 perfekt prompteten Bewerbungen wurden nur 31 Prozent von den Tools als KI-generiert identifiziert. Wer ChatGPT mit personlichen Details futtert und den Text anschließend leicht uberarbeitet, ein Wort hier andern, einen Satz umstellen, fliegt unter dem Radar.

Das grundsatzliche Problem

KI-Detector-Tools arbeiten mit statistischen Mustern: Perplexity (wie uberraschend ist das nachste Wort?) und Burstiness (wie variabel ist die Satzlange?). Menschliche Texte haben typischerweise hohere Burstiness, kurze und lange Satze wechseln sich ab. KI-Texte sind gleichmassiger.

Aber diese Unterscheidung wird mit jedem Modell-Update schwacher. GPT-4 schreibt variabler als GPT-3.5. Claude variiert starker als GPT-4. Und mit Prompt-Engineering lasst sich die Burstiness kunstlich erhohen. Die Detektoren befinden sich in einem Rustungswettlauf, den sie nicht gewinnen konnen.

KI-Detektoren in Bewerbungsprozessen einzusetzen ist wie Rauchmelder zu verwenden, die bei 23 Prozent der echten Brande nicht anschlagen, und bei 23 Prozent ohne Feuer Alarm auslosen.

Die echten Red Flags, was kein Tool findet

Wenn die automatische Erkennung nicht funktioniert, muss der menschliche Blick ran. Hier sind die Muster, die wir in unserem Experiment identifiziert haben, die echten Red Flags, die auf eine KI-generierte Bewerbung hindeuten:

1. Zu perfekte Struktur

ChatGPT liebt Dreiergruppen. Drei Absatze, drei Argumente, drei Beispiele. Die Bewerbung folgt einem makellosen Aufbau: Einleitung mit Bezug zur Stelle, Hauptteil mit drei Kernkompetenzen, Schluss mit Zukunftsausblick. Keine echte Bewerbung ist so symmetrisch. Echte Menschen springen zwischen Themen, gehen auf Tangenten, vergessen den roten Faden. Das ist keine Schwache, das ist Menschlichkeit.

2. Keine echte personliche Anekdote

KI-generierte Bewerbungen enthalten oft Pseudo-Anekdoten: "In meiner vorherigen Position konnte ich erfolgreich ein Team von 12 Mitarbeitenden leiten und die Produktivitat um 35 Prozent steigern." Das klingt gut. Aber es fehlt das Spezifische. Wann genau? Welches Team? Welches Produkt? Was lief schief? Was hat die Person dabei gefuhlt? Echte Anekdoten haben Details, die man nicht erfinden wurde, weil sie zu spezifisch, zu merkwurdig, zu menschlich sind.

3. Generische Motivation

"Besonders begeistert mich die innovative Unternehmenskultur und die Moglichkeit, in einem dynamischen Umfeld zu wachsen." Dieser Satz konnte in jeder Bewerbung fur jedes Unternehmen stehen. Und genau das ist das Problem. KI-Bewerbungen sind gut darin, die Stellenanzeige zu spiegeln, aber schlecht darin, echte Begeisterung zu vermitteln. Echte Motivation ist spezifisch: "Ich habe Ihren Podcast gehort, in dem Ihr CTO uber die Migration zu Event-Driven Architecture gesprochen hat. Genau das habe ich in meinem letzten Projekt umgesetzt, und dabei fast alles falsch gemacht. Deshalb weiß ich, wie es richtig geht."

4. Identische Formulierungen bei mehreren Bewerbern

Wenn Sie 200 Bewerbungen fur eine Stelle erhalten und drei davon nahezu identisch formulieren, dass sie "die ausgeschriebene Position als hervorragende Moglichkeit betrachten, ihre Fachkenntnisse in einem zukunftsorientierten Unternehmen einzubringen", dann hat ChatGPT dreimal den gleichen Default-Text produziert. Achten Sie auf Formulierungs-Cluster. Echte Menschen schreiben nicht identisch.

5. Ubertrieben positive Selbstdarstellung ohne Schatten

ChatGPT-Bewerbungen sind durchgehend positiv. Jedes Projekt war ein Erfolg. Jede Herausforderung wurde gemeistert. Jede Zahl zeigt nach oben. Echte Berufserfahrung hat Ruckschlage, Zweifel, Misserfolge. Wer nur Sonnenschein prasentiert, hat entweder gelogen oder eine KI benutzt. Oft beides.

Was Sie stattdessen tun sollten

Statt KI-Bewerbungen zu jagen, sollten Sie Ihren Prozess so umbauen, dass die Bewerbung irrelevant wird. Denn das eigentliche Problem ist nicht die KI. Das eigentliche Problem ist, dass wir seit Jahrzehnten an einem Dokument festhalten, das nie besonders aussagekraftig war, dem Anschreiben.

Anschreiben abschaffen

Ernst gemeint. Das Anschreiben hat eine Vorhersagekraft fur Job-Performance von nahe null. Es testet Schreibfahigkeit und, seit 2023, die Fahigkeit, ChatGPT zu bedienen. Beides sagt nichts daruber aus, ob jemand ein guter Controller, eine gute Entwicklerin oder ein guter Vertriebsleiter ist. Streichen Sie das Anschreiben. Heute.

Skills-Tests einfuhren

Statt 3 Seiten Prosa: ein 30-minutiger Skills-Test. Fur Entwickler: eine Coding Challenge. Fur Marketing-Manager: eine Kampagnen-Analyse. Fur Controller: ein Financial Model. Testen Sie, was die Person kann, nicht, was sie uber sich schreibt. Skills-Tests haben eine Vorhersagekraft von 54 Prozent fur die spatere Job-Performance. Anschreiben: unter 5 Prozent.

Video-Intro statt Anschreiben

Ein 90-Sekunden-Video, in dem sich der Kandidat vorstellt. Nicht poliert, nicht geprobt, authentisch. "Hallo, ich bin Anna, ich arbeite seit drei Jahren im Bereich Data Engineering und suche eine neue Herausforderung, weil..." In 90 Sekunden lernen Sie mehr uber eine Person als in 3 Seiten Text. Personlichkeit, Kommunikationsfahigkeit, Begeisterung, alles Dinge, die ein Anschreiben nicht vermitteln kann. Und die ChatGPT definitiv nicht faken kann.

Arbeitsproben verlangen

Fragen Sie nicht nach einem Anschreiben. Fragen Sie nach einer Arbeitsprobe. Ein Code-Snippet. Eine Kampagnen-Analyse. Ein Projektplan. Etwas, das die tatsachliche Arbeit widerspiegelt. Ja, das kann auch KI-unterstutzt erstellt werden. Aber dann muss der Kandidat das Ergebnis im Interview erklaren und verteidigen. Und genau da zeigt sich, ob echtes Verstandnis dahinter steckt.

Der großere Punkt

Wenn ChatGPT bessere Bewerbungen schreibt als 80 Prozent der Menschen, was sagt das uber den Bewerbungsprozess?

Es sagt, dass der Prozess kaputt ist. Dass wir seit Jahrzehnten ein Ritual pflegen, das Anschreiben, den Lebenslauf, die formale Bewerbungsmappe, das niemals besonders gut darin war, die besten Kandidaten zu identifizieren. Es war gut darin, konformistisches Verhalten zu belohnen. Wer die Regeln kennt, wer die richtigen Floskeln beherrscht, wer die Form wahrt, der kommt weiter. Nicht wer am kompetentesten ist.

ChatGPT hat dieses System nicht zerstort. Es hat nur offengelegt, was immer schon wahr war: Bewerbungen messen nicht Kompetenz. Sie messen die Fahigkeit, Bewerbungen zu schreiben. Und jetzt kann das eine Maschine besser als die meisten Menschen.

Die Frage ist nicht: "Wie erkennen wir KI-Bewerbungen?" Die Frage ist: "Warum basiert unser Auswahlverfahren auf einem Dokument, das eine KI in 30 Sekunden besser schreibt als ein Mensch in 3 Stunden?"

Unternehmen, die jetzt in KI-Detektoren investieren, bekampfen Symptome. Unternehmen, die ihren Auswahlprozess fundamental uberdenken, weg vom Anschreiben, hin zu Skills-Tests, Arbeitsproben und strukturierten Interviews, losen das eigentliche Problem. Und nebenbei stellen sie die besseren Leute ein.

Denn am Ende geht es nicht darum, ob eine Bewerbung von einem Menschen oder einer Maschine geschrieben wurde. Es geht darum, ob die Person den Job kann. Und das finden Sie nicht in einem Anschreiben heraus, egal wer es geschrieben hat.