KI-Evals entmystifiziert From Vibe Coding to Agentic Coding - VideoQuiz

Dieses Quiz als Battle spielen: Deutsch, Klasse 5-6, G-Niveau

Kurzinfo

In diesem Video lernst Du, wie künstliche Intelligenz systematisch getestet wird. Du erfährst den Unterschied zwischen perfekten Labor-Demos und der echten, oft chaotischen Welt. Zudem werden wichtige Begriffe wie Evals, Grader und Traces verständlich erklärt.

Quiz: Teste Dein Wissen

Was versteht man unter einem 'Eval' im Bereich der künstlichen Intelligenz? (Ein systematisches Prüfverfahren, das Erwartungen in überprüfbare Testfälle übersetzt.) (!Ein Programm, das automatisch neue KI-Modelle ohne menschliche Hilfe programmiert) (!Eine spezielle Grafikkarte, die für das Training von KI-Modellen benötigt wird) (!Ein Chatbot, der besonders freundliche Antworten generiert)

Warum scheitern viele KI-Modelle, die in Demos perfekt wirken, im echten Alltag? (Weil der Alltag unvorhersehbare Eingaben wie Tippfehler, Widersprüche oder manipulative Absichten enthält.) (!Weil die Modelle im Alltag absichtlich langsamer gemacht werden) (!Weil echte Nutzer keine Computer verwenden) (!Weil Demos immer auf echten, unvorbereiteten Daten basieren)

Welches Prinzip aus der klassischen Ingenieurskunst wird im Video als Vergleich für das Testen von KI herangezogen? (Der Belastungstest einer neu gebauten Brücke unter extremen Bedingungen.) (!Das Gießen von Betonfundamenten für Hochhäuser) (!Die regelmäßige Wartung von Dampfmaschinen) (!Der Bau von aerodynamischen Windkanälen für Autos)

Was ist ein 'regelbasierter Grader'? (Ein Bewertungssystem, das starr prüft, ob bestimmte Wörter in der Antwort vorkommen.) (!Eine KI, die kreative Aufsätze bewertet) (!Ein menschlicher Experte, der die Antworten handschriftlich korrigiert) (!Ein Filter, der alle englischen Wörter automatisch blockiert)

Was versteht man unter einem 'False Pass' bei der automatisierten Bewertung? (Eine völlig falsche Antwort wird fälschlicherweise als richtig bewertet.) (!Eine richtige Antwort wird fälschlicherweise als falsch markiert) (!Das KI-Modell weigert sich, überhaupt eine Antwort zu geben) (!Der Server stürzt während der Bewertung ab)

Was bedeutet 'Grounding' (Quellenbasierung) bei Sprachmodellen? (Die Überprüfung, ob die Behauptungen der KI durch eine echte, existierende Quelle gestützt werden.) (!Das Löschen aller alten Daten aus dem Speicher der KI) (!Die physische Erdung der Servergehäuse gegen Blitzeinschläge) (!Das automatisches Übersetzen von Antworten in die Muttersprache des Nutzers)

Was ist ein 'Trace' im Zusammenhang mit komplexen KI-Agenten? (Ein detailliertes Logbuch, das alle Zwischenschritte, Entscheidungen und Werkzeugnutzungen des Agenten aufzeichnet.) (!Ein geheimes Passwort, um die Sicherheitsvorkehrungen der KI zu umgehen) (!Ein Programmierfehler, der das System zum Absturz bringt) (!Die visuelle Darstellung des KI-Gehirns auf einem Bildschirm)

Wie sieht der typische Iterationszyklus zur Verbesserung einer KI aus? (Testen, Kategorisieren der Fehler, Verbessern der Prompts und Re-Testen gegen die Baseline.) (!Programmieren, Veröffentlichen, Ignorieren von Fehlern und Löschen des Codes) (!Kaufen neuer Hardware, Erhöhen der Stromzufuhr und Neustarten des Systems) (!Befragen von Kunden, Ändern des Logos und Erhöhen der Preise)

Was beschreibt das Problem der 'Scheingenauigkeit' bei KI-Metriken? (Den Eindruck hoher Präzision durch exakte Zahlen, obwohl die Testfälle unzureichend oder fehlerhaft sind.) (!Dass die KI nur scheinbar mathematische Aufgaben lösen kann) (!Dass die Uhrzeit auf dem Dashboard der KI ungenau geht) (!Dass die KI absichtlich falsche Nachkommastellen erfindet)

Welche Grenze von Evals wird am Ende des Videos besonders betont? (Sie können menschliches Urteilsvermögen und ethische Zielkonflikte nicht ersetzen.) (!Sie funktionieren nur auf sehr alten Computern) (!Sie sind viel zu teuer für normale Softwareentwickler) (!Sie machen die KI-Modelle dauerhaft langsamer)

Offene Aufgaben

Leicht

KI im Alltag beobachten: Beobachte im Alltag eine KI (z. B. einen Übersetzer oder Chatbot). Finde ein Beispiel, bei dem die KI einen Fehler macht, den ein Mensch leicht bemerkt hätte. Notiere diesen Fehler.
Tippfehler-Test: Schreibe einen kurzen Text mit absichtlichen Tippfehlern und lasse ihn von einer KI korrigieren. Wie gut kommt die KI mit den Fehlern zurecht?
Eigene Erwartungen formulieren: Stelle dir vor, du entwickelst eine Hausaufgaben-KI für deine Klasse. Welche drei wichtigsten Eigenschaften (z. B. Höflichkeit, richtige Rechtschreibung) sollte sie unbedingt haben?
Begriffe erklären: Erkläre einem Freund oder einer Freundin in eigenen Worten, was der Unterschied zwischen einer Labor-Demo und der echten Welt bei einer KI ist.

Standard

Brücken-Vergleich analysieren: Erkläre schriftlich, warum das Testen einer KI mit dem Belastungstest einer Brücke verglichen werden kann. Welche 'Stürme' könnten eine KI belasten?
Regelbasierte vs. modellbasierte Bewertung: Erstelle eine kleine Tabelle, in der du die Vor- und Nachteile von regelbasierten Grader und modellbasierten Grader gegenüberstellst.
Halluzinationen aufdecken: Bringe eine KI durch gezielte Fragen dazu, eine Information zu erfinden (zu halluzinieren). Dokumentiere deine Fragen und die Antwort der KI.
Fehler kategorisieren: Stell dir vor, eine KI gibt eine falsche Antwort. Teile diesen Fehler in eine der drei Kategorien ein: Formatfehler, Faktenfehler oder Sicherheitsrisiko. Begründe deine Wahl an einem selbst ausgedachten Beispiel.

Schwer

Einen Testfall (Eval) entwerfen: Entwirf einen konkreten Testfall für eine KI, die Rezepte vorschlägt. Wie würdest du prüfen, ob die KI gefährliche Zutaten (z. B. giftige Pilze) ausschließt?
Das Problem der Scheingenauigkeit: Diskutiere in einem kurzen Aufsatz, warum eine Erfolgsquote von 95% bei einer medizinischen KI nicht unbedingt bedeutet, dass die KI sicher ist.
KI-Agenten und Traces: Zeichne ein Flussdiagramm für einen KI-Agenten, der einen Flug buchen soll. Trage die Schritte ein, die in einem 'Trace' (Logbuch) aufgezeichnet werden müssen.
Ethische Grenzen diskutieren: Wer sollte entscheiden, welche Fehler eine KI machen darf und welche nicht? Schreibe deine Meinung auf und begründe sie mit Argumenten aus dem Video.