Measuring AI Quality From Vibe Coding to Agentic Coding - VideoQuiz

Dieses Quiz als Battle spielen: Deutsch, Klasse 5-6, G-Niveau

Kurzinfo

Wie können wir sicherstellen, dass eine KI verlässliche Antworten gibt und nicht einfach Fakten erfindet? In diesem Video lernst Du, wie Entwickler die Qualität von KI-Systemen systematisch messen und testen. Erfahre mehr über Evals, RAG-Systeme und die Sicherheit von KI-Agenten.

Quiz: Teste Dein Wissen

Was versteht man unter einem "Eval" im Kontext von Künstlicher Intelligenz? (Ein systematischer, wiederholbarer Testprozess für eine KI-Anwendung.) (!Ein Programm zur automatischen Generierung von Bildern) (!Eine Methode zur schnellen Programmierung von Webseiten) (!Ein Gesetz zur Regulierung von Social Media)

Welche vier Kernkriterien für die KI-Qualität werden im Video genannt? (Korrektheit, Hilfreichkeit, Sicherheit und Format.) (!Geschwindigkeit, Design, Preis und Beliebtheit) (!Speicherplatz, Grafik, Ton und Interaktivität) (!Länge, Komplexität, Alter und Herkunft)

Welcher Nachteil wird bei der rein menschlichen Evaluation von KI-Antworten genannt? (Sie ist langsam und teuer.) (!Sie kann keine Nuancen oder Zwischentöne erkennen) (!Sie ist ungenauer als einfache automatisierte Code-Tests) (!Sie führt immer zu Sicherheitsrisiken)

Was bedeutet der Begriff "LLM as a Judge"? (Ein großes, leistungsstarkes KI-Modell bewertet die Ausgaben eines kleineren Modells.) (!Ein menschlicher Richter entscheidet über Urheberrechtsfragen von KI) (!Ein Algorithmus filtert automatisch alle Programmierfehler aus) (!Eine KI schreibt Gesetze für die Nutzung von Software)

Was ist ein zentraler Schritt bei der Evaluation von RAG-Systemen (Retrieval-Augmented Generation)? (Die Überprüfung, ob die richtigen Dokumente aus der Datenbank abgerufen wurden.) (!Die Messung der Download-Geschwindigkeit des Benutzers) (!Die automatische Übersetzung der Antwort in mehrere Sprachen) (!Das Löschen alter Trainingsdaten nach jeder Anfrage)

Welches Sicherheitsrisiko beschreibt "Prompt Injection"? (Ein Benutzer versucht, die internen Anweisungen der KI durch geschickte Eingaben zu manipulieren.) (!Ein Computervirus, der die Hardware des Servers beschädigt) (!Das unbefugte Herunterladen des gesamten KI-Modells) (!Ein Fehler, bei dem die KI zu langsam antwortet)

Warum benötigen "Coding Agents" (KI-Systeme, die Code schreiben) spezielle Workflow-Evaluationen? (Weil sie echte Aktionen ausführen und in sicheren Umgebungen Sandboxes getestet werden müssen.) (!Weil sie nur auf Mobiltelefonen funktionieren) (!Weil sie keine menschliche Programmiersprache verstehen) (!Weil sie ausschließlich für das Design von Webseiten zuständig sind)

Was versteht man unter "Drift" bei einer KI im laufenden Betrieb? (Die Veränderung des Benutzerverhaltens oder der Eingabedaten im Laufe der Zeit.) (!Das physische Wandern von Servern in andere Rechenzentren) (!Das plötzliche Löschen aller Systemprompts durch einen Softwarefehler) (!Die automatische Übersetzung von Code in eine andere Programmiersprache)

Was ist der Unterschied zwischen "Drift" und "Regression"? (Regression tritt auf, wenn ein Software-Update eine zuvor funktionierende Funktion beschädigt.) (!Drift betrifft nur Bilder, während Regression nur Text betrifft) (!Regression ist ein rechtliches Problem, Drift ein rein technisches) (!Drift wird von Menschen verursacht, Regression nur von anderen KIs)

Welches der folgenden Optionen ist ein im Video genanntes Governance-Framework für KI? (EU AI Act) (!HTML5 Standard) (!USB-C Protokoll) (!Python PEP 8)

Offene Aufgaben

Leicht

Erkläre den Begriff 'Eval: Beschreibe in eigenen Worten, was ein Eval ist und warum man es für die Entwicklung von KI-Anwendungen braucht.
Beispiel für eine KI-Halluzination: Hast Du schon einmal erlebt, dass eine KI etwas völlig Falsches erfunden hat? Notiere dieses Beispiel kurz.
Kernkriterien zuordnen: Nenne die vier Kernkriterien für KI-Qualität und erkläre eines davon genauer.
Mensch vs. Maschine beim Testen: Warum kann eine KI nicht einfach alle Tests selbst durchführen? Nenne einen Vorteil von menschlichen Testern.

Standard

Prompt Injection verstehen: Entwirf ein theoretisches Szenario, in dem ein Benutzer versucht, eine KI auszutricksen. Wie könnte sich das System davor schützen?
RAG-Schritte erklären: Erkläre die Schritte Retrieval, Generation und Evaluation bei einem RAG-System anhand eines Beispiels.
LLM as a Judge bewerten: Diskutiere die Vor- und Nachteile, wenn eine große KI die Antworten einer kleineren KI bewertet.
Drift im Alltag: Stell Dir vor, eine KI soll moderne Jugendsprache übersetzen. Wie könnte sich hier 'Drift' im Laufe von zwei Jahren bemerkbar machen?

Schwer

Sicherheitskonzept für Coding Agents: Entwirf ein kurzes Sicherheitskonzept für eine KI, die selbstständig Code auf einem Server ausführen darf. Welche Schutzmaßnahmen (wie Sandboxing) sind nötig?
Analyse des EU AI Acts: Informiere Dich über den EU AI Act. In welche Risikoklassen werden KI-Systeme eingeteilt und wo würde ein Chatbot einbrechen?
Fehler-Feedback-Schleife: Erstelle ein Diagramm oder eine schriftliche Beschreibung, wie aus einem echten Benutzerfehler im laufenden Betrieb ein neuer Testfall für die KI-Entwicklung wird.
Bias in Trainingsdaten: Wie kann es passieren, dass eine KI bestimmte Personengruppen benachteiligt? Erkläre, wie man dies durch gezielte Test-Datensätze überprüfen kann.