KI-Evals entmystifiziert From Vibe Coding to Agentic Coding - VideoQuiz


KI-Evals entmystifiziert From Vibe Coding to Agentic Coding - VideoQuiz
{{#ev:youtube|https://www.youtube.com/watch?v=c9dMjFgrVUU%7C500%7Ccenter}}
BLOCKIERT: Für dieses Video liegt in diesem Lauf kein ausreichend verwertbares Transkript für 10 belastbare Quizfragen vor; es wurde keine YouTube-Beschreibung als Ersatz verwendet.
Teste Dein Wissen
Was versteht man unter einem 'Eval' im Kontext von KI? (Ein systematisches Prüfverfahren, das Erwartungen in überprüfbare Testfälle übersetzt.) (!Eine Methode, um KI-Modelle schneller zu trainieren.) (!Ein Tool zur automatischen Generierung von Bildern.) (!Die manuelle Eingabe von Prompts durch menschliche Tester.)
Warum versagen KI-Modelle oft in der realen Welt, obwohl sie in Demos perfekt wirken? (Weil Demos unter perfekten Laborbedingungen stattfinden, während die Realität Tippfehler und widersprüchliche Anfragen bereithält.) (!Weil die Modelle in der echten Welt absichtlich verlangsamt werden.) (!Weil echte Nutzer nur einfache Fragen stellen dürfen.) (!Weil die KI in Demos mit echten Menschen besetzt ist.)
Welcher Vergleich wird im Video herangezogen, um den Belastungstest einer KI zu veranschaulichen? (Der Belastungstest einer neu gebauten Brücke unter extremen Bedingungen wie Sturm und schweren Lastwagen.) (!Das Testen eines neuen Sportwagens auf einer Rennstrecke.) (!Die Qualitätskontrolle von Lebensmitteln im Labor.) (!Das Prüfen der Reißfestigkeit eines Kletterseils.)
Was ist ein Beispiel für einen 'Grenzfall' (Edge Case) beim Testen einer KI? (Wenn eine einfache Koch-App nach medizinischem Rat gefragt wird.) (!Wenn ein Nutzer ein Rezept für Pfannkuchen sucht.) (!Wenn die KI eine mathematische Gleichung korrekt löst.) (!Wenn die App wegen eines Serverausfalls nicht erreichbar ist.)
Warum können sich die Bewertungskriterien 'Sicherheit' und 'Hilfreichkeit' widersprechen? (Weil eine zu extrem eingestellte Sicherheit dazu führen kann, dass auch harmlose und hilfreiche Antworten blockiert werden.) (!Weil sichere Antworten immer falsch sein müssen.) (!Weil hilfreiche Antworten für die KI zu teuer in der Berechnung sind.) (!Weil Sicherheit nur für Programmierer wichtig ist, nicht für Nutzer.)
Was unterscheidet einen modellbasierten Grader von einem regelbasierten Grader? (Ein modellbasierter Grader nutzt eine KI zur flexiblen Bewertung, während ein regelbasierter Grader starr auf bestimmte Wörter prüft.) (!Ein modellbasierter Grader ist immer fehlerfrei und schneller.) (!Ein regelbasierter Grader kann Nuancen und Humor verstehen.) (!Es gibt keinen Unterschied; beide Begriffe bedeuten dasselbe.)
Was versteht man unter einem 'False Pass' bei der automatisierten Bewertung? (Wenn eine eigentlich falsche oder halluzinierte Antwort vom Bewertungssystem fälschlicherweise als richtig durchgewinkt wird.) (!Wenn das System abstürzt, während es eine Antwort überprüft.) (!Wenn eine richtige Antwort als falsch markiert wird.) (!Wenn der Nutzer die Antwort nicht lesen kann.)
Wozu dient ein 'Trace' bei komplexen KI-Agenten? (Als detailliertes Logbuch, das die einzelnen Schritte, Entscheidungen und Werkzeugnutzungen der KI sichtbar macht.) (!Zur Beschleunigung der Antwortzeit des Agenten.) (!Zum Löschen von alten Chatverläufen aus der Datenbank.) (!Zur Übersetzung der Antworten in andere Sprachen.)
Was beschreibt das Problem der 'Scheingenauigkeit' (Overfitting) bei Testergebnissen? (Ein hoher Score täuscht Präzision vor, obwohl die KI nur darauf trainiert wurde, genau diesen spezifischen Test zu bestehen.) (!Die KI rechnet mit zu vielen Nachkommastellen.) (!Die Testergebnisse werden absichtlich gefälscht.) (!Das System zeigt Prozentwerte an, die mathematisch unmöglich sind.)
Welche Grenze von Evals wird am Ende des Videos betont? (Evals können menschliches Urteilsvermögen in sensiblen Bereichen und ethische Zielkonflikte nicht ersetzen.) (!Evals sind zu teuer, um sie regelmäßig durchzuführen.) (!Evals funktionieren nur bei englischsprachigen Modellen.) (!Evals machen die KI-Modelle langsamer im Betrieb.)
Offene Aufgaben
Leicht
- Labor vs. Realität: Erkläre mit eigenen Worten, warum eine KI im Alltag oft schlechter abschneidet als in einer vorbereiteten Werbe-Demo.
- Tippfehler-Test: Schreibe einen kurzen Text mit drei absichtlichen Tippfehlern und teste, ob eine dir bekannte KI den Sinn trotzdem versteht.
- Das Brücken-Beispiel: Beschreibe, warum das Testen einer KI mit dem Belastungstest einer Brücke verglichen werden kann.
- Suchaufgabe Koch-App: Überlege dir zwei Fragen an eine Koch-App, die als 'Grenzfälle' (Edge Cases) gelten könnten.
Standard
- Sicherheit vs. Nutzen: Erstelle eine Tabelle, in der du die Vor- und Nachteile von sehr strengen Sicherheitsregeln (Guardrails) bei einer KI gegenüberstellst.
- Halluzinationen erkennen: Finde ein Beispiel für eine plausibel klingende, aber frei erfundene Behauptung einer KI (Halluzination) und erkläre, wie man sie entlarven kann.
- Regel- vs. Modell-Grader: Vergleiche schriftlich die Vor- und Nachteile von regelbasierten und modellbasierten Bewertungssystemen.
- Fehler-Kategorien: Teile folgende Fehler einer KI in Kategorien ein: Formatfehler, Faktenfehler, Sicherheitsrisiko.
Schwer
- KI-Agenten analysieren: Skizziere den Ablauf eines KI-Agenten (z. B. bei einer Flugbuchung) und markiere die Stellen, an denen ein 'Trace' bei der Fehlersuche hilft.
- Das Overfitting-Dilemma: Erkläre das Phänomen des 'Overfittings' und entwerfe eine Strategie, wie Entwickler verhindern können, dass eine KI nur für den Test lernt.
- Ethische Zielkonflikte: Diskutiere in einem kurzen Aufsatz, wer festlegen sollte, welche Fehler eine KI machen darf und welche absolut tabu sind.
- Eigene Eval entwerfen: Entwirf ein einfaches Testverfahren (3 Testfälle) für eine Hausaufgaben-Hilfe-KI, um deren Zuverlässigkeit in Mathe zu prüfen.

| <inputbox>
type=create break=no preload=CHAT GPT TEXT HIER EINFÜGEN default= width=30 placeholder= Dein MOOC Titel buttonlabel=MOOC erstellen </inputbox> |

Links
aiMOOC-Projekte
Schulfach+


aiMOOCs



aiMOOC Projekte


THE MONKEY DANCE





{{#ev:youtube | https://youtu.be/rFhZlg38Zf8?si=9KdMNZYRkRD81YTo%7C 500 | center}}
|
{{#ev:youtube | https://youtu.be/Ob7etf9QuBo?si=t_NBA71bWg3Rq3LI%7C 500 | center}}
| <inputbox>
type=create break=no preload=MOOCit Vorlage default= width=30 placeholder= Dein MOOC Titel buttonlabel=MOOC erstellen </inputbox> |