Zum Inhalt springen

KI-Evals entmystifiziert From Vibe Coding to Agentic Coding - VideoQuiz

Aus MOOCsWiki Staging



KI-Evals entmystifiziert From Vibe Coding to Agentic Coding - VideoQuiz



{{#ev:youtube|https://www.youtube.com/watch?v=c9dMjFgrVUU%7C500%7Ccenter}}

BLOCKIERT: Für dieses Video liegt in diesem Lauf kein ausreichend verwertbares Transkript für 10 belastbare Quizfragen vor; es wurde keine YouTube-Beschreibung als Ersatz verwendet.



Teste Dein Wissen

Was versteht man unter einem 'Eval' im Kontext von KI? (Ein systematisches Prüfverfahren, das Erwartungen in überprüfbare Testfälle übersetzt.) (!Eine Methode, um KI-Modelle schneller zu trainieren.) (!Ein Tool zur automatischen Generierung von Bildern.) (!Die manuelle Eingabe von Prompts durch menschliche Tester.)




Warum versagen KI-Modelle oft in der realen Welt, obwohl sie in Demos perfekt wirken? (Weil Demos unter perfekten Laborbedingungen stattfinden, während die Realität Tippfehler und widersprüchliche Anfragen bereithält.) (!Weil die Modelle in der echten Welt absichtlich verlangsamt werden.) (!Weil echte Nutzer nur einfache Fragen stellen dürfen.) (!Weil die KI in Demos mit echten Menschen besetzt ist.)




Welcher Vergleich wird im Video herangezogen, um den Belastungstest einer KI zu veranschaulichen? (Der Belastungstest einer neu gebauten Brücke unter extremen Bedingungen wie Sturm und schweren Lastwagen.) (!Das Testen eines neuen Sportwagens auf einer Rennstrecke.) (!Die Qualitätskontrolle von Lebensmitteln im Labor.) (!Das Prüfen der Reißfestigkeit eines Kletterseils.)




Was ist ein Beispiel für einen 'Grenzfall' (Edge Case) beim Testen einer KI? (Wenn eine einfache Koch-App nach medizinischem Rat gefragt wird.) (!Wenn ein Nutzer ein Rezept für Pfannkuchen sucht.) (!Wenn die KI eine mathematische Gleichung korrekt löst.) (!Wenn die App wegen eines Serverausfalls nicht erreichbar ist.)




Warum können sich die Bewertungskriterien 'Sicherheit' und 'Hilfreichkeit' widersprechen? (Weil eine zu extrem eingestellte Sicherheit dazu führen kann, dass auch harmlose und hilfreiche Antworten blockiert werden.) (!Weil sichere Antworten immer falsch sein müssen.) (!Weil hilfreiche Antworten für die KI zu teuer in der Berechnung sind.) (!Weil Sicherheit nur für Programmierer wichtig ist, nicht für Nutzer.)




Was unterscheidet einen modellbasierten Grader von einem regelbasierten Grader? (Ein modellbasierter Grader nutzt eine KI zur flexiblen Bewertung, während ein regelbasierter Grader starr auf bestimmte Wörter prüft.) (!Ein modellbasierter Grader ist immer fehlerfrei und schneller.) (!Ein regelbasierter Grader kann Nuancen und Humor verstehen.) (!Es gibt keinen Unterschied; beide Begriffe bedeuten dasselbe.)




Was versteht man unter einem 'False Pass' bei der automatisierten Bewertung? (Wenn eine eigentlich falsche oder halluzinierte Antwort vom Bewertungssystem fälschlicherweise als richtig durchgewinkt wird.) (!Wenn das System abstürzt, während es eine Antwort überprüft.) (!Wenn eine richtige Antwort als falsch markiert wird.) (!Wenn der Nutzer die Antwort nicht lesen kann.)




Wozu dient ein 'Trace' bei komplexen KI-Agenten? (Als detailliertes Logbuch, das die einzelnen Schritte, Entscheidungen und Werkzeugnutzungen der KI sichtbar macht.) (!Zur Beschleunigung der Antwortzeit des Agenten.) (!Zum Löschen von alten Chatverläufen aus der Datenbank.) (!Zur Übersetzung der Antworten in andere Sprachen.)




Was beschreibt das Problem der 'Scheingenauigkeit' (Overfitting) bei Testergebnissen? (Ein hoher Score täuscht Präzision vor, obwohl die KI nur darauf trainiert wurde, genau diesen spezifischen Test zu bestehen.) (!Die KI rechnet mit zu vielen Nachkommastellen.) (!Die Testergebnisse werden absichtlich gefälscht.) (!Das System zeigt Prozentwerte an, die mathematisch unmöglich sind.)




Welche Grenze von Evals wird am Ende des Videos betont? (Evals können menschliches Urteilsvermögen in sensiblen Bereichen und ethische Zielkonflikte nicht ersetzen.) (!Evals sind zu teuer, um sie regelmäßig durchzuführen.) (!Evals funktionieren nur bei englischsprachigen Modellen.) (!Evals machen die KI-Modelle langsamer im Betrieb.)





Offene Aufgaben

Leicht

  1. Labor vs. Realität: Erkläre mit eigenen Worten, warum eine KI im Alltag oft schlechter abschneidet als in einer vorbereiteten Werbe-Demo.
  2. Tippfehler-Test: Schreibe einen kurzen Text mit drei absichtlichen Tippfehlern und teste, ob eine dir bekannte KI den Sinn trotzdem versteht.
  3. Das Brücken-Beispiel: Beschreibe, warum das Testen einer KI mit dem Belastungstest einer Brücke verglichen werden kann.
  4. Suchaufgabe Koch-App: Überlege dir zwei Fragen an eine Koch-App, die als 'Grenzfälle' (Edge Cases) gelten könnten.

Standard

  1. Sicherheit vs. Nutzen: Erstelle eine Tabelle, in der du die Vor- und Nachteile von sehr strengen Sicherheitsregeln (Guardrails) bei einer KI gegenüberstellst.
  2. Halluzinationen erkennen: Finde ein Beispiel für eine plausibel klingende, aber frei erfundene Behauptung einer KI (Halluzination) und erkläre, wie man sie entlarven kann.
  3. Regel- vs. Modell-Grader: Vergleiche schriftlich die Vor- und Nachteile von regelbasierten und modellbasierten Bewertungssystemen.
  4. Fehler-Kategorien: Teile folgende Fehler einer KI in Kategorien ein: Formatfehler, Faktenfehler, Sicherheitsrisiko.

Schwer

  1. KI-Agenten analysieren: Skizziere den Ablauf eines KI-Agenten (z. B. bei einer Flugbuchung) und markiere die Stellen, an denen ein 'Trace' bei der Fehlersuche hilft.
  2. Das Overfitting-Dilemma: Erkläre das Phänomen des 'Overfittings' und entwerfe eine Strategie, wie Entwickler verhindern können, dass eine KI nur für den Test lernt.
  3. Ethische Zielkonflikte: Diskutiere in einem kurzen Aufsatz, wer festlegen sollte, welche Fehler eine KI machen darf und welche absolut tabu sind.
  4. Eigene Eval entwerfen: Entwirf ein einfaches Testverfahren (3 Testfälle) für eine Hausaufgaben-Hilfe-KI, um deren Zuverlässigkeit in Mathe zu prüfen.



<inputbox>

type=create break=no preload=CHAT GPT TEXT HIER EINFÜGEN default= width=30 placeholder= Dein MOOC Titel buttonlabel=MOOC erstellen </inputbox>


Text bearbeiten Bild einfügen Video einbetten Interaktive Aufgaben erstellen




aiMOOC-Projekte






Schulfach+

Prüfungsliteratur 2026
Bundesland Bücher Kurzbeschreibung
Baden-Württemberg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Mittlere Reife

  1. Der Markisenmann - Jan Weiler oder Als die Welt uns gehörte - Liz Kessler
  2. Ein Schatten wie ein Leopard - Myron Levoy oder Pampa Blues - Rolf Lappert

Abitur Dorfrichter-Komödie über Wahrheit/Schuld; Roman über einen Ort und deutsche Geschichte. Mittlere Reife Wahllektüren (Roadtrip-Vater-Sohn / Jugendroman im NS-Kontext / Coming-of-age / Provinzroman).

Bayern

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Lustspiel über Machtmissbrauch und Recht; Roman als Zeitschnitt deutscher Geschichte an einem Haus/Grundstück.

Berlin/Brandenburg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Der Biberpelz - Gerhart Hauptmann
  4. Heimsuchung - Jenny Erpenbeck

Abitur Gerichtskomödie; soziales Drama um Ausbeutung/Armut; Komödie/Satire um Diebstahl und Obrigkeit; Roman über Erinnerungsräume und Umbrüche.

Bremen

Abitur

  1. Nach Mitternacht - Irmgard Keun
  2. Mario und der Zauberer - Thomas Mann
  3. Emilia Galotti - Gotthold Ephraim Lessing oder Miss Sara Sampson - Gotthold Ephraim Lessing

Abitur Roman in der NS-Zeit (Alltag, Anpassung, Angst); Novelle über Verführung/Massenpsychologie; bürgerliche Trauerspiele (Moral, Macht, Stand).

Hamburg

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Das kunstseidene Mädchen - Irmgard Keun

Abitur Justiz-/Machtkritik als Komödie; Großstadtroman der Weimarer Zeit (Rollenbilder, Aufstiegsträume, soziale Realität).

Hessen

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Heimsuchung - Jenny Erpenbeck
  4. Der Prozess - Franz Kafka

Abitur Gerichtskomödie; Fragmentdrama über Gewalt/Entmenschlichung; Erinnerungsroman über deutsche Brüche; moderner Roman über Schuld, Macht und Bürokratie.

Niedersachsen

Abitur

  1. Der zerbrochene Krug - Heinrich von Kleist
  2. Das kunstseidene Mädchen - Irmgard Keun
  3. Die Marquise von O. - Heinrich von Kleist
  4. Über das Marionettentheater - Heinrich von Kleist

Abitur Schwerpunkt auf Drama/Roman sowie Kleist-Prosatext und Essay (Ehre, Gewalt, Unschuld; Ästhetik/„Anmut“).

Nordrhein-Westfalen

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Komödie über Wahrheit und Autorität; Roman als literarische „Geschichtsschichtung“ an einem Ort.

Saarland

Abitur

  1. Heimsuchung - Jenny Erpenbeck
  2. Furor - Lutz Hübner und Sarah Nemitz
  3. Bahnwärter Thiel - Gerhart Hauptmann

Abitur Erinnerungsroman an einem Ort; zeitgenössisches Drama über Eskalation/Populismus; naturalistische Novelle (Pflicht/Überforderung/Abgrund).

Sachsen (berufliches Gymnasium)

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Woyzeck - Georg Büchner
  3. Irrungen, Wirrungen - Theodor Fontane
  4. Der gute Mensch von Sezuan - Bertolt Brecht
  5. Heimsuchung - Jenny Erpenbeck
  6. Der Trafikant - Robert Seethaler

Abitur Mischung aus Klassiker-Drama, sozialem Drama, realistischem Roman, epischem Theater und Gegenwarts-/Erinnerungsroman; zusätzlich Coming-of-age im historischen Kontext.

Sachsen-Anhalt

Abitur

  1. (keine fest benannte landesweite Pflichtlektüre veröffentlicht; Themenfelder)

Abitur Schwerpunktsetzung über Themenfelder (u. a. Literatur um 1900; Sprache in politisch-gesellschaftlichen Kontexten), ohne feste Einzeltitel.

Schleswig-Holstein

Abitur

  1. Der zerbrochne Krug - Heinrich von Kleist
  2. Heimsuchung - Jenny Erpenbeck

Abitur Recht/Gerechtigkeit und historische Tiefenschichten eines Ortes – umgesetzt über Drama und Gegenwartsroman.

Thüringen

Abitur

  1. (keine fest benannte landesweite Pflichtlektüre veröffentlicht; Orientierung am gemeinsamen Aufgabenpool)

Abitur In der Praxis häufig Orientierung am gemeinsamen Aufgabenpool; landesweite Einzeltitel je nach Vorgabe/Handreichung nicht einheitlich ausgewiesen.

Mecklenburg-Vorpommern

Abitur

  1. (Quelle aktuell technisch nicht abrufbar; Beteiligung am gemeinsamen Aufgabenpool bekannt)

Abitur Land beteiligt sich am länderübergreifenden Aufgabenpool; konkrete, veröffentlichte Einzeltitel konnten hier nicht ausgelesen werden.

Rheinland-Pfalz

Abitur

  1. (keine landesweit einheitliche Pflichtlektüre; schulische Auswahl)

Abitur Keine landesweite Einheitsliste; Auswahl kann schul-/kursbezogen erfolgen.




aiMOOCs



aiMOOC Projekte












THE MONKEY DANCE



{{#ev:youtube | https://youtu.be/rFhZlg38Zf8?si=9KdMNZYRkRD81YTo%7C 500 | center}}

The Monkey DanceaiMOOCs

  1. Trust Me It's True: #Verschwörungstheorie #FakeNews
  2. Gregor Samsa Is You: #Kafka #Verwandlung
  3. Who Owns Who: #Musk #Geld
  4. Lump: #Trump #Manipulation
  5. Filth Like You: #Konsum #Heuchelei
  6. Your Poverty Pisses Me Off: #SozialeUngerechtigkeit #Musk
  7. Hello I'm Pump: #Trump #Kapitalismus
  8. Monkey Dance Party: #Lebensfreude
  9. God Hates You Too: #Religionsfanatiker
  10. You You You: #Klimawandel #Klimaleugner
  11. Monkey Free: #Konformität #Macht #Kontrolle
  12. Pure Blood: #Rassismus
  13. Monkey World: #Chaos #Illusion #Manipulation
  14. Uh Uh Uh Poor You: #Kafka #BerichtAkademie #Doppelmoral
  15. The Monkey Dance Song: #Gesellschaftskritik
  16. Will You Be Mine: #Love
  17. Arbeitsheft
  18. And Thanks for Your Meat: #AntiFactoryFarming #AnimalRights #MeatIndustry


© The Monkey Dance on Spotify, YouTube, Amazon, MOOCit, Deezer, ...

{{#ev:youtube | https://youtu.be/Ob7etf9QuBo?si=t_NBA71bWg3Rq3LI%7C 500 | center}}



Text bearbeiten Bild einfügen Video einbetten Interaktive Aufgaben erstellen

<inputbox>

type=create break=no preload=MOOCit Vorlage default= width=30 placeholder= Dein MOOC Titel buttonlabel=MOOC erstellen </inputbox>