Sitzung 5 & 6: Das Instrumenten-Labor

Operationalisierung, Auswertungsstrategie & Qualitäts-Checks

Labor-Audit

System-Diagnose & Missions-Check

Wähle deine Crew-Einheit aus. Das System lädt deine spezifischen Anforderungen basierend auf dem letzten Dossier.

Blueprint: Operationalisierung

Die Anatomie der Messung

Vom abstrakten Gedanken zur klaren Messung: Wir konstruieren die Brücke zwischen Theorie und Empirie.

1. Der Destillations-Prozess

Theoretisches Konzept
Vage Idee
Messvorschrift
Empirischer Indikator
Messwert

2. Konstrukt-Explosionszeichnung

KI-Glaubwürdigkeit
Richtigkeit
Fairness
Transparenz
"Die Info stimmt"
"KI ist neutral"
"Quellen sind klar"
Konstrukt Dimensionen Indikatoren

3. Qualitäts-Check: Validität & Reliabilität

Status: Scan läuft...

Wähle einen Testmodus für die Messgenauigkeit.

Logik-Schnittstelle

The Statistical Power-Grid

Euer Skalenniveau bestimmt die mathematische Reichweite eurer Forschung. Ein Fehler hier limitiert die gesamte Auswertung.

Pragmatik-Modus: Quasi-Metrisch
Statistische Berechtigungen
Modus
ERLAUBT
Median
ERLAUBT
Mittelwert
ERLAUBT
σ
Std.-Abw.
ERLAUBT
Beispiel: Operationalisierung von "KI-Erfahrung"
Metrisch

"Wie viele Stunden pro Woche nutzen Sie ChatGPT?"
[____] Stunden

Strategie-Check für G1, G2, G3

Eure Hypothesen verlangen nach Gruppenvergleichen. Nutzt Likert-Skalen (1-5/7), um im Pragmatik-Modus Mittelwerte berechnen zu können!

Strategie-Check für G4

Artefakte sind oft nominal (kommt vor / nicht vor). Eure Power liegt im Vergleich von Häufigkeiten (Prozenten) zwischen den Kategorien.

Variablen-Synthese

Das Index-Rezeptbuch

Einzelne Indikatoren sind fehleranfällig. Erst durch die Verrechnung zu einem Index entsteht ein stabiles Messmodell.

⚖️

Rezept 1: Mittelwert-Index

Ideal für Likert-Skalen (1-5/7)
4
3
2
(I1 + I2 + I3) / 3
3.00 Indexwert
🧪

Rezept 2: Summen-Index

Ideal für Inhaltsanalysen (0/1)
0

Dokumentations-Pflicht

Jeder Index muss in eurem Dossier mit diesen vier Parametern definiert werden:

1Name (z.B. Cred_Index)
2Variablen (z.B. q1_1, q1_2)
3Operation (z.B. Mean)
4Missings (Umgang mit Fehlwerten)
Präzisions-Werkstatt

The Survey & Stimulus Forge

Ein Messinstrument ist nur so gut wie seine schwächste Frage. Hier operieren wir am "offenen Item" und konfigurieren das Treatment.

Item-Chirurgie: Fehler-Diagnose

Klicke auf den logischen Defekt im Item, um die Operation zu starten.

"Ich finde die KI-Antwort sicher und zuverlässig."

G1 Control: Disclaimer Timing

Disclaimer
Podcast Clip (2 Min)
Primacy-Effekt: Der Hinweis erfolgt SOFORT. Die Erwartungshaltung ist maximal manipuliert.

G3 Control: Treatment-Logik & Sichtbarkeit

KI-GENERIERT
📸 BILD-STIMULUS

Wähle einen Modus, um die Stärke der Manipulation zu kalibrieren.

Qualitäts-Gate: Der Manipulation Check

Euer Experiment ist wertlos, wenn das Treatment nicht bemerkt wurde. Integriert zwingend diese Frage am Ende:

"Wer hat den soeben gehörten/gesehenen Inhalt erstellt?"
  • [ ] Ein Mensch
  • [ ] Eine Künstliche Intelligenz
  • [ ] Ich weiß es nicht
Tipp: Probanden, die hier falsch antworten, müssen später aus dem Datensatz "gefiltert" werden.
Linguistisches Mikroskop

The Content Analysis Lab

Inhaltsanalyse ist keine Interpretation, sondern standardisierte Messung. Wir kalibrieren den Blick auf das Manifeste.

1. Objektivitäts-Check: Die "Interpretations-Falle"

Klicke auf eine Linse, um den Prompt zu analysieren.

"Hey, kannst du mir das mal kurz erklären? Wäre echt nett von dir!"

2. Analyseeinheiten

Definiere den Kontext für G4: Was genau wird codiert?

"Hey, kannst du mir das mal erklären?"
"Wäre echt nett von dir!"
🤖 [KI-ANTWORT]: "Klar, gerne..."
Einzelsatz Gesamter Prompt Interaktions-Turn
Gewählte Einheit: Gesamter Prompt. Ideal für Höflichkeits-Marker.
Beispiel-Bauplan (stark vereinfacht) 🏗️: Die Kategorie-Definition
Lexikalische Höflichkeit
Vorkommen von expliziten Höflichkeitsformeln oder Partikeln.
"Bitte", "Danke", "Schönen Guten Tag", "Sehr erfreut".
Codierung = 1, wenn mind. ein Wort aus Liste X vorkommt.
Ergebnis-Vorschau

Der Endgame-Simulator (Ghost Tables)

Designt eure Daten bevor ihr sie erhebt. Wer seine Tabelle heute bauen kann, versteht seine Forschung von morgen.

Tabellen-Konstrukteur

Wähle Deine Gruppe, um das Datenmodell zu laden.

  • Keine vertikalen Linien
  • 2 Nachkommastellen (Punkt)
  • Einheiten in Kopfzeile (%)
Wähle einen Tabellentyp...
Daten-Hygiene

The Data Cleaning Protocol

Rohdaten sind oft "dreckig". Bevor wir analysieren, müssen wir Speeder, Straight-Liner und unvollständige Fälle in Quarantäne schicken.

PROBAND_ID: #0815
BEREIT FÜR SCAN
Bearbeitungszeit: 45 Sek.
Antwortmuster:
Invertiertes Item: 3
Exklusions-Protokoll (N-Counter)
Brutto (N) 6
Exkludiert (n) 0
Netto (N) 0
Warte auf Reinigungslauf...
Umgang mit Fehlwerten (Missing Values)
Listenweiser Ausschluss

Der gesamte Fall wird gelöscht, wenn ein Wert fehlt. Sicherster Weg für kleine Projekte.

Paarweiser Ausschluss

Der Fall bleibt im Datensatz und wird nur bei den Analysen ignoriert, für die Daten fehlen.

Qualitäts-Audit

The Manipulation Check Scanner

Ein Experiment scheitert nicht an den Daten, sondern an der Unachtsamkeit der Probanden. Wer das Treatment nicht bemerkt, darf nicht in die Wertung.

👁️
Warte auf Datensatz...
Tatsächlicher Reiz (UV): KI-GENERIERTER CLIP
Recall des Probanden:

Check-Strategien

Recall-Check (Empfohlen)
"Welchen Hinweis haben Sie gesehen?"
Misst die Aufmerksamkeit, ohne das Ziel der Studie zu verraten.
Subjektiver Check
"Wie künstlich wirkte der Inhalt?"
Prüft die Stärke des Reizes. Gut für G1 (Stimm-Manipulation).

Das Sichtbarkeits-Dilemma

Ökologische Validität
(Realismus)
Experimentelle Kontrolle
(Sicherheit)
M-Check Fail Rate: 25%
Reaktanz-Gefahr: Mittel
Objektivitäts-Abgleich

Das ICR-Protokoll (Inter-Coder-Reliabilität)

Ein Codebuch ist kein Tagebuch. Wir testen, ob zwei unabhängige Beobachter die Realität durch eure Kategorien identisch wahrnehmen.

1. Der Synchronisations-Check

Codieren beide das Gleiche? (Fokus: G4 Politeness)

"Könntest du mir eventuell bei diesem Code helfen?"
CODER_ALPHA
HÖFLICH
CODER_BETA
NEUTRAL
OUT OF SYNC
κ < 0.70

2. Die Interpretations-Falle

Wie viel "Gedankenlesen" erlaubt eure Kategorie?

Manifest
(Worte zählen)
Interpretativ
(Absicht raten)
Erwartete Reliabilität: 42%
KRITISCH: Wissenschaftlicher Zufallswert.
Reli-Sample Kalkulator (Die 10%-Regel)
Reli-Sample (Doppelcodierung):
50 Einheiten

Mindestens 10-20% eures Materials müssen von zwei Personen unabhängig codiert werden, um Cohen's Kappa zu berechnen. Noch besser wäre Krippendorffs Alpha (Das ist die Königsklasse)

Belastungstest

The Pretest-Blueprint

Bevor das Instrument ins Feld geht, muss es in den Windkanal. Wir testen Verständlichkeit, Technik und Logik an einer kleinen Testgruppe. Jetzt ist noch nicht der Pretest. Aber wir wollen ihn zumindest schon einmal im Blick halten.

👤
STÖRUNGSFREIE STRÖMUNG (OK)
Wählen Sie ein Belastungsszenario aus...

Pretest-Methoden

1 Lautes Denken

Probanden verbalisieren jeden Gedanken beim Ausfüllen. Deckt Verständnisfehler sofort auf.

2 Standard-Interview

Gezielte Nachbefragung: "Was war anstrengend?", "War das Label sichtbar?"

3 Technik-Audit

Geräte-Mix testen (iOS, Android, Desktop). Stimmen die Audio-Pegel?

Das "Fix-it" Logbuch

So dokumentiert ihr den Fortschritt im Dossier:

ProblemSchwereLösung
"Wording zu komplex"High"Vereinfacht"
"Audio zu leise"Easy"Normalisiert"
"Instruktion fehlt"Med"Ergänzt"
Rekrutierung: n = 5 bis 10
G1, G2, G3 (Befragte)

Varianz suchen! Fragt nicht nur Kommilitonen, sondern auch Eltern/Bekannte (wg. Alter/Technik-Skeptizismus).

G4 (Codierer)

Zwei Codierer testen das Codebuch an ~50+ "frischen" Einheiten. Ziel: ICR-Abgleich.

Finales Protokoll

Missions-Briefing: Meilenstein 05/06

In den nächsten 14 Tagen verschmelzen Operationalisierung und Auswertungsstrategie zu einem technischen Master-Dossier.

Woche 1 Konstruktion
Woche 2 Kalibrierung

Phase 1: Konstruktion (Woche 1)

Fokus auf Operationalisierung: Items formulieren, Codebuch schärfen, Stimuli finalisieren. Ziel nächste Woche: Informelle Präsentation eures Instruments für finales Feedback.

  • Ausgearbeites Instrument: Fragebogen oder fertiges Codebuch.
  • Stimulus-Material: Audio (G1), Screenshots (G2), Bilder (G3) oder Sampling-Script (G4).
  • Technik-Check: Fangt in der zweiten Woche schon mit euren SoSci Survey/Unipark Fragebögen an.

Präsentations-Modus

  • Nächste Woche: Informeller Status-Check (Instrumenten-Pitch) nur mit Präsentation.
  • Woche 2: Abgabe und Präsentation des Dossiers.
  • Hinweis: Aufgaben-Splitting ist möglich, wenn Verantwortlichkeiten klar getrennt sind.

Die Abgabe (Ein Dokument)

Umfang: ca. 8-12 Seiten (PDF) + Instrumenten-Anhang.

Präsentation: Jede Woche.

Deadline: 18.05.2026, Montag, 18:00 Uhr via ILIAS.

STATUS: PENDING