2. Beobachtete und erwartete Häufigkeiten

Wir können zur besseren Übersicht in die ermittelten Häufigkeiten auch als Prozentwerte darstellen und erhalten die folgende Kreuztabelle (%-Werte in Klammern):

katholisch nicht katholisch Summe
CVP a 16 (32%) b 6 (12%) 22 (44%)
andere c 13 (26%) d 15 (30%) 28 (56%)
Summe 29 (58%) 21 (42%) 50 (100%)

rozentzahlen erleichtern zwar die Interpretation von Kreuztabellen; wie das obige Beispiel zeigt, erlauben Prozentzahlen jedoch oft keine eindeutige Aussagen über mögliche Zusammenhänge: 32% der Befragten sind katholische und nur 12% nicht katholische CVP-Wähler. Aber von den 42% nicht katholischen Befragten wählen immerhin 6 ebenfalls die CVP. Je stärker die Zellen in der Diagonalen (von links oben nach rechts unten) belegt sind, umso eher würden wir einen Zusammenhang zwischen katholischer Konfession und Wahl der CVP vermuten... Um eine präzise Aussage zu machen, ist jedoch eine Teststatistik nötig - Chi-Quadrat ist eine solche.

Wie vorher schon betont wird bei der Berechnung Chi-Quadrat auf Unterschiede zwischen beobachteten Häufigkeiten (ƒo) und erwarteten Häufigkeiten (ƒe) abgestellt. Die obige Kreuztabelle enthält die durch die Befragung einer Stichprobe von Personen beobachteten (erfragten) Häufigkeiten. Es stellt sich nun die Frage, welche Häufigkeiten wir in den Zellen der Kreuztabellen erwarten würden, wenn die beobachteten Werte nicht bekannt wären, sondern lediglich die Zeilensummen und Spaltensummen. Beide kann man wahrscheinlichkeitstheoretisch interpretieren:

  • Von den 50 Fällen liegen 44% in der ersten Zeilen und 58% in der ersten Spalte.
  • Die Wahrscheinlichkeit eines Falles, in der ersten Zeile zu liegen zu kommen (also einen CVP-Wähler zu repräsentieren), ist somit p=0.44.
  • Die Wahrscheinlichkeit eines Falles, in der ersten Spalte zu liegen zu kommen (also einen katholischen Wähler zu repräsentieren), ist also p=0.58.
  • Die Wahrscheinlichkeit eines Falles, im ersten Feld der Häufigkeitstabelle oben links (Feld a) zu liegen zu kommen, ist das Produkt aus den beiden: pa= 0.44*0.58=0.2552.
  • Dies multiplizieren wir mit der Gesamtzahl der Fälle N (hier 50) und erhalten die erwartete Häufigkeit 12.76.

Eine einfachere Variante für die Berechnung der erwarteten Häufigkeiten ist diese:
Spaltensumme * Zeilensumme / N

Nun können die erwarteten Häufigkeiten (in Klammern) in die Häufigkeitstabelle eingetragen werden:

katholisch nicht-katholisch Summe
CVP-Wähler 16 (12.76) 6 (9.24) 22
andere 13 (16.24) 15 (11.76) 28
Summe 29 21 50