Massenhaft Betrug mit gezinkten Würfeln

Generationen von Menschen zeigten sich geneigt, ihr Glück im Spiel zu befördern – durch Wissen, oder besonderes „Geschick“. Einfache Spielwürfel liegen vielen Spielen bei oder sind in Spielwarengeschäften zu erwerben. Wie steht es mit der Qualität dieser Würfel?

Gefärbte Vertiefungen geben die erreichte Augenzahl auf einigen Würfeltypen wieder. Die „6“ zeigt 6 Vertiefungen. Die „1“ zeigt 1 Vertiefung. Da Vertiefungen einen Materialabtrag bedeuten, liegt die Folgerung nahe, die Seite mit den 6 Vertiefungen wäre leichter als die gegenüberliegende Seite mit der einen Vertiefung, denn diese eine erscheint nicht wesentlich ausgeprägter als jeweils eine Vertiefung der Seite mit den 6 Vertiefungen. Somit sollte die Seite mit 1 Vertiefung schwerer sein als die Seite mit 6 Vertiefungen und damit vermehrt die Unterseite eines geworfenen Würfels bilden.

Diese Hypothese ist durch Versuch zu widerlegen. Beim Würfeln mit 2 Würfeln beeinflusst das erzielte Ergebnis des einen Würfels nicht das Ergebnis des anderen Würfels (stochastische Unabhängigkeit). Die Ereignisräume der beiden Würfel überlagern sich nicht und die Wahrscheinlichkeit, mit der ein Paschergebnis mit 1 oder 6 lässt sich leicht ablesen.

Die Summe der Augenzahlen zweier sechsflächigen Würfel kann nur zwischen 2 und 12 liegen. Die verschiedenen Augensummen ergeben sich durch unterschiedliche Möglichkeiten von Augenzahlkombinationen. Eine Augensumme von 2 ergibt sich jedoch nur durch die Kombination zweier „1“ (Einerpasch). Eine Augensumme von 12 ergibt sich ausschließlich durch die Kombination zweier „6“ (Sechserpasch).

Die Wahrscheinlichkeiten für das Auftreten der jeweiligen Augensumme variieren.

Beim Auftrag der Wahrscheinlichkeiten gegen die Augensummen beim Zweiwürfelmodell ergibt sich eine Dreiecksverteilung.

In einem Versuchsaufbau mit 8 Gruppen, die jeweils 200 Würfe mit 2 Würfeln darstellen, ergibt sich das folgende Bild:

Die statistische Bewertung der Ergebnisse kann als Vergleich von Häufigkeitsverteilung mittels χ²-Anpassungstest erfolgen, da Verteilungsbefund von Häufigkeiten mit einer zu berechnenden Erwartung verglichen wird. Die Spalte P zeigt die Wahrscheinlichkeiten für die jeweils 200 Würfe. Es ergibt sich damit eine Häufigkeitserwartung für 200 Würfe, wie sie die Spalte Einzelerw. darstellt.

Unter der Annahme, die Ergebnisse von Durchgang „E“ seien das Ergebnis des Versuchs, ergibt sich:

Mit 11 Merkmalsklassen ergeben sich 10 Freiheitsgrade. Ein Blick in die Tabelle zeigt einen Referenzwert von 23,21 für χ² bei einem Irrtumsrisiko von 1%. Der berechnete Werte für den vorliegenden Befund beträgt 25,72. Die gefundene Verteilung unterscheidet sich somit hoch signifikant von der Erwartung.

Unter Berücksichtigung des 8fachen Stichprobenumfangs ergibt sich:

Die Power des Tests wurde erweitert, der Test jedoch nicht verändert. In der Auswertung entfällt die statistische Signifikanz. Nach klassischer Lesart genügt es für Multinomialverteilungen, wenn die Erwartungen ein Minimum von 5 überschreiten. Dies war in Versuchsgruppe E der Fall.

Soll ausschließlich der auffällige Befund von Versuchsgruppe E für die Sechserpasch untersucht werden, kann ebenfalls das Verfahren nach dem „altdeutschen“ t-Test verwendet werden. Mit einem p = 1/36 für das Auftreten des Pasch und ein q = 35/36 für alle anderen Ereignistypen ergibt sich. Mit dem Befund von 15 Pasch bei einer Erwartung von 5,55 Pasch die Notwendigkeit eine Standardabweichung zu ermitteln damit nach folgender Gleichung gerechnet werden kann:

Die Standardabweichung und der t-Wert errechnen sich zu:

Dieser t-Wert entspricht laut Tabelle http://biotechberatung.de/?page_id=26 einer Wahrscheinlichkeit von weniger als 0,1%. Rein Zufällig kommen solche Abweichungen demnach sehr selten vor. Man spricht von einer sehr hoch signifikanten Abweichung. Hier nicht weiter dargestellt ergibt sich mit den Daten der Gesamtstichprobe von 1600 Würfen keine statistische Auffälligkeit. In 10 Jahren Unterrichtstätigkeit mit mehr als 100 Wiederholungen des dargestellten Versuchs ergaben sich bisher noch nie derartig große Abweichungen.

Was wäre, wenn es sich um einen biologischen Versuchsaufbau gehandelt hätte? Was wäre, wenn es Versuchsergebnisse wären, die erst im Nachhinein zu „Ergebnissen“ erhoben werden müssten, weil die Stelle ausläuft, die Promotionszeit zu Ende geht, weil aus Gründen des Tierschutzes oder der verfügbaren Geldmittel nur kleine Versuchszahlen möglich sind. Wäre das Ergebnis der Gruppe E das einzige Ergebnis, läge eine Behauptung entsprechend der gewählten Überschrift im Rahmen des Möglichen. Ein weiteres falsches Ergebnis auf das weitere Forschung aufbauen sollte? Regression zur Mitte?

  • Kein Versuch ohne vorherige statische Versuchsplanung.
  • Wo immer Bestätigungsversuche theoretisch machbar sind, müssen diese auch durchgeführt werden.
  • Die novellierte DIN 17025 aus 2017 fordert zu Recht die Abschätzung des Risikos  der Fehler beider Arten (α-Fehler und ß-Fehler). Weniger ist auch in Forschung & Entwicklung nicht zu fordern.
  • Statistische Bewertungen sind nur dort vorzunehmen, wo sie geplant und sinnvoll sind. Posthoc-Statistik ist unprofessionell und zu oft falsch.