Böse Statistik

Diagnostische Unsicherheit, Messunsicherheit

Automatisierung, ultrapräzise Laborgeräte wie Pipetten, Waagen und Fotometer erleichtern nicht nur die Laborarbeit, sie generieren auch eine zum Teil erstaunliche Wiederholbarkeit bei Mehrfachbestimmungen. Bedauerlicherweise findet die Wiederholbarkeit von Analyseergebnissen oft keine würdige Entsprechung in der biologischen oder klinischen Relevanz der Ergebnisse.

Die Intention bestimmt nicht das Resultat:

  1. die Minimierung der Anzahl von in Tierversuchen eingesetzten Tiere,
  2. die Entwicklung von Ersatzmethoden zu Tierversuchen,
  3. „In silico pharmacology“, also der digitale Entwurf von Wirkstoffen und deren ebenfalls digital simulierte Wirksamkeit / Verträglichkeit

führen in der Schlussbetrachtung oft zu ganz erstaunlichen Ergebnissen von Ressourcenverschwendung. Ansatz gut, Dokumentation und ethischer Kontext perfekt, Ergebnis unbrauchbar.

  1. Das Minimierungsgebot und geringe zeitliche wie finanzielle Ressourcen führen bisweilen zu einer bedenklich geringen statistischen Power. Das signifikanteste Ergebnis erschöpft sich in seiner Einmaligkeit. Wiederholungen führen zu abweichenden, zum Teil gar konträren Resultaten. Eine fundierte Grundbildung in der Statistik sowie eine gründliche Versuchsplanung könnten Verschwendung mindern und (Tier)leben retten.
  2. Eine Maus ist kein Mensch und eine Zellkultur kein komplexer Organismus. Was als Vorversuch zum Ausschluss taugt, genügt nicht immer als Basis einer finalen Beurteilung.
  3. Eine garantiert sichere Methode zur Wirkstoffentwicklung für digitale Lebewesen kann an der Komplexität von Natur versagen. Die Grenzen des Wissens von den physiologischen Abläufen in realem Leben setzen die Grenzen der Anwendbarkeit digitaler Modelle.

Wie suffizient das ist, was gemessen und beschrieben wird, wird also durch das Vorwissen mitbestimmt. Vorwissen ist ein Teil dessen, was mit „Kompetenz“ beschrieben wird. Ein Qualitätsanspruch lässt sich demnach nur auf Kompetenz aufbauen. Normen oder Richtlinien mit Bezug auf forschende, entwickelnde Tätigkeit ohne diesen Anspruch auf Kompetenz und ohne Verbesserungskultur (und demnach auch die Akzeptanz der Existenz und Berücksichtigung von Fehlern) unterstützen eher Dogmatismus als die effiziente Schaffung von Wissen und Urteil.

Beispiel 1:

Die obige Grafik entstand im Rahmen eines Vortrages zur Trächtigkeitsdiagnostik bei Stuten. Östronsulfat [E1S] (angl. Estronsulfate) ist ein im Zuge der Trächtigkeitsdiagnostik gerne und intensiv genutzter Parameter. Auch immer gerne eingesetzt werden holzschnittartige „Schwellenwerte“. Diurnale Rhythmik, überlagert durch Fütterungszyklen und andere tierhaltungsbedingte Konditionen, ist bei einer Anzahl klinischer Parameter bekannt. Wenn eine Stute nach Trockenfutteraufnahme säuft, bricht die Serumkonzentration der Stute bis zu 20 % ein. Dehydriert trächtig und nach dem Saufen nicht mehr? Individuelle Faktoren wie Plazentation tragen zur Ausbildung sehr unterschiedlicher Serum-E1S-Konzentrationsprofile bei. Die Geburt eines gesunden Fohlens sollte als Beleg einer vollendeten Gravidität gelten können. Falsch gemessen? Nein.

Auch beim Menschen ist bekannt, dass die absoluten Konzentrationen von Stoffen im Urin zur Diagnostik von beschränkter Aussagekraft sind. Unter Kenntnis des „Verdünnungsfaktors“ (ermittelt durch Kreatinin) ergeben sich oft fundiertere Aussagen.

Im Stutenserum könnte Equilinsulfat so ein zusätzlicher Faktor sein und in der Tat ergeben sich unter Verwendung des zweiten Faktors hochpräszise diagnostische Aussagen unter Würdigung des jeweils einzelnen Hormons, deren Einzelverläufe hier nicht gezeigt sind.

Beispiel 2:

Was sagt der Messwert einer Proteinkonzentrationsbestimmung für sich genommen aus? Nichts. Ohne den metrologischen Kontext zu kennen, kann ein absoluter Messwert einer Proteinkonzentrationsbestimmung um Größenordnungen variieren – und alle Verfahrensschritte wurden korrekt durchgeführt. Legionen fragwürdiger Messergebnisse entstehen, weil die Nennung des eingesetzten Standards zum Beispiel unter Verwendung des Verfahrens nach Bradford fehlt. Im „Beipackzettel“ findet sich zuweilen eine stolze Auflistung von Proteinen, die „gemessen“ wurden. Pech, wenn als Kalibrationsstandard verwendetes BSA (Bovines Serumalbumin) zu einer im Durchschnitt doppelt erhöhten Absorption im Vergleich zu kaninem Immunglobulin G (IgG) geführt hat. Hydrophobe Membranproteine zeigen eine deutlich stärkere Farbreaktion. Reduktionsmittel wie Zucker können die Proteinbestimmung mittels Biuret-Verfahren unbrauchbar machen. Selbst die „reine“ Fotometrie als quantifizierendes Verfahren erscheint unbrauchbar. Das hochgelobte Nano-Drop-Gerät produziert die Messergebnisse, die seinen Nutzer verdienen. Bei gleicher Einwaage produzieren BSA und IgG aufgrund der unterschiedliche Gehalte an absorbierenden Aminosäuren (und deren Interaktion) unterschiedliche Konzentrationsmesswerte.

Eine Bewertung, eine Wiederholung wissenschaftlicher Forschungsergebnisse ist nur aufgrund ALLER Daten möglich, die die interessierenden Ergebnisse beeinflussen konnten. Sie müssen also dokumentiert / bekannt sein. Ohne ausreichende Kompetenz lassen sich Daten nicht beurteilen und Versuche nicht wiederholen. Technische und Personelle Kompetenz sind Schlüsselbegriffe.

Biologisch-quantitativ kann nur messen, wer Nachweisgrenze, Bestimmungsgrenze & Co ernst nimmt und sigmoide Verlaufskurven, glockenförmige Dosis-Wirkungsbeziehungen nicht für Hexensprech hält.

Auch beim Messen-Steuern-Regeln, in der Kommunikation zwischen Baugruppen, bei der Auslegung von Bauteilen treten elektronische Aspekte zu Tage, die den beschriebenen biologischen Phänomenen nicht nachstehen. Skin-Effekt bei elektrischer Leitung, kapazitive und induktive Effekte beim Platinendesign …. .

1 Gedanke zu “Böse Statistik

Kommentare sind geschlossen.