Wahrscheinlichkeit
(zuletzt geändert 07.09.2018)
Einige Überlegungen zur Wahrscheinlichkeit anhand konkreten Staunens
Zum Begriff: Unter Wahrscheinlichkeit versteht man im allgemeinen das Verhältnis von gesuchten Fällen und möglichen Fällen, beim Würfel also den Wurf einer „6“ als einen von 6 möglichen Fällen mit der Wahrscheinlichkeit von genau 1/6 oder rund 17%. (Wie genau dieser Wert bei einem Test mit einem realen Würfel eintritt, hängt von dessen Symmetrieeigenschaften und von der Zahl der Würfe (Statistik) ab.)
Manchmal staunt man im „wahren“ Leben über Zufälle, die „zu oft“ eintreten. Das heißt im Umkehrschluss, dass man eine falsche Vorstellung von ihrer Wahrscheinlichkeit hatte.
Beispiel 1
Nehmen wir ein Beispiel aus meinem Leben: Die Häufigkeit von „Zwillingen“ in einer übermittelten TAN für eine Konto-Überweisung schien mir zu hoch.
Gehen wir also systematisch heran: Benennen wir als „echte“ Zwillinge solche, bei denen die gleichen Ziffern unmittelbar nebeneinander stehen. „Unechte“ sind dann die, bei denen zwei gleiche Ziffern „irgendwo“ in der Gesamtfolge auftreten. Übrigens: Beim Würfeln mit mehreren Würfeln gleichzeitig dürfen wir ja auch die Würfel räumlich umordnen, Pärchen, Drillinge usw. also „zusammenschieben“.
Hier sehen wir also schon, dass wir später verallgemeinern sollten, indem wir die Basis des Systems als Variable b bezeichnen und die gleichzeitige Gesamt-Anzahl der Objekte („Stellenzahl“) als s, die geforderte Anzahl bestimmter Objekte hingegen als m (m=2 für Zwilling zum Beispiel). W sei dann die Wahrscheinlichkeit als Wert zwischen 0 (unmöglich) und 1 (sicher).
Ein echter Zwilling in einer 6-stelligen Dezimalzahl kann dann durch logische Ausdrücke verbal so formuliert werden:
W = (erste gleich zweite) ODER (zweite gleich dritte) ODER (dritte gleich vierte) ODER (vierte gleich fünfte) ODER (fünfte gleich sechste)
Speziell im Dezimalsystem (b=10) liefe das darauf hinaus:
W = (1/10) ODER (1/10) ODER (1/10) ODER (1/10) ODER (1/10)
Würde man ODER als Addition verstehen, wäre das Ergebnis 5/10 = 50%. Aber man spürt schon, dass das bei einer 12-stelligen Zahl 110% ergäbe, was Unfug ist. Das ODER muss also in ein UND verwandelt werden, für das (gleichzeitig unabhängige Erfüllung!) durch Multiplikation quantifizierbar wäre. Das macht man mit der Regel von De Morgan, wie man sie aus der binären Logikschaltung kennt:
Mit dem Ersatz durch die komplementären Wahrscheinlichkeiten (als „Negation“) für alle vorkommenden Wahrscheinlichkeiten kehrt sich das ODER ins UND oder umgekehrt.
1-W = (erste ungleich zweite) UND (zweite ungleich dritte) UND (dritte ungleich vierte) UND (vierte ungleich fünfte) UND (fünfte ungleich sechste)
1-W = (1-1/10) UND (1-1/10) UND (1-1/10) UND (1-1/10) UND (1-1/10)
1-W = (1-1/10)5 = 59,05 %
W = 1- (1-1/10)5 = 40,95 %
Genau genommen ist das die Wahrscheinlichkeit für das Auftreten von MINDESTENS 2 benachbarten gleichen Ziffern. Die Drillinge und höhere Viellinge sind also auch schon dabei, denn wir haben sie bei der ersten Lösungs-Formulierung über das ODER nicht explizit ausgeschlossen.
Nun gibt es also zwei Möglichkeiten, die Überlegungen fortzusetzen:
– unechte Pärchen
– echte Drillinge und dann echte Mehrlinge
Fangen wir mit den echten Mehrlingen an und versuchen es nach den echten Drillingen dann allgemein:
Echte Drillinge
W = (erste gleich zweite gleich dritte) ODER (zweite gleich dritte gleich vierte) ODER (dritte gleich vierte gleich fünfte) ODER (vierte gleich fünfte gleich sechste)
Die Zahl der ODER hat sich um Eins verringert, die Zahl der „gleich“ jeweils um Eins erhöht.
Speziell im Dezimalsystem wäre das jetzt
W = (1/100) ODER (1/100) ODER (1/100) ODER (1/100)
1-W = (1-1/100)4 = 96,06 %
W = 3,94 %
Allgemein wäre die Formel also offenbar
W = 1- (1-1/(b^(m-1)))^(s-m+1)
Prüfen wir die leicht zu übersehende Zahl der 10 Sechslinge bei 1000000 sechsstelligen Dezimal-Zahlen:
W = 1 – (1-1/105)1 = 10-5 = 10/1000000
Die Probe ist tatsächlich aufgegangen! Wir gehen also davon aus, dass die Formel jetzt richtig ist.
Für ausschließlich „echte“ Pärchen ohne höhere Mehrlinge müssen wir nun nur von dem ermittelten Wert alle höheren Mehrlinge abziehen:
„Reine echte Pärchen“ = „echte Pärchen“ minus „echte Drillinge“ minus „echte Vierlinge“ minus „echte Fünflinge“ minus „echte Sechslinge“
W = 40,95% -3,94% – 0,30% – 0,02% – 0,00% = 36,69%
Hoppla, ist das richtig?
Wenn in den „echten Drillingen“ auch die „echten Vierlinge“ und höhere schon enthalten sind, so wie es bei den Pärchen auch entsprechend war, muss es genügen, allein die „unreinen echten Drillinge“ abzuziehen!
Dann ist das Ergebnis
W = 40,95& – 3,94% = 37,01%
Wie groß ist nun der Anteil der Pärchen an den tatsächlich übermittelten TANs?
Das kann man zählen oder mit einem kleinen Programmchen zählen lassen. Das Ergebnis bei
229 übermittelten TANs
war 125 reine und unreine „echte Pärchen“ und 10 reine und unreine „echte Drillinge“, was Anteilen von 54,6% und 4,4% entspricht, also mehr als in der Theorie ist!
Hier müsste man nun die Überlegung anfügen, ob das noch eine „normale“ statistische Abweichung für eine relativ kleine Stichprobe ist oder ob man schließen muss, dass die Bank anders als mit einem Zufallsgenerator vorgeht?
Doch hier wollen wir nun noch die Überlegungen anfügen, wie man nun die ungeordneten, also „unechten Pärchen“ berechnen würde.
W = (erste gleich zweite) ODER (erste gleich dritte) ODER (erste gleich vierte) ODER (erste gleich fünfte) oder (erste gleich sechste) ODER (zweite gleich dritte) ODER (zweite gleich vierte) ODER (zweite gleich fünfte) ODER (zweite gleich sechste) ODER (dritte gleich vierte) ODER (dritte gleich fünfte) ODER (dritte gleich sechste) ODER (vierte gleich fünfte) ODER (vierte gleich sechste) ODER (fünfte gleich sechste)
Das (diese Doppelschleife mit wanderndem Startwert) sieht sehr unbefriedigend aus. Ob man mit „ungleich“ (also der Negation) weiter kommt?
1-W = (erste ungleich zweite) UND (erste ungleich dritte) UND …
W = 1 – 0,9^(15) = 79,41%
oder allgemein
W = 1- (1-1/(b^(m-1)))^(s/2*(s-1))
Wie stimmt das mit der „Praxis“ meiner Bank überein?
Die hat mir 206/229 = 89,96 % geschickt!!
Da muss wieder eine Probe her, am besten mit „unsinnigen“ Werten, wie mit der Frage, welche Wahrscheinlichkeit ein unechtes Pärchen bei einer 11-stelligen Dezimalzahl hat. Hier MUSS wenigstens ein Pärchen dabei sein, weil es ja nur 10 verschiedene Ziffern gibt. Was sagt unser obiger Ansatz?
W = 1 – (1-1/(10^(1)))^(55) = 1-0,9^55 = 99,70 %
Das ist Unsinn (weil nicht gleich Eins), also ist unser obiger Ansatz schlicht falsch! Worin aber liegt der Fehler?
Geht man auf anderem Wege schrittweise vor, gelangt man zu folgender Gedankenkette für eine pärchenfreie Ziffernfolge:
– die erste Ziffer ist allein und beliebig, also hat sie die Wahrscheinlichkeit 10/10, kein Pärchen zu sein
– die zweite Ziffer darf alle anderen sein, also 9/10
– die dritte darf nur noch 8/10 sein
– usw. usf
Daraus ergibt sich eine Formel folgender Form:
1-W = Produkt((b-i+1)/b) für i von 1 bis s
oder (eingeschränkt für s <= b, da Fakultäten negativer Zahlen nicht definiert sind)
1-W = b!/(b^s*(b-s)!)
Ist s größer als b, ergibt sich für i=b+1 der Faktor 0 und das gesamte Produkt ist Null, die Wahrscheinlichkeit W für das unechte Pärchen also 1, was völlig logisch ist.
Nach dieser Formel ergibt sich für die sechsstellige Zahl dann ein Wert von
W = 1 – 10!/(10^6*4!) = 84,88%
Dieser Wert kommt dem „realen“ der Bank schon deutlich näher.
Eine Plausibilitätsprüfung ergibt sich für 10-stellige Zahlen, denn die Ziffernfolge von 0 bis 9 hat 10! Permutationen und muss auf 10^10 Zahlen bezogen werden, was 0,036% ergibt.
Nach obiger Formel, die genau in diese übergeht, erhält man komplementär natürlich auch 99,964%.
(Was wäre mit der dritten Denkmöglichkeit, dass man bei den unechten Pärchen einfach das ODER für eine Summation nutzt und sagt, jeder weitere Teilnehmer (hier Stelle der sechsstelligen Zahl) hat mit einer Wahrscheinlichkeit von 10% den gleichen Wert, also fünf weitere Stellen, und das wären 50%? Hier käme man auch bei 11 Stellen auf 100%, aber die mögliche Gleichheit der anderen untereinander wäre nicht gegeben, also eine Vertauschbarkeit der ersten betrachteten Ziffer. Der Gedanke könnte also nur für den Fall speziellen interessant sein, dass die erste Ziffer im unechten Pärchen enthalten sein muss.)
Ergibt sich nun die Frage, ob die „echten Pärchen“ und die „reinen echten Pärchen“ auch falsch berechnet worden sind?
Beispiel 2
Wie sind beim Würfeln (Kniffel) mit 5 Stück ein Doppelpaar, Full House oder Kleine Straße zu bewerten?
Diese zusammengesetzten Fälle zeigen die ganze Vielfalt der möglichen Fragestellungen.
Interessenten können natürlich im Netz zum Beispiel dort
http://www.brefeld.homepage.t-online.de/stochastik-formeln.html
fündig werden und mit eigenen Rechnungen (zuerst diese machen, denn selber denken macht schlau!!!!) kritisch vergleichen (Tipp: Auch im Netz findet man Fehler!!).
Dort würden für die unechten Pärchen (man darf die Würfel umgruppieren!) andere Werte als bei unserer obigen Überlegung erscheinen:
n=6 | Zwilling bei k Würfen | |
k | Brefeld | Adolphi |
2 | 16,67 | 16,67 |
3 | 41,67 | 44,44 |
4 | 55,56 | 72,22 |
5 | 46,30 | 90,74 |
6 | 23,15 | 98,46 |
7 | 5,40 | 100,00 |
Die Autoren haben offenbar unterschiedliche, aber nicht explizit genannte Vorstellungen vom Geschehen. Wer löst das auf?
Kann es daran liegen, dass Brefeld „genau ein Pärchen“ haben will und ich „mindestens ein Pärchen“ im Sinne von „nicht alle verschieden“? Will man „genau ein Pärchen“, dann darf da kein zweites Pärchen sein, kein Drilling, kein Pasch, kein Vierling usw, deren Wahrscheinlichkeit offenbar auch auf Kosten von „genau ein Pärchen“ steigt.
Und so ist es wirklich, denn es ergibt sich für die 6^5=7776 Wurf-Möglichkeiten:
(„genau“ heißt, dass ohne höherwertige Zufälle , wie z.B. Drillinge ja Zwillinge enthalten, gezählt wird, und „echt“ heißt, dass sie nach- oder nebeneinander gewürfelt worden sind, oder bei einer TAN direkt nebeneinander stehen)
„genau Zwilling“ = 46,2963 % (6 Ziffern für Zwilling mit 5*4*3/(2*3) möglichen falschen Zifferntripeln auf 5*4*3 verschiedenen Platztripeln = 3600 Fälle)
„echter Zwilling genau“ = 18,5185 % (6 Ziffern für Zwilling bei 4 möglichen Positionen und 5*4*3 Restverteilungen = 1440 Fälle)
„genau Drilling“ = 15,4321 % (6 Ziffern für Drilling mit 5*4/2 möglichen falschen Zifferpaaren auf 5*4 verschiedenen Platzpaaren = 1200 Fälle)
„echter Drilling genau“ = 4,6296 % (6 Ziffern für Drilling bei 3 möglichen Positionen und 5*4 Restverteilungen = 360 Fälle)
„genau Vierling“ = 1,9290 % (6 Ziffern für Vierling mit 5 möglichen falschen Ziffern auf 5 verschiedenen Plätzen = 150 Fälle)
„echter Vierling genau“ = 0,7716 % (6 Ziffern für Vierling bei 2 möglichen Positionen und 5 Restverteilungen = 60 Fälle)
„genau Fünfling“ = 0,0772 % (6 Ziffern für Fünflinge = 6 Fälle)
„genau 2 Zwillinge“ = 23,1481 % (6 Ziffern für ersten Zwilling mit 5 Ziffern für zweiten Zwilling mit 4 möglichen falschen Ziffern auf 5 verschiedenen Plätzen und (3+2+1)/2 = 3 Doppel-Paar-Anordnungen (auf 4 Plätzen des Doppelzwillings) = 1800 Fälle)
„genau zwei echte Zwillinge“ = 4,6296 % (6 Ziffern für Zwilling und 5 Ziffern für zweiten Zwilling bei 3 möglichen Positionen von 4 falschen Ziffern = 360 Fälle)
„genau Drilling plus Zwilling = 3,8580 % (6 Ziffern für Drilling mit 5 Ziffern für Zwilling und 4+3+2+1=10 Paar-Anordnungen (auf allen 5 Plätzen) = 300 Fälle)
„genau echter Drilling plus echter Zwilling“ = 0,7716 % (6 Ziffern für Drilling und 5 Ziffern für Zwilling und 2 Anordnungen = 60 Fälle)
Das ergibt für die unechten zusammen 90,7407 % und stimmt damit sowohl mit der Tabelle oben für die „unechten Pärchen“ unter „Adolphi“ überein als auch mit dem Komplement des Falls von 5 unterschiedlichen Augenzahlen:
„alle unterschiedlich“ = 9,2593 % (6 Ziffern mit 5 zweiten, 4 dritten, 3 vierten und 2 fünften = 720 Fälle)
Auch weitere Späße lassen sich ausrechnen wie zum Beispiel die
„Große Straße“ = 3,0864 % (2 Varianten von 5 Ziffern mit 4 zweiten, 3 dritten, 2 vierten, 1 fünfte = 240 Fälle)
Also:
Solche Denkfehler wie oben sind von hohem Nutzen für das schrittweise Verstehen eines Problems und deshalb hier „live“ dokumentiert.
Habe mir ein kleines VBA-Programm geschrieben, das die oben berechneten Werte nach-„gezählt“ hat. Sie stimmen alle.
Beispiel 3
Deshalb gleich noch eine Aufgabe:
Was ist die logische Negation von
„Alle Mitglieder sind weiblich“?
Falsch wäre die Antwort „alle Mitglieder sind männlich“, weil es erstens gemischte Gruppen geben kann und es zweitens noch weitere Geschlechter gibt. Auch „alle Mitglieder sind nicht weiblich“ wäre falsch, weil die Mengen-Aussage (Logik!) über die Objekte („Objekte“ im Sinne der Wahrscheinlichkeit sind hier NICHT die Gruppenmitglieder, sondern alle denkbaren Gruppen-Zusammensetzungen!!) im Wörtchen „alle“ steckt und nicht in der Eigenschaft der einzelnen Mitglieder der Objekte. Richtige Antwort lautet deshalb
„nicht alle Mitglieder sind weiblich“.
Nur so ergibt die Summe beider die Anzahl der Gesamtmöglichkeiten einer Gruppenzusammensetzung und damit die Wahrscheinlichkeit 1. Der bei diesem Beispiel naheliegende Denkfehler besteht in der Setzung eines Gegensatzes zwischen den auf die Anzahl zwei beschränkten Werten einer Nominalskala („männlich“, „weiblich“) und der damit entstandenen Schein-Ähnlichkeit mit den Gegensätzen „wahr“ und „falsch“ der binären Logik. Schon allein die Einführung eines dritten Geschlechts lässt den Fehler offensichtlich werden.
Merke:
Bei der logischen Negation von Teil-Mengen einer Gesamt-Menge muss tatsächlich die komplementäre Teil-Menge zum Ganzen erfasst werden, sonst ist der Ansatz falsch.
Beispiel 4
Wie pflanzen sich „Fehlerwahrscheinlichkeiten“ in Wirkungsketten fort, insbesondere in verzweigten? Beispiel aus der Logistik oder Fertigungsqualität:
Ein Werkstück wird erst von A bearbeitet und dann von B oder C weiter bearbeitet. A macht WA=6% Fehler und gibt TB=40% der Werkstücke an B weiter (B macht WB=4% Fehler) und also TC=1-TB=60% an C (WC=6% Fehler). B und C wissen nichts von den Fehlern von A, da die Qualitätskontrolle erst anschließend stattfindet. Wie hoch ist der Anteil 1-WQ der fehlerfreien Werkstücke in Q? (Das könnte auch ein Eier-Transport in den Laden durch A und ein Einsortieren ins Regal durch zwei Mitarbeiter B und C sein und die Prüfung durch den Kunden Q…)
Man ahnt schon, dass die komplementären Werte der Fehler, also die der Fehlerfreiheit interessant sind.
Zuerst ist klar, dass die Werte der Fehlerfreiheit in der verzweigungsfreien Kette multipliziert werden müssten, da erst so eine UND-Verknüpfung hergestellt werden kann:
1-WQ = (1-WA)*(1-f(WB,WC))
Wie aber verknüpft man die Werte von WB und WC? Man müsste eine gewichtete ODER-Funktion haben. Im Sinne eines gewichteten arithmetischen Mittels wäre das
f(WB,WC) = (TB*WB + TC*WC)/(TB + TC) = (TB*WB + TC*WC)
(TB + TC muss 1 sein)
In unserem Zahlen-Beispiel-Falle wären das
1-WQ = 0,94*(1-(1,6%+3,6%)) = 0,94*0,948 = 0,891 = 89,1%
fehlerfreie Werkstücke.
Interessant wäre hier natürlich die Korrelation zwischen Arbeitstempo und Fehlerquote in B und C!
Interessant ist auch, dass das gleiche Ergebnis erzielt werden würde, wenn man nach A die fehlerhaften Stücke durch eine Zusatzkontrolle Q1 aussortieren würde. Auf den Anteil von 94% Gut nach A würde der Anteil von 94,8% Gut durch (B,C) geschlagen werden, was mathematisch identisch ist. Es ist aber technologisch nicht identisch, denn erstens müsste eine weitere Qualitätskontrolle eingeführt werden(Zusatzaufwand) und zweitens hätten B und C weniger zu tun (Minderaufwand). Hier müsste man also abwägen, welcher Effekt stärker auf die Kosten wirkt. Man merkt schon, dass es da ein Unterschied sein kann, ob A, B, C und Q (und Q1) vier (oder 5) bezahlte (ganze) Menschen an Maschinen oder aber nur vier (oder 5) kalkulierte (anteilig genutzte) Automaten sind.
FAZIT
Auch das Gebiet der Wahrscheinlichkeit und Statistik ist „nach oben offen“, wenn es die komplexen Fälle der Praxis theoretisch richtig beschreiben soll (bis hin zur Spiel-Theorie…).
Kommentar abgeben