Die Methode der "Maximum Likelihood"
▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
Betrachten wir das Würfeln! Wie groß ist die Wahrscheinlichkeit,
daß wir bei einem Wurf eine 6 erhalten? Die Wahrscheinlichkeit,
daß bei dem einen Wurf eine von den sechs ganzen Zahlen 1 bis 6
auftritt, bezeichnen wir mit 1. Natürlich erwarten wir, daß jede
dieser Zahlen gleich wahrscheinlich ist. Daher werden wir die
Wahrscheinlichkeit Pz, daß bei einem Wurf eine bestimmte Zahl z
auftritt, mit Pz=1/6 angeben. Der Würfel liefert ganzzahlige
Werte z im Abstand δz=1. Tragen wir die Wahrscheinlichkeiten Pz
graphisch auf für z=1,..,6, so erhalten wir folgendes Bild:
│ Pz = 1/6 für z=1 bis 6 Wahrscheinlichkeiten,
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
1/6┼ █ █ █ █ █ █ ungleich Null an ab-
0─┼───┼───┼───┼───┼───┼───┼───┬── zählbar vielen Stellen
1 2 3 4 5 6
─────> z
Geben wir die Wahrscheinlichkeit, daß bei einem Wurf eine Wurfzahl
z kleiner als eine vorgegebene unabhängige reelle Zahl t ist, so
sprechen wir von der Verteilungsfunktion F(t) = W(z<t), graphisch
dargestellt:
│ F(t) = W(z<t)
1 ┼ ───────
│
5/6┼ ───█
│ Verteilungsfunktion
4/6┼ ───█ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
│
3/6┼ ───█
│
2/6┼ ───█
│
1/6┼ ───█
│
0─┼───█───┼───┼───┼───┼───┼───┼─
│ 1 2 3 4 5 6
─────> t
Diese Verteilungsfunktion ist eine Treppenfunktion, sie nimmt nur
an Stellen, an denen Pz ungleich Null ist, jeweils um Pz zu. Eine
Verteilung, die nur an abzählbar vielen Stellen
Wahrscheinlichkeiten ungleich Null hat, nennt man auch eine
diskrete Verteilung.
Wir betrachten nun ein Beispiel mit kontinuierlicher Verteilung
der Zufallswerte: Aus einem senkrecht nach unten gerichteten
Gewehrlauf werde auf eine Zielscheibe, auf der sich ein
rechtwinkliges x,y-Koordinatensystem befinden möge, geschossen.
Die Zielscheibe sei derart zentriert, daß die Seele des Laufs
durch den Ursprung des Koordinatensystems führe. Wir betrachten
die Zentren der Einschußlöcher, jeder Einschuß kann also durch ein
x,y-Koordinatenpaar beschrieben werden. Die Einschüsse liegen in
der Regel natürlich nicht exakt im Zentrum sondern sind "zufällig"
um den Nullpunkt verteilt. Beschränken wir uns auf die
Betrachtung der x-Koordinatenwerte. Die Wahrscheinlichkeit, daß
ein Schuß überhaupt die x-y-Ebene trifft, wollen wir mit 1
angeben.
Die Verteilungsfunktion F(t) = W(x<t) ist hier stetig: jeder
beliebige x-Wert ist möglich, wenn auch mit größerem Abstand vom
Zentrum seltener. Die Verteilungsfunktion wird also für x --> -∞
gegen Null gehen, für x --> +∞ erwarten wir die Wahrscheinlichkeit
1. Im Zentrum erwarten wir die Wahrscheinlichkeit 0.5, F(0)=0.5.
Das graphische Bild von F(t) könnte etwa so aussehen (tatsächlich
ist die Kurve natürlich glatt und ohne Stufen):
┼1.0 - - - - - ┌──────
F(t) │ ┌───────┘
│ ┌───┘
│ │
├──┘ Verteilungsfunktion
┼0.5 ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
┌──┤
│ │
┌───┘ │
┌───────┘ │
─┴────┴────┴────┴────┴────┴────┴────┴────┴─
-4 -3 -2 -1 0 1 2 3 4
──────> t
Im Gegensatz zum Würfelbeispiel können wir nicht mehr die
Wahrscheinlichkeit des Auftretens einer bestimmten Zahl x angeben,
wohl aber ist es möglich, die Wahrscheinlichkeit für das
Auftreffen in einem endlichen x-Intervall anzugeben, zB. ist
W( t < x < t+δt ) = F(t+δt) - F(t)
die Wahrscheinlichkeit, daß die x-Koordinate bei einem Schuß
zwischen t und t+δt liegt. Zweckmäßiger ist es, nach der
Wahrscheinlichkeit pro Intervallänge im Grenzfall gegen Null
strebender Intervallänge zu fragen:
F(t+δt) - F(t) dF
lim ────────────── = ──(t) = f(t) .
δt-->0 δt dt
Offenbar ist die Funktion f(t), die wir
"Wahrscheinlichkeitsdichte" nennen wollen, nichts weiter als die
Ableitung der Verteilungsfunktion. Sie hat im Fall unserer
Zielscheibe ein Maximum bei x=0 und strebt mit wachsendem Abstand
vom Zentrum gegen Null. Das graphische Bild könnte etwa so
aussehen (tatsächlich ist die Kurve natürlich glatt und ohne
Stufen):
dF │
f(t) = ── ┼0.5 Wahrscheinlichkeits-
dt ┌─┼─┐ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
┌┘ │ └┐ dichte
┌┘ │ └┐ ▀▀▀▀▀▀
┌─┘ │ └─┐
┌────────┘ │ └────────┐
─┴────┴────┴────┴────┴────┴────┴────┴────┴─
-4 -3 -2 -1 0 1 2 3 4
──────> t
Kommen wir zunächst auf unseren Würfel zurück! Wenn wir die
Wahrscheinlichkeiten Pz kennen, mit der die möglichen Wurfzahlen z
auftreten, so können wir auch die theoretisch zu erwartende
mittlere Wurfzahl z^ errechnen. Da wir die Wahrscheinlichkeiten
Pz als relative Häufigkeit des Auftretens von z interpretieren
können, ist z^ die Summe der möglichen Wurfzahlen multipliziert
mit den zugehörigen Wahrscheinlichkeiten:
6 1 2 3 4 5 6 21
z^ = Σ z∙Pz = ─ + ─ + ─ + ─ + ─ + ─ = ── = 3.5 .
z=1 6 6 6 6 6 6 6
Wir nennen z^ auch "Erwartungswert" (auch E(z) geschrieben),
obwohl es möglich ist, daß dieser Wert bei einer Stichprobe
niemals vorkommen kann! Man beachte, daß z^ eine Konstante ist.
Wenn jemand einen Würfel statt mit den Zahlen 1 bis 6 mit den
Quadratzahlen 1, 4,.., 36 beschriftet, so kann er ebenfalls den
Erwartungswert E(z²) bzw. z²^ nach obiger Formel bestimmen:
6 1 4 9 16 25 36 91 1
z²^ = Σ z²∙Pz = ─ + ─ + ─ + ── + ── + ── = ── = 15 ─ .
z=1 6 6 6 6 6 6 6 6
Es ist einleuchtend, daß wir den Erwartungswert E(g(z)) einer
beliebigen Funktion g(z) bestimmen können nach der allgemeinen
Formel:
┌───────────────────────────────┐
│ N │ Erwartungswert
│ E(g(z)) ≡ g(z)^ = Σ g(z)∙Pz │ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀
│ z=1 │ (diskreter Fall)
└───────────────────────────────┘ .
Kehren wir wieder zu unserer stetigen Verteilung zurück! Ist uns
die Wahrscheinlichkeitsdichte f(t) gegeben, wie müßte dann der
Erwartungswert t^ von t berechnet werden? Nun, betrachten wir
einfach Intervalle der Länge δt. Die Wahrscheinlichkeit des
Auftretens eines Wertes an der Stelle t ist dann genähert gleich
δW = f(t)∙δt, also ist der Erwartungswert z.B. der Größe t ganz
entsprechend der Summe für die diskrete Wahrscheinlichkeitsdichte:
+∞
t^ ≈ Σ ti∙f(ti)∙δt; ti = i∙δt .
i=-∞
Dieser Ausdruck geht aber für δt --> 0 exakt über in ein Integral:
+∞
⌠
t^ = │ t∙f(t)∙dt .
⌡
-∞
Entsprechend ist daher der Erwartungswert E(g(t)) einer Funktion
g(t) zur Wahrscheinlichkeitsdichte f(t) gegeben durch:
┌──────────────────────────────────┐
│ +∞ │ Erwartungswert
│ ⌠ │ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀
│ E(g(t)) ≡ g(t)^ = │ g(t)∙f(t)∙dt │ (stetiger Fall)
│ ⌡ │
│ -∞ │
└──────────────────────────────────┘ .
Beispiel:
┌
│ 1 für 0 ≤ t < 1,
f(t) = │
│ 0 sonst ,
└
man gebe t^ und (t-t^)²^ ≡ E((t-t^)²) ≡ σ²(t) an!
Lösung:
+∞ 1 ┌ ┐1
⌠ ⌠ │ t²│
t^ = │ t∙f(t)∙dt = │ t∙dt = │ ──│ = 0.5 ,
⌡ ⌡ │ 2 │
-∞ 0 └ ┘0
+1 +1
⌠ ⌠ 1
σ²(t) = │ (t-t^)²∙dt = │ (t² - t + ─)∙dt
⌡ ⌡ 4
0 0
┌ ┐1
│ t∙t² t² t │ 1
= │ ──── - ── + ─ │ = ── ,
│ 3 2 4 │ 12
└ ┘0
┌ ┐½ 1
σ := │ σ²(t) │ = ──── ≈ 0.3 .
└ ┘ 2∙√3
Die graphische Darstellung:
│
1┼───┼─────┼─────┼───┐
│ | | | │
│ | | | │
───┼───┼─────┼─────┼───┼─────────┼──
0 0.5 1.0 1.5
t^-σ t^ t^+σ .
Fassen wir die bisherige Darstellung zusammen: kennen wir die
Wahrscheinlichkeitsdichte einer zufällig vorkommenden Größe, so
ist uns der Erwartungswert, den wir interpretieren als den zu
erwartende Mittelwert im Falle gegen unendlich gehender
Versuchszahl, bekannt. Es ist praktisch die dem Vorgang zugrunde
liegende "wahre" Größe.
Jede Messung ist durch zufällige Effekte beeinflußt, wie die im
obigen Beispiel streuenden Einschußlöcher, die ja erwartungsgemäß
alle im Zentrum liegen sollten. Offenbar erleidet das aus dem
Lauf gekommene Geschoß auf seinem Flug eine Fülle von zufälligen
Störungen. Ohne genauer auf die Natur der Störungen einzugehen,
nehmen wir nur an, daß eine Vielzahl aufeinander folgender
"Elementarstörungen" zur schließlich bei jedem Schuß
resultierenden Abweichung führt.
Laplace hat 1793 ein solches Fehlermodell aufgestellt. Es besagt,
daß der Meßfehler ε eines Meßwertes sich aus einer großen Zahl
aufeinanderfolgender zufälliger Elementarstörungen δ
zusammensetzt. Dies kann man anschaulich darstellen:
Schritt│ -6δ -5δ -4δ -3δ -2δ -1δ 0 +1δ +2δ +3δ +4δ +5δ +6δ
───────┼──────────────────────────────────────────────────────
0 │ 1/1
│ ┌───┴───┐ Fehlermodell nach
1 │ 1/2 1/2 Laplace
│ ┌───┴───┬───┴───┐ ▀▀▀▀▀▀▀
2 │ 1/4 2/4 1/4
│ ┌───┴───┬───┴───┬───┴───┐
3 │ 1/8 3/8 3/8 1/8
│ ┌───┴───┬───┴───┬───┴───┬───┴───┐
4 │ 1/16 4/16 6/16 4/16 1/16
│ ┌───┴───┬───┴───┬───┴───┬───┴───┬───┴───┐
5 │ 1/32 5/32 10/32 10/32 5/32 1/32
│ ┌───┴───┬───┴───┬───┴───┬───┴───┬───┴───┬───┴───┐
6 │ 1/64 6/64 15/64 20/64 15/64 6/64 1/64
│
" │ usw.
Läßt man die Schritte wachsen und zugleich δ entsprechend
abnehmen, so kann man mathematisch exakt zeigen, daß die zunächst
diskreten Wahrscheinlichkeiten zu einer stetigen
Wahrscheinlichkeitsdichte führen, nämlich der sog. Gaußschen
Fehlerfunktion, kurz auch Gaußfunktion genannt:
┌ ┐
│ ┌ ┐2│
1 │ 1 │ x-a │ │
f(x) = ──────────∙exp│-─∙│ ───── │ │
┌ ┐½ │ 2 │ b │ │
b∙│2∙π│ │ └ ┘ │
└ ┘ └ ┘ .
Die Gaußfunktion enthält zwei Parameter: a und b. Berechnen wir
sogleich x^ = E(x) und σ²(x) = E((x-x^)²)! Man findet:
+∞
⌠
x^ = │ x∙f(x)∙dx = a ,
⌡
-∞
+∞
⌠
σ²(x) = │ (x-x^)²∙f(x)∙dx = b² .
⌡
-∞
┌ ┐½
Daher können wir statt a und b auch gleich x^ und σ = │σ²(x)│
in die Funktion schreiben: └ ┘
┌───────────────────────────────────────────────────────┐
│ ┌ ┐ │
│ │ ┌ ┐2│ Gaußsche │
│ 1 │ 1 │ x-x^ │ │ ▀▀▀▀▀▀▀▀ │
│ f(x) = ──────────∙exp│-─∙│ ───── │ │ Fehlerfunktion │
│ ┌ ┐½ │ 2 │ σ │ │ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ σ∙│2∙π│ │ └ ┘ │ │
│ └ ┘ └ ┘ │
│ │
│ x^ : Erwartungswert │
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ σ : Streuung von x │
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
└───────────────────────────────────────────────────────┘ .
Diese Funktion beschreibt die Fehlerstreuung wie sie praktisch bei
allen Messungen auftritt.
Wenn wir wieder zu unseren Schießversuchen zurückkommen: Wie kann
man die Zielscheibe so zentrieren, daß die Seele des Laufs durch
das Zentrum führt? Wir können nach Laplace davon ausgehen, daß
die Wahrscheinlichkeitsdichte der Einschüsse sich durch die
Gaußfunktion beschreiben läßt, kennen aber weder den "wahren" Ort
x^ (und y^) noch die Streuung σ. Können wir diese Größen aus
einer Reihe von "gemessenen" Einschußgrößen xi, i=1,...,N,
bestimmen?
Von Interesse ist nur x^, das wir aber nur nach einer unendlichen
und daher unmöglichen Schußreihe ermitteln könnten. Wir werden
uns irgendwie aus den xi einen Wert x˜͂ als sog. "Schätzung" von
x^ berechnen. Dies geht natürlich nur aus den beobachteten Größen
xi, und da diese zufällig sind, wird auch unsere Schätzung x˜͂
zufällig sein. Es wird sich zeigen, daß man aus einer Schätzung
σ˜͂ für σ, die wir uns natürlich auch nur aus den xi irgendwie
berechnen können (hoffentlich!), auch die Streuung der Schätzung
x˜͂, nennen wir sie σ(x˜͂)˜͂, schätzen kann! Wir erhalten also eine
Angabe zur Genauigkeit unserer Schätzung x˜͂!
Alles läuft also auf eine Methode hinaus, die uns sog.
Schätzungen x˜͂ und σ˜͂ liefert.
Nach Gauß können wir nach der sog. Methode der kleinsten Quadrate
einen Schätzwert x˜͂, der natürlich möglichst nahe dem "wahren" x^
kommen soll, nach folgender Vorschrift bestimmen:
1. Jeder Meßwert xi kann als Summe der unbekannten Größe
x^ und des wahren Meßfehlers εi betrachtet werden:
xi = x^ + εi , i = 1, ..., N.
2. Man bestimme einen Schätzwert x˜͂ für x^ derart, daß
die Quadratsumme Q der "scheinbaren" Fehler vi = xi-x˜͂
minimal wird:
N N
Q = Σ (vi)² = Σ (xi-x˜͂)² sei minimal.
i=1 i=1
Diese Vorschrift führt zum bekannten Ergebnis, nämlich dem
Mittelwert:
1 N
x˜͂ = ─ ∙ Σ xi ,
N i=1
d.h., der Mittelwert der Meßwerte wird als Schätzwert für die
unbekannte Größe x^ genommen. Weiter gibt Gauß auch Schätzungen
für die Streuung σ(xi): σ(xi)˜͂, sowie für die Streuung σ(x˜͂):
σ(x˜͂)˜͂, an. Nach Gauß werden σ(xi)˜͂ und σ(x˜͂)˜͂ auch "mittlerer
Fehler der Einzelmessung" bzw. "mittlerer Fehler des
Mittelwertes" genannt. Zusammengefaßt haben wir nach Gauß:
┌───────────────────────────────────────────────────┐
│ │
│ 1 N │
│ x˜͂ = ─ ∙ Σ xi Mittelwert │
│ ▀▀ N i=1 ▀▀▀▀▀▀▀▀▀▀ │
│ │
│ ─────────────────────────────────────────────── │
│ │
│ │
│ ┌ ┐½ │
│ │ 1 N │ Mittlerer Fehler │
│ σ(xi)˜͂ = │───∙ Σ (xi-x˜͂)²│ der Einzelmessung │
│ ▀▀▀▀▀▀ │N-1 i=1 │ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ └ ┘ │
│ │
│ σ(xi)˜͂ Mittlerer Fehler │
│ σ(x˜͂)˜͂ = ────── des Mittelwertes │
│ ▀▀▀▀▀▀ √N ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ │
└───────────────────────────────────────────────────┘ .
Ferner zeigt Gauß, daß diese Schätzung optimal ist, keine andere
Schätzung liefert kleinere Fehler. Die Schätzungen x˜͂,σ(xi)˜͂² und
σ(x˜͂)˜͂² sind außerdem nicht "systematisch" verfälscht.
Nach diesen mehr allgemeinen Betrachtungen soll nun schließlich
die von R. A. Fisher stammende Methode der Maximum Likelihood
betrachtet werden.
Kehren wir nochmals zu unseren Würfeln zurück! Wir würfeln mit
zwei Würfeln, Würfel A und B. Frage: Wie groß ist die
Wahrscheinlichkeit, daß Würfel A eine 2 und Würfel B eine 5 zeigt?
Wir können davon ausgehen, daß die Würfel nichts voneinander
"wissen", d. h., sie sind voneinander unabhängig. Tragen wir in
der Ebene die Zahlenpaare auf, die wir bei jedem Doppelwurf
erhalten können, in ein 6x6-Gitter ein, in x-Richtung die Werte
des Würfels A und in y-Richtung die Werte des Würfels B:
┌───┬───┬───┬───┬───┬───┐
6 │ │░░░│ │ │ │ │
├───┼░░░┼───┼───┼───┼───┤
5 │▒▒▒▒▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│
├───┼░░░┼───┼───┼───┼───┤
4 │ │░░░│ │ │ │ │
Würfel B ├───┼░░░┼───┼───┼───┼───┤
3 │ │░░░│ │ │ │ │
├───┼░░░┼───┼───┼───┼───┤
2 │ │░░░│ │ │ │ │
├───┼░░░┼───┼───┼───┼───┤
1 │ │░░░│ │ │ │ │
└───┴───┴───┴───┴───┴───┘
1 2 3 4 5 6
Würfel A .
Die Spalten entsprechen den Wahrscheinlichkeiten des Würfels A,
die Zeilen denen des Würfels B. Jeder Doppelwurf wird durch einen
Platz in dem Gitter beschrieben. Offensichtlich sind alle Zellen
gleich wahrscheinlich, die Wahrscheinlichkeit beträgt je
Gitterzelle natürlich 1/36. Also ist die Wahrscheinlichkeit, daß
A eine 2 und B eine 5 zeigt gerade das Produkt aus den
Wahrscheinlichkeiten mit der eine 2 bei A und eine 5 bei B
auftreten, also gerade 1/36. Kurz, die Wahrscheinlichkeit des
Paares (2,5) ist das Produkt der Wahrscheinlichkeiten von 2 und 5,
was wir etwa so schreiben könnten:
P(2,5) = P(2)∙P(5) .
Frage: Wie groß ist die Wahrscheinlichkeit, daß bei sechs
aufeinander folgenden Würfen die Zahlen (1,2,3,4,5,6) auftreten?
Antwort:
┌ ┐6
P(1,2,3,4,5,6)=P(1)∙P(2)∙P(3)∙P(4)∙P(5)∙P(6)=│1/6│ =1/46656.
└ ┘
Betrachten wir nun die Wahrscheinlichkeit, daß bei unseren
Schießversuchen zwei bestimmte x-Werte: (x1,x2) gemessen werden.
Wir haben wieder unabhängige Ereignisse, also können wir die
Wahrscheinlichkeit als Produkt der zwei Einzelwahrscheinlichkeiten
erhalten. Da wir es mit einer kontinuierlichen
Wahrscheinlichkeitsdichte zu tun haben, ist z. B. die
Wahrscheinlichkeit des Auftretens von x1 bzw x2:
dW(xi) = f(xi)∙dx, i=1,2.
Also gilt:
dW(x1,x2) = dW(x1)∙dW(x2) = f(x1)∙f(x2)∙dx².
dx² ist ein 2-dimensionales "differentielles" Volumenelement.
Haben wir nicht 2, sondern N Einschüsse x1, ..., xN gemessen, so
ist offenbar die Wahrscheinlichkeit, daß gerade diese Meßwertfolge
auftritt, gegeben durch:
N
dW = π f(xi)∙dxⁿ , n=N.
i=1
Wir definieren nun die sog. "Likelihoodfunktion" L und ihren
natürlichen Logarithmus, die sog. "Logarithmische
Likelihoodfunktion" l = ln(L):
┌──────────────────────────────────────────┐
│ N │
│ L = π f(xi), Likelihoodfunktion │
│ ▀ i=1 ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ │
│ N │
│ l = Σ ln(f(xi)) Logarithmische │
│ ▀ i=1 Likelihoodfunktion │
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
└──────────────────────────────────────────┘ .
Wir können bei bekannter Wahrscheinlichkeitsdichte f die
Likelihoodfunktion L berechnen. L ist die Wahrscheinlichkeit, daß
die Meßwerte x1,...,xN im N-dimensionalen differentiellem
Volumenelement dxⁿ vorkommen. Weiß man, daß f die Gaußfunktion
ist, kennt aber nicht deren Parameter x^,σ, so hängt L für die
gemessenen xi von der Wahl der Parameter x,s ab. Sicherlich würde
L besonders groß, wenn x,s möglichst nahe bei den wahren
Parametern x˜͂,σ lägen.
Die Methode der Maximum Likelihood besteht nun darin die Parameter
x,s so zu bestimmen, daß L maximal wird.
Wir betrachten nun L für fest gegebene xi speziell als Funktion
der zwei Parameter x,s:
N
L = L( x, s) = π f(xi; x,s) .
i=1
Wie bestimmen wir das Maximum der Likelihoodfunktion L(x,s)? Eine
notwendige Voraussetzung für ein Maximum ist, daß die partiellen
Ableitungen nach x und s zugleich Null sind. Wir nehmen weiterhin
das Beispiel der gemessenen x-Werte unserer Einschüsse. Wir haben
guten Grund zur Annahme, daß die x-Werte nach Gauß verteilt sind
und trachten Schätzungen für x^ und σ, nämlich x˜͂ und σ˜͂ zu
bestimmen.
Die Ableitung der Likelihoodfunktion L ist sehr schwierig, da sie
aus einem mehrfachen Produkt besteht. Die logarithmische
Likelihoodfunktion l hat aber, da der Logarithmus eine streng
monoton wachsende Funktion ist, an derselben Stelle ihr Maximum
wie L, ist aber sehr einfach abzuleiten. Benutzen wir also l
statt L! Die Funktion l lautet:
┌ ┐
│ ┌ ┐│
│ │ ┌ ┐2││
N │ 1 │ 1 │ xi-x │ ││
l = Σ ln│───────────∙exp│-─∙│ ──── │ ││ ,
i=1 │ ┌ ┐½ │ 2 │ s │ ││
│ s∙│ 2∙π│ │ └ ┘ ││
│ └ ┘ └ ┘│
└ ┘
┌ ┐
│ ┌ ┐2 │
N │ 1 1 │ xi-x │ │
l = Σ │ -─∙ln(2π) -ln(s) -─∙│ ──── │ │ ,
i=1 │ 2 2 │ s │ │
│ └ ┘ │
└ ┘
┌ ┐2
N 1 N │ xi-x │
l = -─∙ln(2π) -N∙ln(s) -─∙ Σ │ ──── │ ,
2 2 i=1 │ s │
└ ┘
N 1 N
l = l(x,s) = -─∙ln(2π) -N∙ln(s) -────∙ Σ (xi-x)² .
2 2∙s² i=1
Sogleich können wir eine Aussage machen bezüglich der Wahl der
Variablen x, um l maximal zu machen: Eine Notwendigkeit ist
offenbar, daß das Summenglied minimal sein muß:
N
Σ (xi-x)² = Q sei minimal!
i=1
Das ist aber gerade die nach Gauß geforderte Bedingung für die
Methode der kleinsten Quadrate! Leiten wir l nach x ab und setzen
die Ableitung = 0:
dl 1 N
── = ──∙ Σ (xi-x) = 0 ,
dx s² i=1
N
Σ (xi-x) = 0 ,
i=1
N
Σ xi = N∙x , --->
i=1
1 N
x˜͂ = ─∙ Σ xi .
N i=1
Die Ableitung nach s liefert entsprechend:
dl N 1 N
── = -─ + ────∙ Σ (xi-x)² = 0 ,
ds s s²∙s i=1
1 N
N = ──∙ Σ (xi-x˜͂)² ,
s² i=1
1 N
s² = ─∙ Σ (xi-x˜͂)² , --->
N i=1
┌ ┐½
│1 N │
s(xi)˜͂ = │─∙ Σ (xi-x˜͂)²│ .
│N i=1 │
└ ┘
Wir haben also als sog. Maximum-Likelihood-Schätzung einer
Einzelgröße, für die N Messungen durchgeführt wurden, erhalten:
┌─────────────────────────────────────────────────┐
│ 1 N │
│ x˜͂ = ─∙ Σ xi │
│ N i=1 │
│ Maximum-Likelihood- │
│ ┌ ┐½ Schätzung │
│ │1 N │ │
│ s(xi)˜͂ = │─∙ Σ (xi-x˜͂)²│ │
│ │N i=1 │ │
│ └ ┘ │
└─────────────────────────────────────────────────┘ .
Die Schätzung des Erwartungswertes x˜͂ ist mit der gaußschen Lösung
identisch, die Schätzung der Streuung der Einzelwerte s(xi)˜͂ ist
um √(N/(N-1)) zu klein, also nicht mit der richtigen Lösung
übereinstimmend. Für eine weitere Betrachtung von l=l(x,s) wollen
wir l an der Stelle der geschätzten Parameter x˜͂ und s˜͂ in eine
Taylorreihe bis zur zweiten Ordnung entwickeln:
dl dl
l = l(x˜͂,s˜͂) + ──(x˜͂,s˜͂)∙(x-x˜͂) + ──(x˜͂,s˜͂)∙(s-s˜͂)
dx ds
1 d²l d²l
+ ─∙───(x˜͂,s˜͂)∙(x-x˜͂)² + ─────(x˜͂,s˜͂)∙(x-x˜͂)∙(s-s˜͂)
2 dx² dx∙ds
1 d²l
+ ─∙───(x˜͂,s˜͂)∙(s-s˜͂)² + Glieder höherer Ordnung.
2 ds²
Da aber gerade wegen der Maximumbedingung die Ableitungen erster
Ordnung von l an der Stelle x=x˜͂ und s=s˜͂ Null sind, fallen diese
Glieder und auch das Glied der gemischten Ableitungen weg. Mit
den Ableitungen zweier Ordnung:
d²l -N d²l -2∙N
─── = ─── , ─── = ──── ,
dx² s˜͂² ds² s˜͂²
erhält man unter Vernachlässigung der Glieder höherer Ordnung:
1 N 1 2∙N
l(x,s) = l(x˜͂,s˜͂) - ─∙───∙(x-x˜͂)² - ─∙───∙(s-s˜͂)² .
2 s˜͂² 2 s˜͂²
Gehen wir nun wieder zur nichtlogarithmischen Likelihoodfunktion L
durch Anwendung der Exponentialfunktion auf beiden Seiten:
┌ ┐
│ ┌ ┐│
│ 1│ (x-x˜͂)² (s-s˜͂)² ││
L = L(xi;x˜͂,s˜͂)∙exp│-─│ ─────── + ────── ││ ,
│ 2│ s˜͂²/N s˜͂²/2N ││
│ └ ┘│
└ ┘
so haben wir es bezüglich x,s mit einer Gaußfunktion zu tun, aus
der wir sogleich die Schätzung der Varianzen zu x˜͂ und s˜͂
entnehmen können, sie lauten:
s˜͂² s˜͂²
s(x˜͂)˜͂² = ──── , s(s˜͂)˜͂² = ──── , und daher:
N 2∙N
s˜͂ s˜͂
s(x˜͂)˜͂ := ── , s(s)˜͂ := ───── .
√N √(2N)
Wir haben also für unser Beispiel, die Schätzung einer
Einzelgröße, nicht nur Schätzungen für Erwartungswert und Streuung
der Einzelmeßwerte erhalten: x˜͂,s(xi)˜͂, vielmehr erhalten wir
auch die Streuung des Mittelwertes: s(x˜͂)˜͂ sowie Schätzungen für
die Streuungen der geschätzten Streuungen von Einzelmessung bzw.
Mittelwert: s(s(xi)˜͂)˜͂,s(s(x˜͂)˜͂)˜͂. Ohne Beweis sei noch gesagt,
daß die Maximum-Likelihood-Schätzungen nicht notwendig
erwartungstreu sind, wie in unserem Beispiel bezüglich der
Schätzung der Streuung, daß sie aber für N-->∞ asymptotisch
erwartungstreu und gaußverteilt werden, und daß sie dann die
bestmögliche Schätzung überhaupt liefert! Für unseren Fall der
Schätzung einer Größe zusammengefaßt:
┌───────────────────────────────────────────────────────┐
│ │
│ Maximum-Likelihood-Schätzung │
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ einer Einzelgröße aus N Meßwerten │
│ ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀ │
│ │
│ │
│ 1 N │
│ x˜͂ = ─∙ Σ xi Mittelwert │
│ N i=1 │
│ │
│ ┌ ┐½ │
│ │1 N │ │
│ s(xi)˜͂ = │─∙ Σ (xi-x˜͂)²│ Streuung Einzelmessung │
│ │N i=1 │ │
│ └ ┘ │
│ │
│ s(xi)˜͂ │
│ s(x˜͂)˜͂ = ───── Streuung Mittelwert │
│ √N │
│ │
│ s(xi)˜͂ │
│ s(s(xi)˜͂)˜͂ = ────── Streuung der Streuung │
│ √(2N) der Einzelmessung │
│ │
│ │
│ s(x˜͂)˜͂ │
│ s(s(x˜͂)˜͂)˜͂ = ────── Streuung der Streuung │
│ √(2N) des Mittelwertes │
│ │
│ │
│ Ferner gilt für N ---> ∞ : │
│ │
│ 1) die Schätzung ist erwartungstreu, │
│ 2) die Schätzung ist normalverteilt, │
│ 3) es ist die bestmögliche Schätzung überhaupt. │
│ │
└───────────────────────────────────────────────────────┘ .
Wir können jetzt etwa eine Aussage machen über die relative
Sicherheit einer Fehlerangabe: So ist z. B. der relative Fehler
des mittlere Fehlers:
s(s(xi)˜͂)˜͂ 1
────────── = ───── ,
s(xi)˜͂ √(2N)
d.h., haben wir eine Messung mit z. B. 8 Meßwerten ausgewertet
und den mittleren Fehler dazu berechnet, so ist dieser nur auf ca.
±25% verläßlich.
Wir hatten hier den Fall unabhängiger gaußverteilter Messungen
behandelt. Die Methode ist aber auch ohne diese Einschränkungen
zu verwenden, insbesondere also auch für korrelierte oder nicht
gaußverteilte Messungen.