Die Methode der "Maximum Likelihood"
                     ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀

      Betrachten wir das Würfeln!  Wie groß ist die Wahrscheinlichkeit,
      daß wir bei einem Wurf eine 6 erhalten?  Die Wahrscheinlichkeit,
      daß bei dem einen Wurf eine von den sechs ganzen Zahlen 1 bis 6
      auftritt, bezeichnen wir mit 1.  Natürlich erwarten wir, daß jede
      dieser Zahlen gleich wahrscheinlich ist.  Daher werden wir die
      Wahrscheinlichkeit Pz, daß bei einem Wurf eine bestimmte Zahl z
      auftritt, mit Pz=1/6 angeben.  Der Würfel liefert ganzzahlige
      Werte z im Abstand δz=1.  Tragen wir die Wahrscheinlichkeiten Pz
      graphisch auf für z=1,..,6, so erhalten wir folgendes Bild:

             │ Pz = 1/6 für z=1 bis 6           Wahrscheinlichkeiten,
             │                                  ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
          1/6┼   █   █   █   █   █   █          ungleich Null an ab-
           0─┼───┼───┼───┼───┼───┼───┼───┬──    zählbar vielen Stellen
                 1   2   3   4   5   6
                       ─────> z

      Geben wir die Wahrscheinlichkeit, daß bei einem Wurf eine Wurfzahl
      z kleiner als eine vorgegebene unabhängige reelle Zahl t ist, so
      sprechen wir von der Verteilungsfunktion F(t) = W(z<t), graphisch
      dargestellt:

             │    F(t) = W(z<t)
           1 ┼                        ───────
             │
          5/6┼                    ───█
             │                                  Verteilungsfunktion
          4/6┼                ───█              ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
             │
          3/6┼            ───█
             │
          2/6┼        ───█
             │
          1/6┼    ───█
             │
           0─┼───█───┼───┼───┼───┼───┼───┼─
             │   1   2   3   4   5   6
                       ─────> t

      Diese Verteilungsfunktion ist eine Treppenfunktion, sie nimmt nur
      an Stellen, an denen Pz ungleich Null ist, jeweils um Pz zu.  Eine
      Verteilung, die nur an abzählbar vielen Stellen
      Wahrscheinlichkeiten ungleich Null hat, nennt man auch eine
      diskrete Verteilung.

      Wir betrachten nun ein Beispiel mit kontinuierlicher Verteilung
      der Zufallswerte:  Aus einem senkrecht nach unten gerichteten
      Gewehrlauf werde auf eine Zielscheibe, auf der sich ein
      rechtwinkliges x,y-Koordinatensystem befinden möge, geschossen.
      Die Zielscheibe sei derart zentriert, daß die Seele des Laufs
      durch den Ursprung des Koordinatensystems führe.  Wir betrachten
      die Zentren der Einschußlöcher, jeder Einschuß kann also durch ein
      x,y-Koordinatenpaar beschrieben werden.  Die Einschüsse liegen in
      der Regel natürlich nicht exakt im Zentrum sondern sind "zufällig"
      um den Nullpunkt verteilt.  Beschränken wir uns auf die
      Betrachtung der x-Koordinatenwerte.  Die Wahrscheinlichkeit, daß
      ein Schuß überhaupt die x-y-Ebene trifft, wollen wir mit 1
      angeben.

      Die Verteilungsfunktion F(t) = W(x<t) ist hier stetig:  jeder
      beliebige x-Wert ist möglich, wenn auch mit größerem Abstand vom
      Zentrum seltener.  Die Verteilungsfunktion wird also für x --> -∞
      gegen Null gehen, für x --> +∞ erwarten wir die Wahrscheinlichkeit
      1.  Im Zentrum erwarten wir die Wahrscheinlichkeit 0.5, F(0)=0.5.
      Das graphische Bild von F(t) könnte etwa so aussehen (tatsächlich
      ist die Kurve natürlich glatt und ohne Stufen):

                               ┼1.0 - - - - - ┌──────
                         F(t)  │      ┌───────┘
                               │  ┌───┘
                               │  │
                               ├──┘     Verteilungsfunktion
                               ┼0.5     ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
                            ┌──┤
                            │  │
                        ┌───┘  │
                ┌───────┘      │
          ─┴────┴────┴────┴────┴────┴────┴────┴────┴─
          -4   -3   -2   -1    0    1    2    3    4
                            ──────>  t

      Im Gegensatz zum Würfelbeispiel können wir nicht mehr die
      Wahrscheinlichkeit des Auftretens einer bestimmten Zahl x angeben,
      wohl aber ist es möglich, die Wahrscheinlichkeit für das
      Auftreffen in einem endlichen x-Intervall anzugeben, zB.  ist

          W( t < x < t+δt ) = F(t+δt) - F(t)

      die Wahrscheinlichkeit, daß die x-Koordinate bei einem Schuß
      zwischen t und t+δt liegt.  Zweckmäßiger ist es, nach der
      Wahrscheinlichkeit pro Intervallänge im Grenzfall gegen Null
      strebender Intervallänge zu fragen:

                  F(t+δt) - F(t)   dF
           lim    ────────────── = ──(t) = f(t)  .
          δt-->0        δt         dt

      Offenbar ist die Funktion f(t), die wir
      "Wahrscheinlichkeitsdichte" nennen wollen, nichts weiter als die
      Ableitung der Verteilungsfunktion.  Sie hat im Fall unserer
      Zielscheibe ein Maximum bei x=0 und strebt mit wachsendem Abstand
      vom Zentrum gegen Null.  Das graphische Bild könnte etwa so
      aussehen (tatsächlich ist die Kurve natürlich glatt und ohne
      Stufen):

                         dF    │
                  f(t) = ──    ┼0.5     Wahrscheinlichkeits-
                         dt  ┌─┼─┐      ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
                            ┌┘ │ └┐                   dichte
                           ┌┘  │  └┐                  ▀▀▀▀▀▀
                         ┌─┘   │   └─┐
                ┌────────┘     │     └────────┐
          ─┴────┴────┴────┴────┴────┴────┴────┴────┴─
          -4   -3   -2   -1    0    1    2    3    4
                            ──────>  t

      Kommen wir zunächst auf unseren Würfel zurück!  Wenn wir die
      Wahrscheinlichkeiten Pz kennen, mit der die möglichen Wurfzahlen z
      auftreten, so können wir auch die theoretisch zu erwartende
      mittlere Wurfzahl z^ errechnen.  Da wir die Wahrscheinlichkeiten
      Pz als relative Häufigkeit des Auftretens von z interpretieren
      können, ist z^ die Summe der möglichen Wurfzahlen multipliziert
      mit den zugehörigen Wahrscheinlichkeiten:

                6        1   2   3   4   5   6   21
          z^ =  Σ z∙Pz = ─ + ─ + ─ + ─ + ─ + ─ = ── = 3.5 .
               z=1       6   6   6   6   6   6    6

      Wir nennen z^ auch "Erwartungswert" (auch E(z) geschrieben),
      obwohl es möglich ist, daß dieser Wert bei einer Stichprobe
      niemals vorkommen kann!  Man beachte, daß z^ eine Konstante ist.

      Wenn jemand einen Würfel statt mit den Zahlen 1 bis 6 mit den
      Quadratzahlen 1, 4,.., 36 beschriftet, so kann er ebenfalls den
      Erwartungswert E(z²) bzw.  z²^ nach obiger Formel bestimmen:

                  6         1   4   9   16   25   36   91      1
          z²^  =  Σ z²∙Pz = ─ + ─ + ─ + ── + ── + ── = ── = 15 ─ .
                 z=1        6   6   6    6    6    6    6      6

      Es ist einleuchtend, daß wir den Erwartungswert E(g(z)) einer
      beliebigen Funktion g(z) bestimmen können nach der allgemeinen
      Formel:

          ┌───────────────────────────────┐
          │                    N          │    Erwartungswert
          │ E(g(z)) ≡ g(z)^ =  Σ g(z)∙Pz  │    ▀▀▀▀▀▀▀▀▀▀▀▀▀▀
          │                   z=1         │    (diskreter Fall)
          └───────────────────────────────┘  .

      Kehren wir wieder zu unserer stetigen Verteilung zurück!  Ist uns
      die Wahrscheinlichkeitsdichte f(t) gegeben, wie müßte dann der
      Erwartungswert t^ von t berechnet werden?  Nun, betrachten wir
      einfach Intervalle der Länge δt.  Die Wahrscheinlichkeit des
      Auftretens eines Wertes an der Stelle t ist dann genähert gleich
      δW = f(t)∙δt, also ist der Erwartungswert z.B.  der Größe t ganz
      entsprechend der Summe für die diskrete Wahrscheinlichkeitsdichte:

                +∞
          t^ ≈  Σ  ti∙f(ti)∙δt;  ti = i∙δt  .
               i=-∞

      Dieser Ausdruck geht aber für δt --> 0 exakt über in ein Integral:

               +∞
               ⌠
          t^ = │ t∙f(t)∙dt  .
               ⌡
               -∞

      Entsprechend ist daher der Erwartungswert E(g(t)) einer Funktion
      g(t) zur Wahrscheinlichkeitsdichte f(t) gegeben durch:

          ┌──────────────────────────────────┐
          │                   +∞             │  Erwartungswert
          │                   ⌠              │  ▀▀▀▀▀▀▀▀▀▀▀▀▀▀
          │ E(g(t)) ≡ g(t)^ = │ g(t)∙f(t)∙dt │  (stetiger Fall)
          │                   ⌡              │
          │                   -∞             │
          └──────────────────────────────────┘  .

      Beispiel:

                 ┌
                 │  1  für 0 ≤ t < 1,
          f(t) = │
                 │  0  sonst ,
                 └

      man gebe t^ und (t-t^)²^ ≡ E((t-t^)²) ≡ σ²(t) an!

      Lösung:

               +∞            1        ┌   ┐1
               ⌠             ⌠        │ t²│
          t^ = │ t∙f(t)∙dt = │ t∙dt = │ ──│  = 0.5 ,
               ⌡             ⌡        │ 2 │
               -∞            0        └   ┘0

                  +1             +1
                  ⌠              ⌠           1
          σ²(t) = │ (t-t^)²∙dt = │ (t² - t + ─)∙dt
                  ⌡              ⌡           4
                  0              0

                  ┌               ┐1
                  │ t∙t²   t²   t │    1
                = │ ──── - ── + ─ │ = ── ,
                  │  3     2    4 │   12
                  └               ┘0

               ┌       ┐½    1
          σ := │ σ²(t) │  = ──── ≈ 0.3 .
               └       ┘    2∙√3

      Die graphische Darstellung:

             │
            1┼───┼─────┼─────┼───┐
             │   |     |     |   │
             │   |     |     |   │
          ───┼───┼─────┼─────┼───┼─────────┼──
             0        0.5       1.0       1.5
                t^-σ   t^   t^+σ                  .

      Fassen wir die bisherige Darstellung zusammen:  kennen wir die
      Wahrscheinlichkeitsdichte einer zufällig vorkommenden Größe, so
      ist uns der Erwartungswert, den wir interpretieren als den zu
      erwartende Mittelwert im Falle gegen unendlich gehender
      Versuchszahl, bekannt.  Es ist praktisch die dem Vorgang zugrunde
      liegende "wahre" Größe.

      Jede Messung ist durch zufällige Effekte beeinflußt, wie die im
      obigen Beispiel streuenden Einschußlöcher, die ja erwartungsgemäß
      alle im Zentrum liegen sollten.  Offenbar erleidet das aus dem
      Lauf gekommene Geschoß auf seinem Flug eine Fülle von zufälligen
      Störungen.  Ohne genauer auf die Natur der Störungen einzugehen,
      nehmen wir nur an, daß eine Vielzahl aufeinander folgender
      "Elementarstörungen" zur schließlich bei jedem Schuß
      resultierenden Abweichung führt.

      Laplace hat 1793 ein solches Fehlermodell aufgestellt.  Es besagt,
      daß der Meßfehler ε eines Meßwertes sich aus einer großen Zahl
      aufeinanderfolgender zufälliger Elementarstörungen δ
      zusammensetzt.  Dies kann man anschaulich darstellen:

          Schritt│ -6δ -5δ -4δ -3δ -2δ -1δ  0  +1δ +2δ +3δ +4δ +5δ +6δ
          ───────┼──────────────────────────────────────────────────────
             0   │                         1/1
                 │                      ┌───┴───┐      Fehlermodell nach
             1   │                     1/2     1/2          Laplace
                 │                  ┌───┴───┬───┴───┐       ▀▀▀▀▀▀▀
             2   │                 1/4     2/4     1/4
                 │              ┌───┴───┬───┴───┬───┴───┐
             3   │             1/8     3/8     3/8     1/8
                 │          ┌───┴───┬───┴───┬───┴───┬───┴───┐
             4   │         1/16    4/16    6/16    4/16    1/16
                 │      ┌───┴───┬───┴───┬───┴───┬───┴───┬───┴───┐
             5   │     1/32    5/32   10/32   10/32    5/32    1/32
                 │  ┌───┴───┬───┴───┬───┴───┬───┴───┬───┴───┬───┴───┐
             6   │ 1/64    6/64   15/64   20/64   15/64    6/64    1/64
                 │
             "   │                          usw.

      Läßt man die Schritte wachsen und zugleich δ entsprechend
      abnehmen, so kann man mathematisch exakt zeigen, daß die zunächst
      diskreten Wahrscheinlichkeiten zu einer stetigen
      Wahrscheinlichkeitsdichte führen, nämlich der sog.  Gaußschen
      Fehlerfunktion, kurz auch Gaußfunktion genannt:

                               ┌             ┐
                               │   ┌       ┐2│
                       1       │ 1 │  x-a  │ │
          f(x) = ──────────∙exp│-─∙│ ───── │ │
                    ┌   ┐½     │ 2 │   b   │ │
                  b∙│2∙π│      │   └       ┘ │
                    └   ┘      └             ┘    .

      Die Gaußfunktion enthält zwei Parameter:  a und b.  Berechnen wir
      sogleich x^ = E(x) und σ²(x) = E((x-x^)²)!  Man findet:

                  +∞
                  ⌠
          x^    = │ x∙f(x)∙dx       = a  ,
                  ⌡
                  -∞

                  +∞
                  ⌠
          σ²(x) = │ (x-x^)²∙f(x)∙dx = b² .
                  ⌡
                  -∞

                                                            ┌     ┐½
      Daher können wir statt a und b auch gleich x^ und σ = │σ²(x)│
      in die Funktion schreiben:                            └     ┘

          ┌───────────────────────────────────────────────────────┐
          │                      ┌             ┐                  │
          │                      │   ┌       ┐2│  Gaußsche        │
          │              1       │ 1 │  x-x^ │ │  ▀▀▀▀▀▀▀▀        │
          │ f(x) = ──────────∙exp│-─∙│ ───── │ │  Fehlerfunktion  │
          │           ┌   ┐½     │ 2 │   σ   │ │  ▀▀▀▀▀▀▀▀▀▀▀▀▀▀  │
          │         σ∙│2∙π│      │   └       ┘ │                  │
          │           └   ┘      └             ┘                  │
          │                                                       │
          │                x^ : Erwartungswert                    │
          │                ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀                    │
          │                σ  : Streuung von x                    │
          │                ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀                    │
          └───────────────────────────────────────────────────────┘  .

      Diese Funktion beschreibt die Fehlerstreuung wie sie praktisch bei
      allen Messungen auftritt.

      Wenn wir wieder zu unseren Schießversuchen zurückkommen:  Wie kann
      man die Zielscheibe so zentrieren, daß die Seele des Laufs durch
      das Zentrum führt?  Wir können nach Laplace davon ausgehen, daß
      die Wahrscheinlichkeitsdichte der Einschüsse sich durch die
      Gaußfunktion beschreiben läßt, kennen aber weder den "wahren" Ort
      x^ (und y^) noch die Streuung σ.  Können wir diese Größen aus
      einer Reihe von "gemessenen" Einschußgrößen xi, i=1,...,N,
      bestimmen?

      Von Interesse ist nur x^, das wir aber nur nach einer unendlichen
      und daher unmöglichen Schußreihe ermitteln könnten.  Wir werden
      uns irgendwie aus den xi einen Wert x˜͂ als sog.  "Schätzung" von
      x^ berechnen.  Dies geht natürlich nur aus den beobachteten Größen
      xi, und da diese zufällig sind, wird auch unsere Schätzung x˜͂
      zufällig sein.  Es wird sich zeigen, daß man aus einer Schätzung
      σ˜͂ für σ, die wir uns natürlich auch nur aus den xi irgendwie
      berechnen können (hoffentlich!), auch die Streuung der Schätzung
      x˜͂, nennen wir sie σ(x˜͂)˜͂, schätzen kann!  Wir erhalten also eine
      Angabe zur Genauigkeit unserer Schätzung x˜͂!

      Alles läuft also auf eine Methode hinaus, die uns sog.
      Schätzungen x˜͂ und σ˜͂ liefert.

      Nach Gauß können wir nach der sog.  Methode der kleinsten Quadrate
      einen Schätzwert x˜͂, der natürlich möglichst nahe dem "wahren" x^
      kommen soll, nach folgender Vorschrift bestimmen:

          1. Jeder Meßwert xi kann als Summe der unbekannten Größe
             x^ und des wahren Meßfehlers εi betrachtet werden:

             xi = x^ + εi ,   i = 1,   ..., N.

          2. Man bestimme einen Schätzwert x˜͂ für x^ derart, daß
             die Quadratsumme Q der "scheinbaren" Fehler vi = xi-x˜͂
             minimal wird:

                 N          N
             Q = Σ (vi)² =  Σ (xi-x˜͂)² sei minimal.
                i=1        i=1

      Diese Vorschrift führt zum bekannten Ergebnis, nämlich dem
      Mittelwert:

               1   N
          x˜͂ = ─ ∙ Σ xi ,
               N  i=1

      d.h., der Mittelwert der Meßwerte wird als Schätzwert für die
      unbekannte Größe x^ genommen.  Weiter gibt Gauß auch Schätzungen
      für die Streuung σ(xi):  σ(xi)˜͂, sowie für die Streuung σ(x˜͂):
      σ(x˜͂)˜͂, an.  Nach Gauß werden σ(xi)˜͂ und σ(x˜͂)˜͂ auch "mittlerer
      Fehler der Einzelmessung" bzw.  "mittlerer Fehler des
      Mittelwertes" genannt.  Zusammengefaßt haben wir nach Gauß:

          ┌───────────────────────────────────────────────────┐
          │                                                   │
          │          1   N                                    │
          │  x˜͂    = ─ ∙ Σ xi              Mittelwert         │
          │  ▀▀      N  i=1                ▀▀▀▀▀▀▀▀▀▀         │
          │                                                   │
          │  ───────────────────────────────────────────────  │
          │                                                   │
          │                                                   │
          │           ┌               ┐½                      │
          │           │ 1   N         │    Mittlerer Fehler   │
          │  σ(xi)˜͂ = │───∙ Σ (xi-x˜͂)²│    der Einzelmessung  │
          │  ▀▀▀▀▀▀   │N-1 i=1        │    ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀  │
          │           └               ┘                       │
          │                                                   │
          │           σ(xi)˜͂               Mittlerer Fehler   │
          │  σ(x˜͂)˜͂ = ──────               des Mittelwertes   │
          │  ▀▀▀▀▀▀     √N                 ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀   │
          │                                                   │
          └───────────────────────────────────────────────────┘  .

      Ferner zeigt Gauß, daß diese Schätzung optimal ist, keine andere
      Schätzung liefert kleinere Fehler.  Die Schätzungen x˜͂,σ(xi)˜͂² und
      σ(x˜͂)˜͂² sind außerdem nicht "systematisch" verfälscht.

      Nach diesen mehr allgemeinen Betrachtungen soll nun schließlich
      die von R. A. Fisher stammende Methode der Maximum Likelihood
      betrachtet werden.

      Kehren wir nochmals zu unseren Würfeln zurück!  Wir würfeln mit
      zwei Würfeln, Würfel A und B.  Frage:  Wie groß ist die
      Wahrscheinlichkeit, daß Würfel A eine 2 und Würfel B eine 5 zeigt?

      Wir können davon ausgehen, daß die Würfel nichts voneinander
      "wissen", d. h., sie sind voneinander unabhängig.  Tragen wir in
      der Ebene die Zahlenpaare auf, die wir bei jedem Doppelwurf
      erhalten können, in ein 6x6-Gitter ein, in x-Richtung die Werte
      des Würfels A und in y-Richtung die Werte des Würfels B:

                     ┌───┬───┬───┬───┬───┬───┐
                   6 │   │░░░│   │   │   │   │
                     ├───┼░░░┼───┼───┼───┼───┤
                   5 │▒▒▒▒▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒│
                     ├───┼░░░┼───┼───┼───┼───┤
                   4 │   │░░░│   │   │   │   │
          Würfel B   ├───┼░░░┼───┼───┼───┼───┤
                   3 │   │░░░│   │   │   │   │
                     ├───┼░░░┼───┼───┼───┼───┤
                   2 │   │░░░│   │   │   │   │
                     ├───┼░░░┼───┼───┼───┼───┤
                   1 │   │░░░│   │   │   │   │
                     └───┴───┴───┴───┴───┴───┘
                       1   2   3   4   5   6
                              Würfel A          .

      Die Spalten entsprechen den Wahrscheinlichkeiten des Würfels A,
      die Zeilen denen des Würfels B.  Jeder Doppelwurf wird durch einen
      Platz in dem Gitter beschrieben.  Offensichtlich sind alle Zellen
      gleich wahrscheinlich, die Wahrscheinlichkeit beträgt je
      Gitterzelle natürlich 1/36.  Also ist die Wahrscheinlichkeit, daß
      A eine 2 und B eine 5 zeigt gerade das Produkt aus den
      Wahrscheinlichkeiten mit der eine 2 bei A und eine 5 bei B
      auftreten, also gerade 1/36.  Kurz, die Wahrscheinlichkeit des
      Paares (2,5) ist das Produkt der Wahrscheinlichkeiten von 2 und 5,
      was wir etwa so schreiben könnten:

          P(2,5) = P(2)∙P(5) .

      Frage:  Wie groß ist die Wahrscheinlichkeit, daß bei sechs
      aufeinander folgenden Würfen die Zahlen (1,2,3,4,5,6) auftreten?
      Antwort:

                                                       ┌   ┐6
          P(1,2,3,4,5,6)=P(1)∙P(2)∙P(3)∙P(4)∙P(5)∙P(6)=│1/6│ =1/46656.
                                                       └   ┘

      Betrachten wir nun die Wahrscheinlichkeit, daß bei unseren
      Schießversuchen zwei bestimmte x-Werte:  (x1,x2) gemessen werden.
      Wir haben wieder unabhängige Ereignisse, also können wir die
      Wahrscheinlichkeit als Produkt der zwei Einzelwahrscheinlichkeiten
      erhalten.  Da wir es mit einer kontinuierlichen
      Wahrscheinlichkeitsdichte zu tun haben, ist z. B.  die
      Wahrscheinlichkeit des Auftretens von x1 bzw x2:

          dW(xi) = f(xi)∙dx, i=1,2.

      Also gilt:

          dW(x1,x2) = dW(x1)∙dW(x2) = f(x1)∙f(x2)∙dx².

      dx² ist ein 2-dimensionales "differentielles" Volumenelement.
      Haben wir nicht 2, sondern N Einschüsse x1, ..., xN gemessen, so
      ist offenbar die Wahrscheinlichkeit, daß gerade diese Meßwertfolge
      auftritt, gegeben durch:

                N
          dW =  π f(xi)∙dxⁿ ,  n=N.
               i=1

      Wir definieren nun die sog.  "Likelihoodfunktion" L und ihren
      natürlichen Logarithmus, die sog.  "Logarithmische
      Likelihoodfunktion" l = ln(L):

          ┌──────────────────────────────────────────┐
          │       N                                  │
          │  L =  π f(xi),       Likelihoodfunktion  │
          │  ▀   i=1             ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀  │
          │                                          │
          │       N                                  │
          │  l =  Σ ln(f(xi))    Logarithmische      │
          │  ▀   i=1             Likelihoodfunktion  │
          │                      ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀  │
          └──────────────────────────────────────────┘  .

      Wir können bei bekannter Wahrscheinlichkeitsdichte f die
      Likelihoodfunktion L berechnen.  L ist die Wahrscheinlichkeit, daß
      die Meßwerte x1,...,xN im N-dimensionalen differentiellem
      Volumenelement dxⁿ vorkommen.  Weiß man, daß f die Gaußfunktion
      ist, kennt aber nicht deren Parameter x^,σ, so hängt L für die
      gemessenen xi von der Wahl der Parameter x,s ab.  Sicherlich würde
      L besonders groß, wenn x,s möglichst nahe bei den wahren
      Parametern x˜͂,σ lägen.

      Die Methode der Maximum Likelihood besteht nun darin die Parameter
      x,s so zu bestimmen, daß L maximal wird.

      Wir betrachten nun L für fest gegebene xi speziell als Funktion
      der zwei Parameter x,s:

                          N
          L = L( x, s) =  π f(xi; x,s)   .
                         i=1

      Wie bestimmen wir das Maximum der Likelihoodfunktion L(x,s)?  Eine
      notwendige Voraussetzung für ein Maximum ist, daß die partiellen
      Ableitungen nach x und s zugleich Null sind.  Wir nehmen weiterhin
      das Beispiel der gemessenen x-Werte unserer Einschüsse.  Wir haben
      guten Grund zur Annahme, daß die x-Werte nach Gauß verteilt sind
      und trachten Schätzungen für x^ und σ, nämlich x˜͂ und σ˜͂ zu
      bestimmen.

      Die Ableitung der Likelihoodfunktion L ist sehr schwierig, da sie
      aus einem mehrfachen Produkt besteht.  Die logarithmische
      Likelihoodfunktion l hat aber, da der Logarithmus eine streng
      monoton wachsende Funktion ist, an derselben Stelle ihr Maximum
      wie L, ist aber sehr einfach abzuleiten.  Benutzen wir also l
      statt L!  Die Funktion l lautet:

                    ┌                             ┐
                    │               ┌            ┐│
                    │               │   ┌      ┐2││
               N    │      1        │ 1 │ xi-x │ ││
          l =  Σ  ln│───────────∙exp│-─∙│ ──── │ ││ ,
              i=1   │   ┌    ┐½     │ 2 │   s  │ ││
                    │ s∙│ 2∙π│      │   └      ┘ ││
                    │   └    ┘      └            ┘│
                    └                             ┘

                  ┌                               ┐
                  │                     ┌      ┐2 │
               N  │  1                1 │ xi-x │  │
          l =  Σ  │ -─∙ln(2π) -ln(s) -─∙│ ──── │  │ ,
              i=1 │  2                2 │   s  │  │
                  │                     └      ┘  │
                  └                               ┘

                                        ┌      ┐2
               N                  1  N  │ xi-x │
          l = -─∙ln(2π) -N∙ln(s) -─∙ Σ  │ ──── │  ,
               2                  2 i=1 │   s  │
                                        └      ┘

                        N                   1    N
          l = l(x,s) = -─∙ln(2π) -N∙ln(s) -────∙ Σ (xi-x)² .
                        2                  2∙s² i=1

      Sogleich können wir eine Aussage machen bezüglich der Wahl der
      Variablen x, um l maximal zu machen:  Eine Notwendigkeit ist
      offenbar, daß das Summenglied minimal sein muß:

           N
           Σ  (xi-x)² = Q sei minimal!
          i=1

      Das ist aber gerade die nach Gauß geforderte Bedingung für die
      Methode der kleinsten Quadrate!  Leiten wir l nach x ab und setzen
      die Ableitung = 0:

          dl    1  N
          ── = ──∙ Σ (xi-x) = 0 ,
          dx   s² i=1

                   N
                   Σ (xi-x) = 0 ,
                  i=1

                   N
                   Σ xi = N∙x  ,  --->
                  i=1

               1  N
          x˜͂ = ─∙ Σ xi  .
               N i=1

      Die Ableitung nach s liefert entsprechend:

          dl    N     1   N
          ── = -─ + ────∙ Σ (xi-x)² = 0 ,
          ds    s   s²∙s i=1

               1  N
          N = ──∙ Σ (xi-x˜͂)²  ,
              s² i=1

               1  N
          s² = ─∙ Σ (xi-x˜͂)²  ,   --->
               N i=1

                   ┌             ┐½
                   │1  N         │
          s(xi)˜͂ = │─∙ Σ (xi-x˜͂)²│  .
                   │N i=1        │
                   └             ┘

      Wir haben also als sog.  Maximum-Likelihood-Schätzung einer
      Einzelgröße, für die N Messungen durchgeführt wurden, erhalten:

          ┌─────────────────────────────────────────────────┐
          │      1  N                                       │
          │ x˜͂ = ─∙ Σ xi                                    │
          │      N i=1                                      │
          │                             Maximum-Likelihood- │
          │          ┌             ┐½   Schätzung           │
          │          │1  N         │                        │
          │ s(xi)˜͂ = │─∙ Σ (xi-x˜͂)²│                        │
          │          │N i=1        │                        │
          │          └             ┘                        │
          └─────────────────────────────────────────────────┘  .

      Die Schätzung des Erwartungswertes x˜͂ ist mit der gaußschen Lösung
      identisch, die Schätzung der Streuung der Einzelwerte s(xi)˜͂ ist
      um √(N/(N-1)) zu klein, also nicht mit der richtigen Lösung
      übereinstimmend.  Für eine weitere Betrachtung von l=l(x,s) wollen
      wir l an der Stelle der geschätzten Parameter x˜͂ und s˜͂ in eine
      Taylorreihe bis zur zweiten Ordnung entwickeln:

                         dl                 dl
          l = l(x˜͂,s˜͂) + ──(x˜͂,s˜͂)∙(x-x˜͂) + ──(x˜͂,s˜͂)∙(s-s˜͂)
                         dx                 ds

            1 d²l                   d²l
          + ─∙───(x˜͂,s˜͂)∙(x-x˜͂)² + ─────(x˜͂,s˜͂)∙(x-x˜͂)∙(s-s˜͂)
            2 dx²                  dx∙ds

            1 d²l
          + ─∙───(x˜͂,s˜͂)∙(s-s˜͂)² + Glieder höherer Ordnung.
            2 ds²

      Da aber gerade wegen der Maximumbedingung die Ableitungen erster
      Ordnung von l an der Stelle x=x˜͂ und s=s˜͂ Null sind, fallen diese
      Glieder und auch das Glied der gemischten Ableitungen weg.  Mit
      den Ableitungen zweier Ordnung:

          d²l   -N       d²l   -2∙N
          ─── = ─── ,    ─── = ────  ,
          dx²   s˜͂²      ds²    s˜͂²

      erhält man unter Vernachlässigung der Glieder höherer Ordnung:

                              1  N            1 2∙N
          l(x,s) = l(x˜͂,s˜͂) - ─∙───∙(x-x˜͂)² - ─∙───∙(s-s˜͂)² .
                              2 s˜͂²           2 s˜͂²

      Gehen wir nun wieder zur nichtlogarithmischen Likelihoodfunktion L
      durch Anwendung der Exponentialfunktion auf beiden Seiten:

                             ┌                       ┐
                             │  ┌                   ┐│
                             │ 1│ (x-x˜͂)²   (s-s˜͂)² ││
          L = L(xi;x˜͂,s˜͂)∙exp│-─│ ─────── + ──────  ││ ,
                             │ 2│  s˜͂²/N    s˜͂²/2N  ││
                             │  └                   ┘│
                             └                       ┘

      so haben wir es bezüglich x,s mit einer Gaußfunktion zu tun, aus
      der wir sogleich die Schätzung der Varianzen zu x˜͂ und s˜͂
      entnehmen können, sie lauten:

                     s˜͂²                s˜͂²
          s(x˜͂)˜͂² = ──── ,   s(s˜͂)˜͂² = ──── , und daher:
                     N                 2∙N

                    s˜͂                   s˜͂
          s(x˜͂)˜͂ := ──  ,    s(s)˜͂  := ─────   .
                    √N                 √(2N)

      Wir haben also für unser Beispiel, die Schätzung einer
      Einzelgröße, nicht nur Schätzungen für Erwartungswert und Streuung
      der Einzelmeßwerte erhalten:  x˜͂,s(xi)˜͂, vielmehr erhalten wir
      auch die Streuung des Mittelwertes:  s(x˜͂)˜͂ sowie Schätzungen für
      die Streuungen der geschätzten Streuungen von Einzelmessung bzw.
      Mittelwert:  s(s(xi)˜͂)˜͂,s(s(x˜͂)˜͂)˜͂.  Ohne Beweis sei noch gesagt,
      daß die Maximum-Likelihood-Schätzungen nicht notwendig
      erwartungstreu sind, wie in unserem Beispiel bezüglich der
      Schätzung der Streuung, daß sie aber für N-->∞ asymptotisch
      erwartungstreu und gaußverteilt werden, und daß sie dann die
      bestmögliche Schätzung überhaupt liefert!  Für unseren Fall der
      Schätzung einer Größe zusammengefaßt:

          ┌───────────────────────────────────────────────────────┐
          │                                                       │
          │              Maximum-Likelihood-Schätzung             │
          │              ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀             │
          │            einer Einzelgröße aus N Meßwerten          │
          │            ▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀          │
          │                                                       │
          │                                                       │
          │              1  N                                     │
          │ x˜͂         = ─∙ Σ xi           Mittelwert             │
          │              N i=1                                    │
          │                                                       │
          │              ┌             ┐½                         │
          │              │1  N         │                          │
          │ s(xi)˜͂     = │─∙ Σ (xi-x˜͂)²│   Streuung Einzelmessung │
          │              │N i=1        │                          │
          │              └             ┘                          │
          │                                                       │
          │              s(xi)˜͂                                   │
          │ s(x˜͂)˜͂     = ─────             Streuung Mittelwert    │
          │                √N                                     │
          │                                                       │
          │              s(xi)˜͂                                   │
          │ s(s(xi)˜͂)˜͂ = ──────            Streuung der Streuung  │
          │               √(2N)            der Einzelmessung      │
          │                                                       │
          │                                                       │
          │              s(x˜͂)˜͂                                   │
          │ s(s(x˜͂)˜͂)˜͂ = ──────            Streuung der Streuung  │
          │               √(2N)            des Mittelwertes       │
          │                                                       │
          │                                                       │
          │      Ferner gilt für N ---> ∞ :                       │
          │                                                       │
          │      1) die Schätzung ist erwartungstreu,             │
          │      2) die Schätzung ist normalverteilt,             │
          │      3) es ist die bestmögliche Schätzung überhaupt.  │
          │                                                       │
          └───────────────────────────────────────────────────────┘  .

      Wir können jetzt etwa eine Aussage machen über die relative
      Sicherheit einer Fehlerangabe:  So ist z. B.  der relative Fehler
      des mittlere Fehlers:

          s(s(xi)˜͂)˜͂     1
          ────────── = ─────  ,
            s(xi)˜͂     √(2N)

      d.h., haben wir eine Messung mit z. B.  8 Meßwerten ausgewertet
      und den mittleren Fehler dazu berechnet, so ist dieser nur auf ca.
      ±25% verläßlich.

      Wir hatten hier den Fall unabhängiger gaußverteilter Messungen
      behandelt.  Die Methode ist aber auch ohne diese Einschränkungen
      zu verwenden, insbesondere also auch für korrelierte oder nicht
      gaußverteilte Messungen.