Standardabweichung verstehen

Question

Standardabweichung verstehen

Hallo liebe Experten :)

Ich habe nochmal eine Frage zur mathematisch korrekten Auswertung von Praktikumsversuchen. Diesmal geht es um die Standardabweichung. In der Vorlesung wurde diese als Wurzel aus der Varianz definiert:

$\sigma=\sqrt{\frac{1}{n}\sum\limits_{i=1}^n\left(x_i-\overline x\right)^2}$ mit $\overline x=\frac{x_1+\ldots+x_n}{n}$

In einigen Praktukumsauswertungen wird aber stattdessen folgendes benutzt:

$\sigma=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n\left(x_i-\overline x\right)^2}$ mit $\overline x=\frac{x_1+\ldots+x_n}{n}$

Auf Wikipedia heißt das "empirische Standardabweichung" und unser Tutor sagt, die verwendet man immer, wenn man nur wenig Messpunkte hat, also $n$ klein ist.

Ich versuche das zu verstehen, was ist genau der Unterschied zwischen beiden bzw. ab welchem $n$ muss ich welche Formel nehmen?

Danke euch schon mal vorab für eure Mühe

Liebe Grüße

Patty

Gefragt 4 Jul 2019 von DiePatricia

3 Antworten

Aloha :)

Die erste Formel aus deiner Vorlesung ist falsch. Wenn man die korrekte Formel hinschreibt, wird der Unterschied zwischen den beiden Varianzen bzw. Standardabweichungen klar:

$$\sigma=\sqrt{\frac{1}{N}\sum\limits_{i=1}^N\left(x_i-\mu\right)^2}\quad;\quad\mu:=\sum\limits_{i=1}^Nx_i\cdot p_i$$$$\sigma_{emp}=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n\left(x_i-\overline x\right)^2}\quad;\quad\overline x=\sum\limits_{i=1}^nx_i\cdot\frac{1}{n}$$

In der ersten Formel steht der exakte Erwartungswert $\mu:=\sum_{i=1}^Nx_ip_i$. Diesen kannst du nur bestimmen, wenn du alle(!) möglichen Werte $\{x_i\}$ und die dazu passenden Eintrittswahrscheinlichkeiten $p_i$ kennst. Das groß geschriebene $N$ symbolisiert, dass die Summe über alle möglichen Werte $\{x_i\}$ gebildet werden muss.

Da dies bei empirischen Stichproben nie der Fall ist, nähert man den exakten Erwartungswert $\mu$ durch den Mittelwert $\overline x$ an. Dabei nimmt man an, dass alle $n$ Werte $x_i$ der Stichprobe mit derselben Wahrscheinlichkeit $\frac{1}{n}$ auftreten. Falls ein Wert $k$-fach auftritt, wird er entsprechend $k$-fach gezählt, sodass seine Eintrittswahrscheinlichkeit automatisch zu $\frac{k}{n}$ appromiert wird.

Der Unterschied zwischen beiden Formeln ist also, dass $\overline x$ ein Näherungswert für $\mu$ ist und dadurch selbst mit einem Fehler $\sigma(\overline x)=\sigma/\sqrt n$ behaftet ist, wie schnell aus der Gauß'schen Fehlerfortpflanzung folgt:

$$\sigma^2(\overline x)=\sigma^2\left(\sum\limits_{i=1}^n\frac{x_i}{n}\right)=\underbrace{\left(\frac{\delta x_1}{n}\right)^2+\cdots+\left(\frac{\delta x_n}{n}\right)^2}_{n \text{ Summanden}}=n\left(\frac{\sigma}{n}\right)^2=\frac{\sigma^2}{n}$$Dieser Fehler wirkt sich auf die Standardabweichung aus und vergrößert diese. Der Faktor $\frac{1}{n-1}$ ist gerade so gewählt, dass $\sigma^2=\left<\sigma_{emp}^2\right>$ gilt, dass also der Erwartungswert von $\sigma_{emp}^2$ gleich $\sigma^2$ ist.

Normalerweise würde ich meine Antwort hier jetzt beenden. Da du aber offenbar sehr interessiert daran bist, Mathematik wirklich tief zu verstehen, mache ich mir hier die Mühe und rechne den Erwartungswert von $\sigma_{\text{emp}}^2$ aus, um zu zeigen, dass dieser tatsächlich gleich $\sigma^2$ ist.

Im ersten Schritt bauen wir den Erwartungswert $\mu$ in die Formel ein:$$x_i-\overline x=x_i\underbrace{-\mu+\mu}_{=0}-\overline x=(x_i-\mu)+(\mu-\overline x)$$$$\Rightarrow (x_i-\overline x)^2=(x_i-\mu)^2+2(x_i-\mu)(\mu-\overline x)+(\mu-\overline x)^2$$$$\Rightarrow \sum\limits_{i=1}^n(x_i-\overline x)^2=\sum\limits_{i=1}^n(x_i-\mu)^2+\sum\limits_{i=1}^n2(x_i-\mu)(\mu-\overline x)+\sum\limits_{i=1}^n(\mu-\overline x)^2$$Die mittlere und letzte Summe kann man umschreiben:$$\sum\limits_{i=1}^n2(x_i-\mu)(\mu-\overline x)=2(\mu-\overline x)\sum\limits_{i=1}^n(x_i-\mu)=2(\mu-\overline x)(n\overline x-n\mu)=-2n(\mu-\overline x)^2$$$$\sum\limits_{i=1}^n(\mu-\overline x)^2=n\cdot(\mu-\overline x)^2$$und einsetzen, sodass:$$\Rightarrow \sum\limits_{i=1}^n(x_i-\overline x)^2=\sum\limits_{i=1}^n(x_i-\mu)^2-2n(\mu-\overline x)^2+n(\mu-\overline x)^2$$$$\Rightarrow \sum\limits_{i=1}^n(x_i-\overline x)^2=\sum\limits_{i=1}^n(x_i-\mu)^2-n(\mu-\overline x)^2$$Wegen der Linearität des Erwartungswertes gilt damit nun weiter:

$$\left<\sigma_{emp}^2\right>=\left<\frac{1}{n-1}\sum\limits_{i=1}^n\left(x_i-\overline x\right)^2\right>=\frac{1}{n-1}\left<\sum\limits_{i=1}^n(x_i-\mu)^2-n(\mu-\overline x)^2\right>$$$$=\frac{1}{n-1}\left(\sum\limits_{i=1}^n\underbrace{\left<(x_i-\mu)^2\right>}_{=\sigma^2}-n\underbrace{\left<(\overline x-\mu)^2\right>}_{=\sigma^2(\overline x)}\right)=\frac{1}{n-1}\left(n\sigma^2-n\cdot\frac{\sigma^2}{n}\right)=\sigma^2$$Du siehst also, dass hinter der einfachen Korrektur, nämlich Division durch $(n-1)$ anstatt durch $N$, viel Mathematik steckt.

Beantwortet 4 Jul 2019 von Tschakabumba

Lu · Answer 1 · 2019-07-04T12:20:54+0000

Ich vermute, dass in deinen Unterlagen oder in der Wikipedia der theoretische Hintergrund formal dargelegt wird.

Nimm mal an, es macht jemand einen einzigen Versuch. Dann ist x1 = xquer und unter der Wurzel steht bei der ersten Formel (1/1 * 0 ) . Somit resultiert 0 und man denkt, deine Messung sei exakt (geschätzte Standardabweichung 0) . Somit vermutest du aufgrund von einer einzigen Messung, dass du exakt gearbeitet hast. Das ist Quatsch. Mit n-1 dividierst du im Fall von nur einer Messung durch 0 und merkst selbst sofort, dass du noch nicht genug Messungen gemacht hast.

Ich versuche das zu verstehen, was ist genau der Unterschied zwischen beiden bzw. ab welchem n muss ich welche Formel nehmen?

Empirisch, d.h. bei Versuchen solltest du immer die Formel mit n-1 verwenden. Du machst hier eine Schätzung der Standardabweichung, da du nicht alle denkbaren Versuche durchgeführt hast. Die Schätzung ist sogenannt "erwartungstreu".

https://de.wikipedia.org/wiki/Schätzfunktion#Grundkonzepte:_Stichprobenvariablen_und_-funktionen

Der_Mathecoach · Answer 2 · 2019-07-04T12:23:27+0000

Das zweite Nimmst du eigentlich immer wenn du eine Stichprobe nimmst und keine Vollerhebung.

Notiere ich also das Gewicht aller 500 Schüler einer Schule und Interessiere mich dabei auch wie das Gewicht dieser Schüler mit Mittel abweicht nimmt man die erste Formel. Ich habe hier also quasi eine Vollerhebung.

Wenn mich das Gewicht von Importierten Bananen interessiert und ich mache eine Stichprobe von 500 Stück an unterschiedlichen Tagen und aus unterschiedlichen Kartons, dann ist das nur eine Stichprobe und ich nehme die zweite Formel.

Standardabweichung verstehen

3 Antworten

Ähnliche Fragen