t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

Table of Contents

Was ist die z-Standardisierung? Beispiel z-Standardisierung z-Wert berechnen Verschiedene Datensätze vergleichen Voraussetzungen FAQs References

In diesem Tutorial geht es um die z-Standardisierung (z-Transformation). Wir besprechen was der z-Wert ist, wie die z-Standardisierung funktioniert und was die Standardnormalverteilung ist. Außerdem wird hier erklärt, was die z-Wert-Tabelle ist und wofür sie verwendet wird.

Was ist die z-Standardisierung?

Die z-Standardisierung ist ein statistisches Verfahren, das dazu dient, Datenpunkte aus verschiedenen Datensätzen vergleichbar zu machen. Bei diesem Verfahren wird jeder Datenpunkt in einen z-Score umgewandelt. Ein z-Score gibt an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert des Datensatzes entfernt ist.

Beispiel z-Standardisierung

Angenommen, du bist Arzt oder Ärztin und möchtest den Blutdruck deiner Patienten untersuchen. Dazu hast du bei einer Stichprobe von 40 Patienten den Blutdruck gemessen. Aus den gemessenen Daten kannst du nun den Mittelwert berechnen, also den Wert, den die 40 Patienten im Durchschnitt haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (1)

Nun fragt dich einer der Patienten, wie hoch sein Blutdruck im Vergleich zu den anderen Patienten ist. Du sagst ihm, dass sein Blutdruck 10mmHg über dem Durchschnitt liegt. Jetzt stellt sich natürlich die Frage, ob 10mmHg viel oder wenig ist.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2)

Wenn die anderen Patienten sehr eng um den Mittelwert streuen, dann sind 10 mmHg viel im Verhältnis zur Streuung. Wenn die anderen Patienten jedoch sehr weit um den Mittelwert streuen, dann sind 10 mmHg vielleicht nicht so viel.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (3)

Wie stark die Daten streuen, sagt uns die Standardabweichung. Wenn die Daten nahe am Mittelwert liegen, haben wir eine kleine Standardabweichung, wenn sie stark streuen, haben wir eine große Standardabweichung.

Sagen wir, für unsere Daten erhalten wir eine Standardabweichung von 20 mmhg. Das heißt, dass im quadratischen Mittel die Patienten um 20 vom Mittelwert abweichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (4)

Der z-Wert sagt uns nun, wie weit eine Person in Einheiten der Standardabweichung vom Mittelwert entfernt ist. Also eine Person, die eine Standardabweichung vom Mittelwert abweicht, hat einen z-Wert von 1, eine Person, die doppelt so weit vom Mittelwert abweicht, hat einen z-Wert von 2 und eine Person, die drei Standardabweichungen vom Mittelwert abweicht, hat einen z-Wert von 3.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (5)

Dementsprechend hat eine Person, die um minus eine Standardabweichung abweicht, einen z-Wert von -1, eine Person, die um minus zwei Standardabweichungen abweicht, einen z-Wert von minus 2 und eine Person, die um minus drei Standardabweichungen abweicht, einen z-Wert von minus 3.

Und wenn eine Person genau den Wert des Mittelwertes hat, dann weicht sie natürlich um null Standardabweichung vom Mittelwert ab und erhält den Wert null.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (6)

Der z-Wert gibt also an, wie viele Standardabweichungen ein Messwert vom Mittelwert entfernt ist. Wie bereits erwähnt, ist die Standardabweichung nur ein Maß für die Streuung des Blutdrucks der Patienten um den Mittelwert.

Kurz gesagt, der z-Wert hilft uns zu verstehen, wie außergewöhnlich oder normal ein bestimmter Messwert im Vergleich zum Gesamtdurchschnitt ist.

z-Wert berechnen

Wie berechnen wir den z-Wert? Wir wollen die Ausgangsdaten, in unserem Fall den Blutdruck, irgendwie in z-Werte umrechnen, also eine z-Standardisierung durchführen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (7)

Hier sehen wir die Formel für die z-Standardisierung. Hier ist z jener z-Wert, den wir berechnen wollen, x ist der beobachtete Wert, in unserem Fall der Blutdruck der betreffenden Person, μ ist der Mittelwert der Stichprobe, in unserem Fall also der Mittelwert aller 40 Patienten, und σ ist die Standardabweichung der Stichprobe, also die Standardabweichung unserer 40 Patienten.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (8)

Achtung: Eigentlich sind μ und σ der Mittelwert und die Standardabweichung der Grundgesamtheit. In unserem Fall haben wir aber nur eine Stichprobe. Unter bestimmten Voraussetzungen, auf die wir später noch eingehen werden, können wir jedoch den Mittelwert und die Standardabweichung mit Hilfe der Stichprobe schätzen.

Angenommen, in unserem Beispiel haben die 40 Patienten einen Mittelwert von 130 und eine Standardabweichung von 20. Wenn wir beide Werte einsetzen, erhalten wir für z: x-130 geteilt durch 20

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (9)

Nun können wir den Blutdruck von jedem einzelnen Patienten für x einsetzen und uns den z Wert berechnen. Machen wir das einfach mal für den ersten Patienten. Nehmen wir an, dieser Patient hat einen Blutdruck von 97, dann setzen wir einfach 97 für x ein und erhalten damit einen z-Wert von -1,65.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (10)

Diese Person weicht also um -1,65 Standardabweichungen vom Mittelwert ab. Das können wir jetzt für alle Patienten machen.

Unabhängig von der Einheit der Ausgangsdaten haben wir jetzt eine Übersicht, in der wir sehen können, wie weit eine Person vom Mittelwert in Einheiten der Standardabweichung abweicht.

Jetzt haben wir natürlich nur eine Stichprobe, die aus einer bestimmten Grundgesamtheit stammt. Aber wenn die Daten normalverteilt sind und die Stichprobengröße größer als 30 ist, dann können wir mit Hilfe des z-Wertes sagen, wie viel Prozent der Patienten einen niedrigeren Blutdruck als z.B. 110 haben und wie viel Prozent einen höheren Blutdruck als 110 haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (11)

Aber wie geht das? Wenn die Ausgangsdaten normalverteilt sind, erhalten wir durch die z-Standardisierung eine sogenannte Standardnormalverteilung.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (12)

Die Standardnormalverteilung ist eine bestimmte Art der Normalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (13)

Die Besonderheit besteht darin, dass jede Normalverteilung, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung, in eine Standardnormalverteilung umgewandelt werden kann.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (14)

Da wir nun eine standardisierte Verteilung haben, brauchen wir eigentlich nur noch eine Tabelle, die uns für möglichst viele z-Werte sagt, wie viel Prozent der Werte unter diesem Wert liegen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (15)

Und eine solche Tabelle findest du in fast jedem Statistik Buch oder hier: Tabelle der z-Verteilung. Jetzt ist natürlich die Frage, wie man diese Tabelle liest?

Wenn wir z.B. einen z-Wert von -2 haben, dann können wir aus dieser Tabelle einen Wert von 0,0228 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (16)

Das bedeutet, dass 2,28% der Werte kleiner als ein z-Wert von -2 sind. Da die Summe immer 10% oder 1 beträgt, sind 97,72 % der Werte größer.

Bei einem z-Wert von Null liegen wir genau in der Mitte und erhalten einen Wert von 0,5. Dies bedeutet, dass 50% der Werte kleiner als ein z-Wert von 0 und 50% der Werte größer als 0 sind. Da die Normalverteilung symmetrisch ist, können wir die Wahrscheinlichkeiten für positive z-Werte genau ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (17)

Wenn wir einen z-Wert von 1 haben, brauchen wir nur nach -1 zu suchen. Wir müssen jedoch beachten, dass wir in diesem Fall einen Wert erhalten, der uns sagt, wie viel Prozent der Werte größer als der z-Wert sind. Bei einem z-Wert von 1 sind also 15,81% der Werte größer und 84,14% der Werte kleiner.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (18)

Was aber, wenn wir z.B. aus der Tabelle einen z-Wert von -1,81 ablesen wollen? Dazu brauchen wir die anderen Spalten. Einen z-Wert von -1,81 können wir bei -1,8 und bei 0,01 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (19)

Nun schauen wir uns das Ganze noch einmal für einen Blutdruckwert an. Wenn wir z.B. wissen wollen, wie viel Prozent der Patienten einen Blutdruck unter 123 haben, können wir mit Hilfe der z-Standardisierung einen Blutdruck von 123 in einen z-Wert umrechnen. In diesem Fall erhalten wir einen z-Wert von -0,35.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (20)

Nun können wir die Tabelle mit den z-Verteilungen nehmen und nach einem z-Wert von -0,35 suchen. Hier haben wir einen Wert von 0,3632. Also 36,32 Prozent der Werte sind kleiner als ein z-Wert von -0,35 und 63,68 Prozent sind größer.

Verschiedene Datensätze vergleichen

Es gibt aber noch einen wichtigen Anwendungsfall für die z-Standardisierung. Die z-Standardisierung kann helfen, auf unterschiedliche Weise gemessene Werte vergleichbar zu machen. Hier ein Beispiel.

Angenommen, wir haben zwei Klassen, Klasse A und Klasse B, die einen unterschiedlichen Test in Mathematik geschrieben haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (21)

Die Tests sind unterschiedlich gestaltet, haben einen unterschiedlichen Schwierigkeitsgrad und eine unterschiedliche maximale Punktzahl.

Um die Leistungen der Schüler der beiden Klassen fair vergleichen zu können, können wir die Z-Standardisierung anwenden.

Die durchschnittliche Punktzahl bzw. der Mittelwert der Klasse A betrug 70 Punkte mit einer Standardabweichung von 10 Punkten. Die durchschnittliche Punktzahl für den Test in Klasse B betrug 140 Punkte mit einer Standardabweichung von 20 Punkten.

Wir wollen nun die Leistung von Max aus der Klasse A, der 80 Punkte erreicht hat, mit der Leistung von Emma aus der Klasse B, die 160 Punkte erreicht hat, vergleichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (22)

Hierfür berechnen wir den z-Wert von Max und Emma. Wir tragen für x einmal 80 ein und erhalten einen z-Wert von 1. Und wir tragen 160 für x ein und erhalten ebenfalls einen z-Wert von 1.

Die z-Werte von Max und Emma sind also gleich. Das bedeutet, dass beide Schulkinder in Bezug auf die durchschnittliche Leistung und die Streuung in ihrer jeweiligen Klasse gleich gut abgeschnitten haben. Beide liegen genau eine Standardabweichung über dem Mittelwert ihrer Klasse.

Voraussetzungen

Aber was ist mit den Voraussetzungen? Können wir einfach eine z-Standardisierung berechnen und die Tabelle der Standardnormalverteilung verwenden?

Die z-Standardisierung selbst, d.h. die Umrechnung der Datenpunkte in z-Werte mit Hilfe dieser Formel, unterliegt im Wesentlichen keinen strengen Voraussetzungen. Sie kann unabhängig von der Datenverteilung durchgeführt werden.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (23)

Wenn wir jedoch die resultierenden z-Werte im Kontext der Standardnormalverteilung für statistische Analysen verwenden (z.B. für Hypothesentests oder Konfidenzintervalle), müssen bestimmte Bedingungen erfüllt sein.

Die z-Verteilung setzt voraus, dass die zugrunde liegende Grundgesamtheit normalverteilt ist und dass der Mittelwert (μ) und die Standardabweichung (σ) der Grundgesamtheit bekannt sind.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (24)

Da in der Praxis aber selten die gesamte Grundgesamtheit vorhanden ist und auch Mittelwert und Standardabweichung meist nicht bekannt sind, ist diese Voraussetzung natürlich oft nicht erfüllt. Glücklicherweise gibt es aber noch eine alternative Voraussetzung.

Obwohl die z-Verteilung für normalverteilte Grundgesamtheiten definiert ist, kann der Zentrale Grenzwertsatz auf große Stichproben angewendet werden. Dieser Satz besagt, dass sich die Verteilung der Stichprobe einer Normalverteilung annähert, wenn der Stichprobenumfang größer als 30 ist.

Wenn also die Stichprobe größer als 30 ist, kann die Standardnormalverteilung als Annäherung verwendet werden und der Mittelwert und die Standardabweichung können mit Hilfe der Stichprobe geschätzt werden.

Wenn die Standardabweichung aus der Stichprobe geschätzt wird, schreibt man üblicherweise s anstelle von σ und für den Mittelwert x Strich anstelle von mu.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (25)

Die z-Standardisierung darf nicht mit dem z-Test oder dem t-Test verwechselt werden. Wenn du wissen möchtest, was der t-Test ist, kannst du dir das folgende Video ansehen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

FAQs

What is the difference between t-tests and ANOVA versus regression? ›

The t test can be thought of as a simple regression model with the covariate taking on only two values, and the ANOVA can also be viewed as a regression model with multiple covariates. More complicated ANOVA models can also be thought of in regression frameworks.

See Details ›

When to use t-test vs ANOVA vs chi-square? ›

While t-tests and ANOVA primarily deal with continuous dependent variables, Chi-Square tests come into play when there is a categorical dependent variable, often in the context of logistic regression.

Is ANOVA a correlation or regression? ›

Thus, ANOVA can be considered as a case of a linear regression in which all predictors are categorical. The difference that distinguishes linear regression from ANOVA is the way in which results are reported in all common Statistical Softwares.

Explore More ›

What is the difference between regression and chi-square test? ›

Chi-square test is used to analyze nominal data mostly in chi-square distributions (Satorra & Bentler 2001). The distribution of data in the chi-square distribution is positively skewed. Regression analysis is used to test the relationship between independent and dependent variables in a study.

Find Out More ›

Should I do ANOVA or regression? ›

If you're interested in predicting an outcome or understanding the relationship between variables, regression is your go-to method. But if your focus is on comparing means and determining whether differences are significant, ANOVA is the tool of choice.

Get More Info Here ›

Should I use a t-test or regression? ›

Using linear regression instead of a t test or ANOVA allows us to directly obtain estimates (differences between treatment groups) along with their confidence intervals instead of only P values. Additionally, interaction terms can be included, and the interaction can be evaluated.

Discover More ›

How do you know when to use ANOVA or t-test? ›

The Student's t test is used to compare the means between two groups, whereas ANOVA is used to compare the means among three or more groups. In ANOVA, first gets a common P value. A significant P value of the ANOVA test indicates for at least one pair, between which the mean difference was statistically significant.

Discover More Details ›

When should you use a chi-square test? ›

A chi-square test is used to help determine if observed results are in line with expected results and to rule out that observations are due to chance. A chi-square test is appropriate for this when the data being analyzed is from a random sample, and when the variable in question is a categorical variable.

Keep Reading ›

What is the difference between chi-square test and t-test and f test? ›

Both the t-test and the z-test are usually used for continuous populations, and the chi-square test is used for categorical data. The F- test is used for comparing more than two means.

When to use t test vs correlation? ›

Correlation is a statistic that describes the association between two variables. The correlation statistic can be used for continuous variables or binary variables or a combination of continuous and binary variables. In contrast, t-tests examine whether there are significant differences between two group means.

Read The Full Story ›

When to use regression? ›

This regression model is mostly used when you want to determine the relationship between two variables (like price increases and sales) or the value of the dependent variable at certain points of the independent variable (for example the sales levels at a certain price rise).

Show Me More ›

Is ANOVA equivalent to linear regression? ›

One of the most important things to understand about ANOVA and regression is that they're basically the same thing.

Discover More ›

Should I use t-test or chi-square? ›

The t-test and the chi-square test are two different statistical tests used for different types of data. The t-test is used to compare the means of two groups and is suitable for continuous numerical data. On the other hand, the chi-square test is used to examine the association between two categorical variables.

Discover More Details ›

When to use t-test? ›

A t-test may be used to evaluate whether a single group differs from a known value (a one-sample t-test), whether two groups differ from each other (an independent two-sample t-test), or whether there is a significant difference in paired measurements (a paired, or dependent samples t-test).

See Details ›

What is the difference between correlation and regression? ›

Regression: Difference between Correlation and Regression. Correlation measures the degree of relationship between two variables. Regression is about how one variable affects the other. To find the numerical value that defines and shows the relationship between two variables.

Get More Info Here ›

Why should you use ANOVA instead of several t-tests? ›

So, if two t-tests are being conducted, there is a 10% chance of conducting a Type I error. Using ANOVA in this scenario (that is comparing means of three or more groups) restricts the chance of Type I error to 5% and therefore results are more statistically significant.

Know More ›

What is the difference between t-test and F-test in regression? ›

The F-test can be applied on the large sampled population. The T-test is used to compare the means of two different sets. It says whether the mean of one group is significantly different from the other group. T-test can be either paired and normal.

Find Out More ›

When not to use ANOVA? ›

ANOVA requires the dependent variable to be continuous (interval/ratio), and the independent variable to be categorical (nominal/ordinal). If your variables do not meet these requirements, then ANOVA may not be the best choice.