1.4. STATYSTYKI OPISOWE DLA ZMIENNYCH ILOŚCIOWYCH
Kiedy mamy do czynienia ze zmiennymi ilościowymi (czyli takimi, które można zmierzyć liczbami (np. wzrost, waga czy wiek), możemy zastosować narzędzia zwane „statystykami opisowymi”, które pomagają nam zrozumieć charakterystykę tych danych. Wyjaśnijmy, jakie są to statystyki i do czego służą.
Średnia arytmetyczna to prosta metoda obliczenia przeciętnej wartości w zbiorze danych liczbowych. Wystarczy dodać wszystkie wartości i podzielić przez liczbę tych wartości. Na przykład, jeśli mamy dane dotyczące wieku pięciu osób: 20, 25, 30, 35 i 40 lat, średni wiek można obliczyć, jako (20 + 25 + 30 + 35 + 40) / 5 = 30 lat. Średnia jest przydatna do uzyskania ogólnego „przeciętnego” wyniku.
Mediana to wartość, która dzieli zbiór danych na dwie równe części, tzn. połowa wartości jest mniejsza od mediany, a połowa jest większa. W przypadku danych uporządkowanych, mediana to po prostu środkowa wartość. Na przykład, dla danych: 5, 15, 20, 25, 30, mediana wynosi 20. Mediana jest bardziej odporna na wartości odstające niż średnia arytmetyczna.
Odchylenie standardowe (SD) to miara, która pokazuje, jak bardzo wartości w zbiorze różnią się od średniej arytmetycznej. Im większe odchylenie standardowe, tym dane są bardziej rozproszone. Małe odchylenie standardowe oznacza, że dane są zbliżone do średniej. Na przykład, w grupie studentów wiek 20, 21, 22, 23 i 24 lat, odchylenie standardowe jest niskie (wynosi 1,58), ponieważ wiek jest zbliżony do średniej.
Zakres to różnica między największą, a najmniejszą wartością w zbiorze danych. Pomaga on zrozumieć, jak bardzo dane są rozproszone. Na przykład, jeśli w grupie osób ich wzrost wynosi od 150 cm do 190 cm, to zakres wynosi 40 cm.
Kwartyle to trzy wartości, które dzielą dane na cztery równe części. Pierwszy kwartyl (Q1) dzieli dolne 25% danych i górne 75% danych, drugi kwartyl (Q2) to mediana, a trzeci kwartyl (Q3) dzieli górne 25% danych i dolne 75% danych. Kwartyle pomagają zrozumieć rozkład danych i identyfikować wartości odstające.
Wymienione miary pomagają nam zrozumieć, jak dane liczbowe się zachowują i jakie mają cechy charakterystyczne. Przy ich pomocy możemy uzyskać pierwszy ogólny obraz danych przed głębszą analizą. W kolejnych wpisach będziemy omawiać bardziej zaawansowane techniki analizy danych.
Jeśli chcesz zgłębić tę kwestię, polecamy artykuły: „Statystyki opisowe dla zmiennych jakościowych”, „Rozkłady prawdopodobieństwa: Klucz do zrozumienia statystyki”, „Znaczenie wielkości próby w analizie statystycznej”, „Błędy pomiarowe w statystyce”.