3.3. WPROWADZENIE DO BIOSTATYSTYCZNEJ ANALIZY DANYCH ZA POMOCĄ R
Biostatystyka jest nauką zajmującą się zbieraniem, analizą i interpretacją danych w celu wydobycia informacji i wniosków na temat badanych zjawisk. Programowanie w języku R to popularne narzędzie w analizie danych, które umożliwia przeprowadzenie różnorodnych statystycznych obliczeń i wizualizacji. W tym wprowadzeniu do statystycznej analizy danych za pomocą R, zaprezentujemy kilka bardzo prostych przykładów kodów oraz ich wyników, aby pokazać, jak można wykorzystać R do analizy danych. Więcej na ten temat przeczytasz w naszym artykule „Porównanie oprogramowania statystycznego: R, Statistica, SPSS”.
Instalacja i uruchomienie R
Na początek musimy zainstalować R na naszym komputerze. Możesz pobrać najnowszą wersję R ze strony [https.//cran.r-project.org/](https.//cran.r-project.org/) i zainstalować ją zgodnie z instrukcjami dostępnymi na tej stronie.
Po zainstalowaniu R możesz uruchomić go poprzez kliknięcie ikony programu lub wpisując `R` w wierszu poleceń systemu operacyjnego.
Podstawy R
R to język programowania i środowisko do analizy danych, dlatego warto poznać kilka jego podstawowych zasad. Na początek możemy przypisać wartość do zmiennej, na przykład.
liczba <- 5
Teraz zmienna `liczba` zawiera wartość 5. Możemy wyświetlić jej zawartość za pomocą polecenia `print`.
print(liczba)
To wyświetli „5” na konsoli.
Przykład 1. Obliczanie średniej arytmetycznej.
Załóżmy, że mamy zestaw pomiarów temperatury w stopniach Celsiusza w ciągu pięciu dni.
temperatury <- c(20, 22, 19, 23, 21)
Teraz możemy obliczyć średnią arytmetyczną tych temperatur za pomocą funkcji `mean`.
srednia_temp <- mean(temperatury)
print(srednia_temp)
Otrzymamy wynik 21, co jest średnią arytmetyczną tych pięciu pomiarów temperatury.
Przykład 2. Tworzenie wykresu histogramu.
Aby zobaczyć rozkład tych temperatur na wykresie histogramu, możemy użyć funkcji `hist`.
hist(temperatury, main=”Histogram Temperatury”, xlab=”Temperatura (°C)”, ylab=”Liczba Dni”)
To polecenie wygeneruje wykres histogramu, na którym można zobaczyć, jak często występują różne temperatury w naszym zestawie danych.
Przykład 3. Test t-studenta.
Załóżmy teraz, że mamy dwie grupy pacjentów i chcemy sprawdzić, czy istnieje istotna różnica w średnich wartościach jakiejś zmiennej między tymi grupami. Możemy użyć testu t-studenta do porównania średnich. Załóżmy, że mamy grupę kontrolną i grupę eksperymentalną i chcemy porównać średnie wyniki testu IQ.
grupa_kontrolna <- c(100, 105, 110, 115, 120)
grupa_eksperymentalna <- c(90, 95, 100, 105, 110)
Teraz możemy użyć funkcji `t.test`.
wynik_testu <- t.test(grupa_kontrolna, grupa_eksperymentalna)
print(wynik_testu)
Wynik testu t-studenta zostanie wyświetlony na konsoli i pomoże nam ocenić, czy istnieje istotna różnica między średnimi wynikami testu IQ w obu grupach.
To tylko krótka ilustracja tego, jak można wykorzystać R do prostych analiz danych. R oferuje znacznie więcej funkcji i możliwości, które pozwalają na zaawansowane analizy statystyczne, tworzenie wykresów, budowanie modeli itp. Dla osób, które nie mają doświadczenia w programowaniu i analizie danych, warto zacząć od prostych przykładów, takich jak te, aby zdobyć pewność i zrozumienie działania narzędzia.
R jest popularnym narzędziem wśród badaczy, naukowców i analityków danych, ponieważ jest bezpłatny, otwartoźródłowy i posiada bogatą społeczność użytkowników, co oznacza, że istnieje wiele dostępnych materiałów szkoleniowych i wsparcia. Jeśli jesteś zainteresowany analizą danych, R może być doskonałym narzędziem do rozpoczęcia przygody z tym obszarem.