R – Środowisko Analizy Statystycznej.
Przed rozpoczęciem właściwej nauki analizy danych w środowisku R, chciałbym przedstawić kilka słów wstępu.
Na początek chciałbym odpowiedzieć na następujące pytania:
- Czym jest język programowania R?
- Gdzie jest wykorzystywany?
- Do czego jest używany?
(…) R – interpretowany język programowania oraz środowisko do obliczeń statystycznych i wizualizacji wyników. (…) R jest podstawowym językiem programowania w bioinformatyce, spopularyzowanym głównie dzięki stworzonemu przez Roberta Gentlemana repozytorium Bioconductor. Artykuły Gentlemana o R i Bioconductorze należą do najczęściej cytowanych w bioinformatyce (ponad 4000 cytowań według Google Scholar).
https://pl.wikipedia.org/
R czyli integralny język programowania, w głównej mierze, może być wykorzystywane jako podstawowe narzędzie do pracy z dużą ilością danych {analizą danych}. R stosowany jest w bankowości bądź odrębnych instytucjach finansowych, a także w wielu, ogromnych firmach, np.:
- {Facebook,
- Google,
- Merck,
- Altera,
- Pfizer,
- LinkedIn,
- Shell,
- Novartis,
- Ford,
- Mozilla,
- czy Twitter}
Warto w tym miejscu dodać, iż istnieje spersonalizowana {pod kątem systemu R} wyszukiwarka, za pomocą której możemy wyszukiwać informacje na temat środowiska R, tj. rseek.org – rstats search engine.
Następnie chciałbym zilustrować małą ściągę {która będzie niezwykle pomocna przy właściwej nauce programowania w języku R} najczęściej używanych komend i skrótów w systemie R:
Ściąga na pierwszą lekcję.
- {Strzałka w górę; przywoływanie wykonanych wcześniej komend;
- CTRL + L; czyszczenie ekranu;
- CTRL + ALT + I; tworzymy nowy „chunk”, tj. fragment kodu;
- CTRL + SHIFT + C; komentujemy zaznaczony fragment;
- CTRL + ENTER; uruchamiamy zaznaczony fragment poleceń;
- ALT + SHIFT + K; wczytujemy podgląd użytecznych skrótów klawiaturowych w RStudio;
- setwd(); ustawianie katalogu roboczego;
- ls(), ls(2); dostępne obiekty w bieżącym środowisku R;
- getwd(), setwd(); ustawienie i sprawdzenie katalogu roboczego;
- source(„jakaś_nazwa_skryptu.R”); wczytywanie kodu R z pliku;
- ?wpisujemy_nazwę_dowolnej_funkcji_obiektu; wywołujemy pomoc;
- library(nazwa_danej_biblioteki); wczytujemy pakiet o wskazanej, w nawiasach, nazwie;
- data(nazwa_zbioru_danych_w_bibliotece); wczytujemy zbiór danych.}
Na tym etapie chciałbym zacząć właściwą naukę środowiska R w interfejsie graficznym systemu R, tj. RStudio, które można pobrać odwiedzając oficjalną stronę oprogramowania. Dla ułatwienia podaję link: RStudio | Open source & professional software for data science teams – RStudio.
Na początku warto powiedzieć, iż każda zmienna w języku R jest tak naprawdę wektorem; a wielkość liter ma znaczenie.
Polecenia możemy wpisywać bezpośrednio w konsoli, lub w skrypcie, w tym celu potrzebujemy utworzyć nowy skrypt; klikając w File następnie New File na końcu wybierając opcję R Script, bądź, najwygodniej gdy dopiero uczymy się programować w R, w notatniku; {File, New File, R Notebook}. Wartości do zmiennych przypisujemy w następujący sposób:
character <- "to jest ciąg znaków"; integer <- 2L; double <- 3.5; logical <- TRUE
Uwaga, powyższe polecenie wpisałem w jednej linijce kodu, oddzielając zmienne separatorem ;
. W systemie R nie musimy kończyć linijki kodu za pomocą ;
, gdy przechodzimy do nowej linii klikając ENETER. Znak przypisania wartości do zmiennej (nazwy wektora) jest następujący <-
. Dwuczłonową nazwę zmiennej możemy oddzielić kropką, np. nazwa.zmiennej
.
Jeśli potrzebujemy sprawdzić typ zaimplementowanej zmiennej, musimy użyć następującego polecenia:
typeof(nazwa_zmiennej_dodana_do_bieżącego_środowiska)
Żeby móc zacząć wpisywać nowy kod w R Notebook, powinniśmy utworzyć nowy chunk
, tj. fragment przestrzeni w notatniku do wpisywania kodu, za pomocą, wspomianego wyżej, skrótu na klawiaturze, czyli:
CTRL + ALT + I
Jeśli chcielibyśmy spojrzeć na utworzone w danym środowisku obiekty, możemy użyć funkcji objects()
bądź ls()
, która wyświetli obiekty przechowywane aktualnie w pamięci środowiska R. Możemy również wykonać powyższą czynność klikając na zakładkę Environment w oknie dialogowym RStudio. Natomiast jeśli chcielibyśmy usunąć dany element z bieżącego środowiska użyjmy komendy: rm(nazwa_obiektu_który_chcielibyśmy_usunąć)
.
Każdą lekcję chciałbym zakończyć przykładem, wraz z proponowanym rozwiązaniem. Przykład 1:
# Tworzony jest wektor wartości liczbowych waga <-c (60, 72, 57, 90, 95) # Wypisanie zawartości wektora na ekran waga # Kolejny wektor wartości wzrost <-c (1.72, 1.80, 1.65, 1.90, 1.74) # Wypisanie zawartość wektora wzrost # Deklaracja wektora "bmi" i przypisanie do niego wartości będących wynikiem operacji na dwóch przed chwilą utworzonych wektorach bmi <-waga /wzrost^2 # Wypisanie zawartości na ekran bmi
Zadanie do samodzielnego wykonania:
- Stwórz wektor zawierający liczby całkowite;
- Stwórz wektor zawierający liczby rzeczywiste;
- Stwórz wektor zawierający wartości logiczne;
- Stwórz wektor zawierający ciągi znaków;
- Stwórz wektor zawierający inny wektor;