Kategorie
Programowanie w R

Kurs programowania w R; {Lekcja 1}

R – Środowisko Analizy Statystycznej.

Przed rozpoczęciem właściwej nauki analizy danych w środowisku R, chciałbym przedstawić kilka słów wstępu.

Na początek chciałbym odpowiedzieć na następujące pytania:

  • Czym jest język programowania R?
  • Gdzie jest wykorzystywany?
  • Do czego jest używany?

(…) R – interpretowany język programowania oraz środowisko do obliczeń statystycznych i wizualizacji wyników. (…) R jest podstawowym językiem programowania w bioinformatyce, spopularyzowanym głównie dzięki stworzonemu przez Roberta Gentlemana repozytorium Bioconductor. Artykuły Gentlemana o R i Bioconductorze należą do najczęściej cytowanych w bioinformatyce (ponad 4000 cytowań według Google Scholar).

https://pl.wikipedia.org/

R czyli integralny język programowania, w głównej mierze, może być wykorzystywane jako podstawowe narzędzie do pracy z dużą ilością danych {analizą danych}. R stosowany jest w bankowości bądź odrębnych instytucjach finansowych, a także w wielu, ogromnych firmach, np.:

  • {Facebook,
  • Google,
  • Merck,
  • Altera,
  • Pfizer,
  • LinkedIn,
  • Shell,
  • Novartis,
  • Ford,
  • Mozilla,
  • czy Twitter}

Warto w tym miejscu dodać, iż istnieje spersonalizowana {pod kątem systemu R} wyszukiwarka, za pomocą której możemy wyszukiwać informacje na temat środowiska R, tj. rseek.org – rstats search engine.

Następnie chciałbym zilustrować małą ściągę {która będzie niezwykle pomocna przy właściwej nauce programowania w języku R} najczęściej używanych komend i skrótów w systemie R:

Ściąga na pierwszą lekcję.

  • {Strzałka w górę; przywoływanie wykonanych wcześniej komend;
  • CTRL + L; czyszczenie ekranu;
  • CTRL + ALT + I; tworzymy nowy „chunk”, tj. fragment kodu;
  • CTRL + SHIFT + C; komentujemy zaznaczony fragment;
  • CTRL + ENTER; uruchamiamy zaznaczony fragment poleceń;
  • ALT + SHIFT + K; wczytujemy podgląd użytecznych skrótów klawiaturowych w RStudio;
  • setwd(); ustawianie katalogu roboczego;
  • ls(), ls(2); dostępne obiekty w bieżącym środowisku R;
  • getwd(), setwd(); ustawienie i sprawdzenie katalogu roboczego;
  • source(„jakaś_nazwa_skryptu.R”); wczytywanie kodu R z pliku;
  • ?wpisujemy_nazwę_dowolnej_funkcji_obiektu; wywołujemy pomoc;
  • library(nazwa_danej_biblioteki); wczytujemy pakiet o wskazanej, w nawiasach, nazwie;
  • data(nazwa_zbioru_danych_w_bibliotece); wczytujemy zbiór danych.}

Na tym etapie chciałbym zacząć właściwą naukę środowiska R w interfejsie graficznym systemu R, tj. RStudio, które można pobrać odwiedzając oficjalną stronę oprogramowania. Dla ułatwienia podaję link: RStudio | Open source & professional software for data science teams – RStudio.

Na początku warto powiedzieć, iż każda zmienna w języku R jest tak naprawdę wektorem; a wielkość liter ma znaczenie.

Polecenia możemy wpisywać bezpośrednio w konsoli, lub w skrypcie, w tym celu potrzebujemy utworzyć nowy skrypt; klikając w File następnie New File na końcu wybierając opcję R Script, bądź, najwygodniej gdy dopiero uczymy się programować w R, w notatniku; {File, New File, R Notebook}. Wartości do zmiennych przypisujemy w następujący sposób:

character <- "to jest ciąg znaków"; integer <- 2L; double <- 3.5; logical <- TRUE

Uwaga, powyższe polecenie wpisałem w jednej linijce kodu, oddzielając zmienne separatorem ;. W systemie R nie musimy kończyć linijki kodu za pomocą ;, gdy przechodzimy do nowej linii klikając ENETER. Znak przypisania wartości do zmiennej (nazwy wektora) jest następujący <-. Dwuczłonową nazwę zmiennej możemy oddzielić kropką, np. nazwa.zmiennej.

Jeśli potrzebujemy sprawdzić typ zaimplementowanej zmiennej, musimy użyć następującego polecenia:

typeof(nazwa_zmiennej_dodana_do_bieżącego_środowiska)

Żeby móc zacząć wpisywać nowy kod w R Notebook, powinniśmy utworzyć nowy chunk, tj. fragment przestrzeni w notatniku do wpisywania kodu, za pomocą, wspomianego wyżej, skrótu na klawiaturze, czyli:

CTRL + ALT + I

Jeśli chcielibyśmy spojrzeć na utworzone w danym środowisku obiekty, możemy użyć funkcji objects() bądź ls(), która wyświetli obiekty przechowywane aktualnie w pamięci środowiska R. Możemy również wykonać powyższą czynność klikając na zakładkę Environment w oknie dialogowym RStudio. Natomiast jeśli chcielibyśmy usunąć dany element z bieżącego środowiska użyjmy komendy: rm(nazwa_obiektu_który_chcielibyśmy_usunąć).

Każdą lekcję chciałbym zakończyć przykładem, wraz z proponowanym rozwiązaniem. Przykład 1:

# Tworzony jest wektor wartości liczbowych

waga <-c (60, 72, 57, 90, 95)


# Wypisanie zawartości wektora na ekran

waga


# Kolejny wektor wartości

wzrost <-c (1.72, 1.80, 1.65, 1.90, 1.74)


# Wypisanie zawartość wektora

wzrost


# Deklaracja wektora "bmi" i przypisanie do niego wartości będących wynikiem operacji na dwóch przed chwilą utworzonych wektorach

bmi <-waga /wzrost^2


# Wypisanie zawartości na ekran

bmi

Zadanie do samodzielnego wykonania:

  • Stwórz wektor zawierający liczby całkowite;
  • Stwórz wektor zawierający liczby rzeczywiste;
  • Stwórz wektor zawierający wartości logiczne;
  • Stwórz wektor zawierający ciągi znaków;
  • Stwórz wektor zawierający inny wektor;

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.