취미/지식저장소

R프로그래밍에 대해 알아보자1

집순이@ 2017. 5. 22. 22:43

먼저 R을 이용하여 분석을 하기 위해서는 R을 다운받아야겠습니다.

 

주소 - www.r-project.org 로 접속해서 설치합니다.

 

CRAN 클릭 - MIrrors사이트 선택 - Download R 선택하고 설치해주면 끝입니다. 아주 간단합니다.

 

 

 

 

그럼 R 프로그램의 기초부터 시작해보겠습니다.

 

 1. 연속된 값 생성하기- 1~10까지의 연속된 벡터를 생성하고 이것을 a라고 정의한다라는 명령어를 입력해보겠습니다.  

 

>a=c(1:10)

>a

 

2. 다음은 생성된 벡터의 값에 대한 산술연산, 비교입니다. a라는 값을 3으로 나눈 경우 정수형 몫과 모듈을 나타내보겠습니다.

 

>a %/% 3

>a %% 3

 

3. 두 벡터의 값을 비교하는 경우에는 연산자 "="을 사용합니다. 결과는 T,F의 값을 갖게 됩니다.

 

>a= c(1:3) = c(3:1)

>a  

 

4. 난수생성

 정규분포를 따르는 난수를 생성하려면 rnorm() 함수를 이용합니다. 예를 들어 평균이 -5이고 표준편차가 2.5인 정규분포를 따르는 난수 10개를 생성하려면 다음과 같습니다.

 

> rnorm(10,-5,2.5)
 [1] -2.7803700 -0.3464758 -7.1952809 -5.0633734 -8.1614286 -0.1197488 -5.6233126 -6.8574556 -5.3734183 -6.8116372

 

 

다음은 행렬연산입니다. r시스템은 행렬연산에 능합니다. 행렬의 생성은 matrix( )함수를 이용합니다.

 

 

 1~12의 값을 갖는 벡터 x를 열의 수가 4인 행렬로 만들어 보겠습니다.

> x=c(1:12)
> x=matrix(x,ncol=4, byrow=T)
> x
     [,1] [,2] [,3] [,4]
[1,]    1    2    3    4
[2,]    5    6    7    8
[3,]    9   10   11   12
>

 

행렬이 만들어졌습니다. 다음은 모든 원소값이 같은 상수값을 갖는 행렬을 만들어봅니다.

 

> x=matrix(1,nrow=4,ncol=3)
> x
     [,1] [,2] [,3]
[1,]    1    1    1
[2,]    1    1    1
[3,]    1    1    1
[4,]    1    1    1

 

 

R에서 자주 이용되는 함수를 정리해봅니다.

ncol(x) : 열의 수

nrow(x) : 행의 수

t(x) : 전치행렬

cbind(...) : 열을 더할 때 이용되는 함수

rbind(...) : 행을 더할 때 이용디는 함수

diag(x) : 대각행렬

apply(x,m,fun) : 행 또는 열에 함수 적용

 x %*% y : 두 행렬의 곱

solve(x) : 역행렬

svd(x) singular Value Decomposition

qr(x) qr Dcomposition


 

 

R은 굉장히 많은 패키지를 가지고 있다. 패키지를 인스톨해서 다양한 분석을 할 수 있다.

파일을 불러오는 방법을 알아보겠습니다.

 

 ▶  library(xlsx) - library는 말그대로 불러온다는 뜻입니다. ()안에는 확장자명을 적어주시면 됩니다. 엑셀파일을 읽기위한 패키지의 설치가 완료됩니다.  

 ▶ survey.data=read.xlsx("c:/data/mva/survey/xlsx",1) - C의 data 폴더에 있는 파일명 survey라는 엑셀파일의 시트 1을 불러오라는 명령어 입니다.

▶  head(survey.data): 처음 6개의 zpdltmfmf qhduwnqslek.

▶  attach(survey.data): 변수들을 직접 사용하기 위한 기능을 수행합니다.

 

mean 평균, sd 표준편차, summary 5분위수 및 평균을 통해 기초통계량을 구할 수 있습니다.