<R 데이터 구조>
벡터: 동일한 유형의 데이터를 담는 R의 기본적인 1차원의 데이터 구조이다.
팩터: 명목형 또는 순서형 데이터를 담는 범주형 데이터 구조이다.
Tip) 범주형 데이터 : 설문한 사람이 남자인지 여자의 범주인지(성별)
행렬: 동일한 유형의 데이터를 담는 2차원의 데이터 구조이다.(벡터가 여러개 모임 )
데이터 프레임: 2차원의 데이터 구조를 갖고 있으나 여러 가지 유형을 가진다.
(데이터분석에 가장 많이 사용되는 데이터 구조)
데이터 테이블: 데이터 테이블은 데이터 프레임 보다 데이터의 가공이 편리하고 매우 빠른 수행 속도를 갖고 있는 데이터 구조이다.
리스트: 리스트를 구성하는 성분은 벡터, 행렬, 배열, 데이터프레임, 다른 리스트 등이 될 수 있고 성분의 길이와 차원이 동일할 필요가 없는 데이터 구조 이다.
<변수>
- 프로그램이 사용하는 데이터를 일시적으로 저장하기위해서 사용하는 메모리 공간이다.
- 변수에 데이터를 담을 때는 기호 "<-" 또는 "="를 사용한다. 여기서 변수명은 왼쪽에 둔다.
- 변수는 영문자, 숫자, 밑줄 문자(_) 를 활용한다
- 대, 소문자를 구별한다.
- 기본 용어 x
<자료형(mode)>
정수 인식 방법 x <- 100L
L을 붙이지 않으면 실수로 인식한다.
mode(x)
결과 "numeric"
typeof(x)
결과 "integer"
<백터>
- R에서 가장 기본적인 데이터 구조는 벡터이다.
- 벡터는 동일한 유형의 1차원 데이터를 담는 그릇이다.
- 벡터의 속성은 데이터의 유형, 길이, 원소의 이름이 있다.
- 함수 mode(), length(), names()를 이용하여 확인할 수 있다.
- 함수 c(), 수열 연산자(:), seq(), rep(), scan(), paste() 등을 이용하여 수치형, 문자형, 논리형 벡터를 생성할 수 있다.
- c는 concatenate의 약자이다.
tip) concatenate 연쇄시키다.
- xvec <- c(11, 22, 33, 44, 55) -> 백터 사용방법
tip)벡터의 값들에 타입이 다르면 가장 우선 순위가 높은 타입으로 통일된다.
문자열 > 정수형 > 불린타입
- 수열 연산자(:)에 의한 벡터 생성
seq()함수를 이용한 벡터 생성 - for 문과 비슷하다.
seq(from, to, by)
rep()함수를 이용한 벡터 생성
rep()는 일정한 규칙을 갖고 반복된 벡터를 생성하는 함수이다.
rep(x, times, each)
scan()함수를 이용한 벡터 생성
scan()함수를 이용하여 직접 콘솔에서 데이터를 입력 할 수 있고
외부파일에서 읽어 올 수도 있다.
scan(file, what, sep)
sep은 separate 의 약자이다.
what은 자료형이다.
paste() 함수를 이용한 반복되는 문자열 생성
paste()함수를 이용하여 반복되는 문자열을 쉽게 생성할 수 있다.
append함수는 완전히 새로운 벡터를 생성시키는 함수이며 기존 벡터에는 영향을 주지 않는다.
<벡터의 원소 추출>
첨자[]을 사용한 벡터의 원소 추출
첨자에 -숫자를 넣으면 숫자 번째의 값이 벡터에서 제거가 된다.
names()함수를 이용한 벡터의 접근
names()함수를 통해 각 배열의 항목에 이름이 붙는다.
배열에 붙은 이름을 통해 그 배열의 원소를 찾아낼 수 있다.
R에서 null값은 NA로 표현
mean은 평균을 계산하는 함수이다. 2번째 매개변수에 벡터의 값에 조건을 걸 수 있다.
그외 논리 연산자
x <- TRUE
isTRUE(x)
'빅데이터 자료처리' 카테고리의 다른 글
R언어 - 파일 입출력 & 반복문 테스트 (0) | 2020.07.07 |
---|---|
R 언어 - readTableHeader에 의하여 발견된 완성되지 않은 마지막 라인입니다 (0) | 2020.07.07 |
R언어 역사 & 설치 (0) | 2020.06.29 |