본문 바로가기
지식/R 프로그래밍

R 프로그래밍 기초_그래프 그리기 기본<plot> 의 모든것

by 엉클윤 2021. 1. 18.

R 프로그래밍 관련 다른 포스팅

2021/01/06 - [R 프로그래밍] - R 프로그래밍 기초_ R 기본 개념 & 설치

2021/01/06 - [R 프로그래밍] - R 프로그래밍 기초_R 스튜디오 설치 및 기본 셋팅

2021/01/09 - [R 프로그래밍] - R 프로그래밍 기초_기본 인터페이스

2021/01/13 - [R 프로그래밍] - R 프로그래밍 기초_패키지 (Package)

2021/01/18 - [R 프로그래밍] - R 프로그래밍 기초_그래프 그리기 의 모든것

2021/01/19 - [R 프로그래밍] - R 프로그래밍 기초_기본 R 명령어 모음

2021/01/20 - [R 프로그래밍] - R 프로그래밍 기초_R 자료형과 데이터 구조

 

 

 

 

 

 

 

 

R을 사용하고자 한다면 어떤 목적이던 R을 이용한 그래프를 그리게 될 것이다.

어느정도 R 사용에 능숙해지면 ggplot이라는 패키지를 사용하여 대부분의 시각화 자료를 만들게 될 것이다.

그러나, 그 전에 R 자체에 포함되어 있는 기본 plot들을 다루는 방법을 연습해 보는 것이 나중을 위해 도움이 될 것이라 생각한다.

이번 포스팅에서는 R 자체에 내장된 도구들을 이용하여 가장 기본이 되는 plot들을 그리는 방법과 이를 위한 기본 명령어들에 대해 알아보겠다.

 


 

데이터셋 불러오기!

 

R 프로그램에는 자체적으로 사용자들이 연습할 수 있는 데이터셋이 몇 가지 내장되어 있다.

그중 하나는 "iris" 데이터셋이다.

"iris" 데이터셋은 3가지 종의 iris(붓꽃의 일종) 150개의 객체에 대해서 조사한 자료로써, 각 객체의 꽃받침과 꽃잎의 길이/넓이에 대한 정보가 들어있다.

 

 

 

 

내장된 데이터셋에 접근하기 위해서 먼저 library( ) 명령어를 이용해서 데이터셋을 불러오자

그리고 ?iris 를 입력하면 오른쪽 아래 Help 탭에서 "iris" 데이터셋에 대한 자세한 설명을 볼 수 있다.

 

 

 

 

 


데이터셋 파악하기!

 

좀 더 "iris" 데이터셋의 내용에 대해 직관적으로 알고 싶다면 head( ) 명령어나 summary( ) 명령어를 사용 할 수 있다.

head( ) 명령어는 각 데이터의 첫 6줄의 데이터를 보여준다.

위처럼 head(iris)를 실행하니 6개의 꽃 개체에 대한 Sepal.Length (꽃받침 길이), Sepal.Width (꽃받침 넓이), Petal.Length (꽃잎 길이), Petal.Width(꽃잎 넓이), 그리고 Species (어떤 종인지)를 보여준다.

 

 

 

 

한편, summary( ) 명령어를 이용하면 각 변수 (variable)의 통계값을 알 수 있다.

"Iris" 데이터셋은 5개의 변수를 가지고 있다. (꽃받침 길이, 꽃받침 넓이, 꽃잎 길이, 꽃잎 넓이, 품종)

summary(iris) 를 입력하니 각 길이와 넓이의 데이터는 숫자 형태이기에 6가지 통계 값을 보여주고, Species의 경우는 문자이기에 데이터셋에 해당 품종이 몇 개씩 있는지를 보여준다.

 

 

 

 

 


Plot 그리기!

 

 

이제 plot( )명령어를 이용하여 정말 그래프를 그려보도록 하자.

plot(iris)만 입력하였더니 오른쪽의 Plots탭에서 해당 데이터셋의 각 변수들을 x축, y축으로 하는 모든 분포도를 한 번에 보여준다.

Zoom 버튼을 클릭하면 새로운 창으로 볼 수 있다.

새로운 데이터셋을 분석하려고 할때 이렇게 전체 plot을 보면 값들을 좀 더 직관적으로 이해하는데 도움이 되기도 한다.

 

 

 

 

원하는 변수만을 사용하여 그래프를 그리고 싶다면 아래와 같이 $ 뒤에 변수 이름을 붙여서 넣어주면 된다.

plot(iris$Petal.Length)  를 입력하니 Petal.Length의 값들이 어떻게 분포되어있는지 보여준다.

각 점이 꽃 개체 하나인 셈이다.

 

 

 

 

두 가지 변수의 상관관계를 알고 싶다면 괄호( ) 안에 두 변수를 콤마< , >로 구분하여 넣어주면 된다.

plot(iris$Petal.Length, iris$Petal.Width)  를 입력하여 x축은 꽃잎 길이, y축은 꽃잎 넓이를 보여주는 분포도를 얻었다.

꽃잎의 길이가 클수록 넓이도 커지는 것을 알 수 있다.

 

 

 

 

이제 그래프를 원하는 대로 이쁘게 꾸며보겠다.

콤마< , > 뒤에 변경하고 싶은 옵션을 하나씩 추가해서 아래와 같은 그림을 얻을 수 있다.

더보기

plot(iris$Petal.Length, iris$Petal.Width

     col = "#980000",

     type = "p"
     pch = 7,
     main = "Iris: Petal Length vs. Petal Width", 
     xlab = "Petal Length", 
     ylab = "Petal Width")

col = " hex code "  각 색별로 hex code라는 값이 있다. 원하는 색이 있다면 찾아서 넣으면 된다.

type = "  " 플롯의 종류를 설정할 수 있다. "p" 가 디폴트 값이다. 이외에 옵션은 "l", "b", "c", "o", "h", "s", "S" 등이 있다.

pch =    포인터의 모양을 나타내는 값으로 0~25까지 있다. 포스트 맨 아래에 포인터 모양에 대한 표를 첨부해 놓았다. 

main = "  " - 그래프 위에 타이틀을 입력할 수 있다.

xlab = "  "  - x축의 타이틀을 입력할 수 있다.

ylab = "  "  - y축의 타이틀을 입력할 수 있다.

각 옵션을 콤마< , >로 연결하고 줄 바꿈을 해주었는데 줄은 바꾸지 않아서 상관없다. 단순히 보기 편하게 하기 위함이다.

 

 

 

 

이 이외에 plot에 대해 더 알고싶다면 ?plot 을 입력하여 help탭에서 설명을 볼 수도 있다.

 

 

 

 

 


R plot 포인터 표

R plot pch 값

 

 

 

 

R 프로그래밍 관련 다른 포스팅

2021/01/06 - [R 프로그래밍] - R 프로그래밍 기초_ R 기본 개념 & 설치

2021/01/06 - [R 프로그래밍] - R 프로그래밍 기초_R 스튜디오 설치 및 기본 셋팅

2021/01/09 - [R 프로그래밍] - R 프로그래밍 기초_기본 인터페이스

2021/01/13 - [R 프로그래밍] - R 프로그래밍 기초_패키지 (Package)

2021/01/18 - [R 프로그래밍] - R 프로그래밍 기초_그래프 그리기 의 모든것

2021/01/19 - [R 프로그래밍] - R 프로그래밍 기초_기본 R 명령어 모음

2021/01/20 - [R 프로그래밍] - R 프로그래밍 기초_R 자료형과 데이터 구조

댓글