728x90
반응형
1.2 첫 단계
데이터 불러오기
mpg : 미 환경보호당국이 수집한 38개 차 모델들에 대한 관측 값 데이터프레임
# package::function()
ggplot2::mpg
package::function() 어떤 함수나 데이터셋이 어느 패키지에서 왔는지 명시해야 하는 경우
# 데이터 불러오기기
data(mpg)
head(mpg)
분석 목적
mpg데이터를 이용한 엔진 크기와 연비의 관계 살펴보기
필요한 변수
displ : 엔진 크기
hwy : 고속도로에서의 자동차 연비. 같은 거리를 주행할 때 연비가 낮은 차는 연비가 높은 차보다 연료를 더 많이 소비
ggplot 생성
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy))
- 그래프를 통해 엔진 크기(displ)와 연비(hwy)사이에 음의 관계가 있음을 보여준다
- 엔진의 크기가 커질수록 연비다 낮다. 즉 연료를 더 많이 소비한다고 할 수 있다.
그래프 작성 템플릿
- ggplot2에서는 ggplot() 함수로 플롯을 시작한다.
- ggplot을 하면 좌표 시스템이 생성되고 레이어를 추가할 수 있다.
- 첫번째 인수는 그래프에서 사용할 데이터셋이다. ex) ggplot(data=mpg)
- 그래프는 ggplot() 에 하나 이상의 레이어를 추가해서 완성된다.
- 함수 geom_point() 는 플롯에 점 레이어를 추가해 산점도를 생성한다.
- ggplot() 에서는 산점도 뿐 만 아니라 다양한 geom 함수를 통해 다른 유형의 레이어를 추가한다.
- 각각의 geom 함수 각각에는 mapping 인수가 있다. 이 인수는 항상 x,y 축을 지정하는 x, y인수를 지정하는 aes() 와 쌍을 이룬다. ex) geom_point(mapping = aes(x=x, y=y))
ggplot(data = <data>) +
geom_point(mapping = aes(x = <col1>, y = <col2>))
연습문제
1. ggplot(data = mpg)를 실행하라. 무엇이 나타나는가?
- 아무것도 나타나지 않는다. 그래프에서 사용할 데이터셋만 불러옴
2. mpg는 행과 열이 몇개인가?
- 행은 234개, 열은 11개이다.
dim(mpg)
3. drv 변수는 무엇을 나타내는가?
- the type of drive train, where f = front-wheel drive, r = rear wheel drive, 4 =4wd
- 구동방식의 종류를 의미하며 각각 f는 전륜, r는 후륜 4는 사륜을 의미한다.
4. hwy대 cyl의 산점도를 만들어라
ggplot(data=mpg) +
geom_point(mapping = aes(x = cyl, y = hwy))
5. class대 drv 산점도를 만들면 어떻게 되는가? 이 플롯이 유용하지 않은 이유는?
- 두 변수 모두 명목형 변수이기 때문에 이산형 데이터를 시각화 하는 산점도 그래프는 적합하지 않다.
728x90
반응형
'Study > R' 카테고리의 다른 글
[R4DS] 1장 데이터 시각화 - 06 위치조정 (0) | 2022.01.10 |
---|---|
[R4DS] 1장 데이터 시각화 - 05 통계적 변환 (0) | 2022.01.10 |
[R4DS] 1장 데이터 시각화 - 04 기하객체 (0) | 2022.01.10 |
[R4DS] 1장 데이터 시각화 - 03 facet (0) | 2021.11.27 |
[R4DS] 1장 데이터 시각화 - 02 심미성 매핑 (0) | 2021.11.16 |