본문 바로가기

자습/R 프로그래밍

R 프로그래밍 - ggplot2 패키지 box plot

상지그림 Box Plot


중앙값과 평균의 차이

어떤 집단에서 극단적인 값이 있다면 산술평균은 쏠리게 되고 이 경우 평균이 집단을 대표하는 값이라 하기 힘들어진다.

연봉의 경우 

A - 3천

B - 3천 2백

C - 2천 9백

D - 3천 5백

E - 1억


이렇게 받는다고 하면 단순 산술계산인 평균값은 4천 5백정도이지만 E를 제외하면 모두 평균 이하 급여를 받는다.

이 경우 집단을 대표한다고 할 수 없으며,

중앙값을 구하면 3천 2백이 되며 중앙값이 더 적절한 대표 값이라고 할 수 있다...고 한다. (적절한 용어 선택이 어렵다..)


평균을 이용한 통계 허점이 많으며 모집단 수가 커지고 값으 차이가 클수록 오류가 극명해진단다....


인터넷의 기업들 평균 연봉은 믿을게 못되겠군 ㅎㅎㅎ

중앙값과 최빈값을 달라!! ㅎㅎㅎ


IQR(Inter Quartile Range) - 사분위 범위

전체 데이터의 25%(first quartile), 50%(중앙값, second quartile), 75%(third quartile)에 해당하는 위치를 의미

1~3분위 사수의 거리가 사분위 범위 IQR이 된다.


이상 이번 예제 Box plot 파악에 필요했던 개념들이고,

지난 예제와 같이 mpg데이터를 이용해 box plot 을 그려보았다.



ggplot(dat = mpg, aes(x = class, y = hwy)) + geom_boxplot()


차종별 고속도로 연비


예뻐 예뻐 만든사람 천재다


SUV와 Pickup(트럭) 차량의 연비가 이렇게 안좋을줄이야 ㅎㅎㅎ

SUV 연비 좋을 줄 알았는데 ㅎㅎ



그렇게 몇개 갖고 놀아봤당



차종별 도시 연비



차종별 배기량


2인용 차량 배기량 왜케 놓죠?ㅎㅎㅎㅎ(사실 이 데이터 실제 데이터인지 가상데이터인지도 모르지만)




제조사별 고속도로 연비

이와중에 현대 나쁘지 않아보이는군여 ㅎㅋ

혼다 연비 좋구요 ㅎㅎㅋㅋ



재밌다

재밌는데 더 자유자재로 데이터 가지고 놀려면 어떻게 다뤄야 하는지도 얼른 배워야지!

'자습 > R 프로그래밍' 카테고리의 다른 글

R 독학  (1) 2018.09.14
R 프로그래밍 시작, ggplot2 산점도  (1) 2018.09.14