본문 바로가기

자습/R 프로그래밍

R 프로그래밍 시작, ggplot2 산점도

R 독학을 시작했다


Enjoy 언니에게 R을 처음 언급한건 나지만

업무에 도움이 될거같아~ Data관리는 어느 직무든 필요하고 더더 필수적인 요소가 될거니까 라며 5월 즈음 부추겨놓고

나는 거의 관심 끄고 있었다 ㅎㅎ


그러다 언니가 책 산걸 어제 보고 본격 프로그래밍 독학 시작 전 가볍게(가볍길 바라며) 훑어볼까 하며 독학을 시작했다.

DB 다루는 것도 좋아하고 기회가 되면 Data Scientist 직무도 관심 있으니 ㅎㅎ


R project, R studio, 그리고 Java(이건 아직 R을 위해 어느 시점에 필요한지 모르겠지만)를 다운받아 예제를 깔짝깔짝 해보았다.


변수 설정같은 문법은 실전 예제를 하며 익히면 될거 같아 급한 마음에 R의 강점이라는 시각화 기능을 써볼 수 있는 예제를 수행해봤다.


교육용이라기보다 일기 + 기록 + 간략 포트폴리오 형식으로 써나가고 싶어 자세한 설명에 시간을 많이 쏟지 말아야지 ㅎㅎ



뭔가 제일 보편적으로 쓰이는 것 같은 ggplot2 패키지를 설치하고...


install.packages("ggplot2")

library(ggplot2)


산점도(Scatter Plot)

일단 제일 먼저 찾은 예제를 실행해본다

ggplot(mpg, aes(displ, cty, colour = class)) + geom_point()


예뻐서 좋음 ㅋㅋㅋ


근데 각 값이 뭔지, 어떤 데이터를 이용한건지 찾아보니

mpg 명령어로 데이터 출력이 가능했고

제조사(manufacturer)의 모델(model), 배기량(displ), 생산년도(year), 실린더 수(cyl), 변속기 종류(trans), 구동바퀴(drv), 도시연비(cty), 고속도로 연비(hwy), 연료 종류(fl), 자동차 종류(class) 데이터였다.



여기서 데이터를 다루려면 일단 어느 분야에서 업무에 대한 이해가 높아야 한다는 말이 확 와닿은게

이 간단한 데이터도 실린더가 자동차의 어떤 역할인지 모르니 연간관계를 예상해서 코드를 못짜겠더라 ㅋㅋㅋㅋㅋㅋㅋㅋ ㅠㅠ



하튼 산점도라는 그래프를 geom_point() 함수로 표현해보았고,

배기량이 적을수록 고속도로 연비가 높아진다는 상관관계를 발견할 수 있었다.

블로그를 보니 배기량과 고속도로연비는 매우 강한 역상관관계를 가진다 라고 표현하는 것 같다 ㅎㅎ



저 코드...라고도 뭐하고 명령어를 가지고 이렇게 저렇게 산점도 그려보며 가지고 놀아봤는데

뭔가 이 예제보다 산점도에 적절한 결과를 내는 명령어를 생각해내지 못했다 ㅠㅠ


예제 따라서 이 함수 저 함수 써보며 익혀나가야지



'자습 > R 프로그래밍' 카테고리의 다른 글

R 프로그래밍 - ggplot2 패키지 box plot  (1) 2018.09.14
R 독학  (1) 2018.09.14