ch0nny_log

[빅데이터분석] R _ 59. 상관관계 본문

빅데이터 분석(with 아이티윌)/R

[빅데이터분석] R _ 59. 상관관계

chonny 2024. 7. 16. 16:31
 다중회귀 분석에 앞서서 상관관계 분석을 하는 이유 ?


독립변수들간의 강한 상관관계를 보이게 되는 다중 공선성 여부를 확인해야
 회귀분석 결과에 대한 가장 중요한 결정계수(설명력)에 대한 신뢰를 할 수있기 때문입니다.

 

 

 

상관관계와 회귀분석의 차이

상관관계는 두 변수간의 관계의 강도를 측정한 수치입니다. 

회귀분석은 한 변수간의 변화가 다른 변수에 미치는 영향력을 예측하는데 사용됩니다

 

 

※ 상관관계 시각화 예제 1
cha <-read.csv('challenger.csv', header =T)
pairs(cha,pch='')​

※ 상관관계 시각화 예제 2 (산포도행렬)
cha <-read.csv('challenger.csv', header =T)

install.packages('psych')
library(psych)
pairs.panels(cha,pch='.')​


★ 마지막문제: 미국 대학 입학 점수 데이터로 단순회귀분석하시오. ( x 축 : 학과점수(academic)  y 축 : 승인점수(acceptance))

sports.csv
0.01MB

x 축 : 학과점수(academic)  y 축 : 승인점수(acceptance)






회귀방정식: 승인점수=  26.0466+ 0.1761* 학과점수
해석: 학과점수가 1점 증가할때 승인점수가 평균적으로 0.1761점 증가한다.
 + p-value가 0.05보다 작기 때문에 승인점수와 학과점수와의 관계가 유의미하다.