설명: 가격 데이터가 왼쪽으로 꼬리가 긴 분포를 보이고 있고 왜도값도 음수값으로 출력되고 있음. 음의 왜도는 데이터가 평균 보다 더 높은 값에서 많이 분포하고 있고, 일부 낮은 값이 존재함을 의미합니다.
2. 첨도: 위아래 뾰족한 정도
첨도 값이 3에 가까울 수록 정규분포에 속하고 3보다 작은 경우 완만한 곡선, 3보다 크면 뾰족한 곡선입니다.
- 높은 첨도: 극단값의 영향이 크고 정규성 가정이 위반 될 수 있음. -> 해결방법: 극단값 처리나 데이터 스케링으로 해결 할 수 있음 - 낮은 첨도: 분포가 평평하여 데이터의 중심경향을 파악하기 어려울 수 있음 -> 해결방법: 데이터 스켈링이나 샘플 데이터의 크기의 증가로 해결
# 첨도 시각화 코드
# 필요한 패키지 설치
install.packages("e1071")
install.packages("ggplot2")
install.packages("VGAM")
# 패키지 로드
library(e1071)
library(ggplot2)
library(VGAM)
# 데이터 생성
set.seed(42)
data_normal <- rnorm(1000, mean = 0, sd = 1) # 정규 분포
data_high_kurtosis <- rlaplace(1000, location = 0, scale = 1) # 양의 첨도 분포
data_low_kurtosis <- runif(1000, min = -sqrt(3), max = sqrt(3)) # 음의 첨도 분포
# 첨도 계산
kurtosis_normal <- kurtosis(data_normal)
kurtosis_high <- kurtosis(data_high_kurtosis)
kurtosis_low <- kurtosis(data_low_kurtosis)
# 데이터 프레임 생성
df_normal <- data.frame(value = data_normal, distribution = "Normal")
df_high <- data.frame(value = data_high_kurtosis, distribution = "High Kurtosis")
df_low <- data.frame(value = data_low_kurtosis, distribution = "Low Kurtosis")
df_all <- rbind(df_normal, df_high, df_low)
# 데이터 시각화
plot_kurtosis <- ggplot(df_all, aes(x = value, color = distribution)) +
geom_density(size = 1.2) +
ggtitle("Distributions with Different Kurtosis") +
xlab("Value") +
ylab("Density") +
theme_minimal() +
scale_color_manual(values = c("blue", "red", "green")) +
annotate("text", x = 2, y = 0.3, label = paste("Normal Kurtosis =", round(kurtosis_normal, 2)), color = "blue") +
annotate("text", x = 2, y = 0.25, label = paste("High Kurtosis =", round(kurtosis_high, 2)), color = "red") +
annotate("text", x = 2, y = 0.2, label = paste("Low Kurtosis =", round(kurtosis_low, 2)), color = "green")
# 첨도 그래프 출력
print(plot_kurtosis)
문제1. 첨도값 확인하는 R 코드
install.packages("e1071")
library(e1071)
result <- kurtosis(car$mileage)
print(result)
hist(car$mileage)
설명: 첨도 값 1.504747은 excess kurtosis 로 계산된 것임. 이는 정규 분포 첨도(3)을 기준으로 한 초과 첨도임. 즉, 실제 첨도는 1.5047474 +3 = 4.5047474 임.
높은 첨도로 해석되고 실제 첨도값 3보다 큰 4.5047474이므로 이 데이터 분포는 정규 분포보다 뾰족한 형태를 가지고 있음. 이는 데이터가 평균 근처에 많이 몰려있고 극단값이 정규분포보다 더 많음을 의미함.
대부분 차량 주행거리가 비교적 짧으며, 데이터 평균 근처에 많이 몰려있음.
문제2. 중고차 가격의 첨도값과 히스토그램 그래프를 그려서 해석하시오.
result <- kurtosis(car$price)
print(result)
hist(car$price)
첨도값: 0.4333284 설명: 첨도 값 0.4333284은 excess kurtosis 로 계산된 것임. 이는 정규 분포 첨도(3)을 기준으로 한 초과 첨도임. 즉, 실제 첨도는0.4333284+3 = 3.4333284임.
높은 첨도로 해석되고 실제 첨도값 3와 비슷한 3.4333284이므로 이 데이터 분포는 정규 분포와 비슷한 분포를 보이고 있음. 데이터가 평균 근처에 많이 몰려있고 극단값이 적당히 존재하고 있음.
이와 같이 예쁜 정규분포의 차 가격 데이터로 어떤 데이터분석을 할 수 있는가 ? 질문1: 2010년 이전 차량과 2010년 이후 차량의 가격의 중앙값의 차이가 있는가? 질문2: 가솔린 차량과 디젤 차량의 가격 중앙값의 차이가 있는가 ? 질문3: 주행거리와 차량 가격과의 상관관계가 있는가 ?
1장의 내용은 숫자로 되어있는 데이터의 데이터 분석 문자로 되어있는 데이터분석시 미리 알아둬야할 내용을 설명하고 있음