일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 정보획득량
- 그래프시각화
- 단순회귀 분석
- 그래프 생성 문법
- Dense_Rank
- 상관관계
- 데이터분석
- Sum
- 순위출력
- if문 작성법
- 회귀분석 알고리즘
- 데이터분석가
- 막대그래프
- sql
- 빅데이터분석
- 여러 데이터 검색
- difftime
- Intersect
- 빅데이터
- merge
- 회귀분석
- %in%
- count
- 총과 카드만들기
- sqld
- 팀스파르타
- max
- loop 문
- 불순도제거
- 히스토그램 그리기
- Today
- Total
목록빅데이터 분석(with 아이티윌)/R (76)
ch0nny_log
문제 1. 문제 2.문제 3.문제 4. 문제 5.문제 6.문제 7. 문제 6. 문제 8.문제 9. 문제 10. 문제11 .문제 12. 문제 13.답: 2번 문제 14. 문제 15. 답: 4번 문제 16.답: 2번문제 17. 답: 1번문제 18. 답: 4번문제19. 문제20. 3번답: 3번 문제21. 2번답: 2번문제 22.
* caret 패키지의 주요 기능 1. 데이터 전처리를 쉽게 할 수 있음 2. 하이퍼 파라미터 튜닝을 자동화 할 수 있음 3. 이원 교차표를 제공하여 모델 평가를 할 수 있음 하이퍼 파라미터는 모델을 학습 시키는 사람이 직접 알아내야하는 파라미터입니다. 예: knn 의 k값, naivebayes의 laplace, 신경망의 학습률과 층수와 뉴런수, 서포트 백터 머신의 C 와 gamma #install.packages("caret")# install.packages("e1071")library(caret)library(e1071)# 데이터 로드data(iris)# 훈련 데이터와 테스트 데이터 분할set.seed(123)trainIndex ■ R을 활용한 머신러닝 마지막 문제 (caret을..
■ 네번째 이수자 평가 문제 # 이원 교차표 데이터TP 출처: https://cafe.daum.net/oracleoracle/Sotv/886 랜덤 포레스트 이론과 실습랜덤 포레스트 이론 https://gamma.app/docs/-9cp440ayimowhg0랜덤포레스트.pdf406.30KB 실습:# 패키지 설치 (한번만 실행하면 됩니다) install.packages(randomForest) # 패키지 로드 library(randomForest) # iris 데이cafe.daum.net -> 랜덤 포레스트가 배깅보다 더 다양하고 좋은 결과를 얻음 ■ 실습. 아이리스 데이터를 활용하여 랜덤포레스트 모델을 시각화하시오.# 패키지 설치 (한번만 실행하면 됩니다)install.packages("randomF..
실습. 60% 정확도를 보이는 모델들을 모아서 90% 가 넘는 모델을 생성하는 팀을 만들고 싶은데 그러면 60% 정확도를 보이는 모델들이 몇 개 필요할까? # 1. 정확도 계산: 앙상블 모델의 필요 개수ret_err ', 1 - err, '\n') if(1 - err >= 0.9) break}# 2. 앙상블을 사용하지 않은 의사결정트리 모델 생성# 데이터 로드iris 실습. 부스팅 모델 생성 # 데이터 로드iris 문제. 위의 부스팅 모델의 성능을 높이기 위해 하이퍼 파라미터를 지정하고 모델을 생성하시오. # 데이터 로드iris 💡 마지막 문제. wine2.csv 데이터를 분류하는 앙상블 모델을 생성하시오. 부스팅 선택하여 모델 생성함.# 데이터 로드wine
** training data → validation data(모의고사 문제) / test data(수능 문제) ◾K-foldout 실습📌 실습. runif 함수를 이용한 데이터 분할1. 데이터 로드credit 실습. createDataPartition 함수를 이용한 데이터 분할 1. 데이터 로드credit ⇒ runif 로 훈련과 테스트 데이터를 분할하는 것보다 createDataPartition 을 이용해서 데이터를 분할하는것이 더 정답을 비율에 맞춰서 잘 분할해주는 것을 알 수 있음.실습. k-폴드 교차검증예제: 10-폴드 교차검증 1. 데이터 로드credit 카파 지수의 평균값6. 정확도 평균값 출력 (trials=1)cv_results 문제. 방금 수행한 trials=100 으로 수행하여 정..
■ K-means 쪽지시험 문제 풀이 #1. 데이터 구성하기data3 ** 파란색 곡선이 가장 좋은 모델임. 라인이 파란색 쪽으로 갈 수록 좋은 모델이고 대각선 쪽으로 갈 수록 분류를 잘하지 못한하는 모델을 나타냄.** x 축 → 민감도 / y 축 → 1 - 특이도 실습. 독일 은행 은행 대출금 불이행자 예측 모델 만들기# 데이터 로드credit 의사결정나무 1개로 예측한 것이기 때문에 정확도가 낮을 수 밖에 없음.# ROC 곡선 그리기credit_test_prob 확률이 출력되도록 함. => 확률 정보가 있어야 ROC 곡선을 그릴 수 있음.credit_results 환자입장)specificity(credit_results$predict_type, credit_results$actual_type, ..
■ 실제 머신러닝 모델에서 정확도와 카파 통계량 출력하기actual_type 중요도: TP > TN > FP > FN -> 민감도가 1에 가깝게 높은게 좋음 ( 환자입장에서 얼마나 잘 예측했는지) -> 의사입장(모델입장) 에서 얼마나 잘 예측했는지 -> ( 의사입장에서 얼마나 잘 예측했는지) -> 민감도와 같음 & 환자입장에서 얼마나 잘 예측했는자 정확도가 100%인 모델은 현실에 없음 #1. 데이터 불러오기 setwd("c:\\data")wbcd ■ 성능척도 구현 문제.(독버섯 나이브 베이즈 모델 코드를 하나로 총정리 )# ■독버섯 나이브 베이즈 모델 코드를 하나로 총정리 #1. 데이터 불러오기mush 정확도카파통계량민감도특이도정밀도재현율F1scorelaplace = 0.0001 0.9950739U..
■ 복습 1. 우유를 구매한 경우 빵을 구매하는 연관규칙에 대한 지지도, 신뢰도, 향상도를 구하시오# (우유-> 빵)# 1. 데이터셋을 생성합니다.data ■ 복습2. 우유를 구매한 경우 치즈를 구매하는 연관규칙에 대한 지지도, 신뢰도, 향상도를 구하시오 # (우유-> 치즈)# 1. 데이터셋을 생성합니다.data2 ■ k-means 알고리즘 출처: https://cafe.daum.net/oracleoracle/Sotv/817 [9장. k-means 이론 수업] https://k-means--p3c2bb8.gamma.site/ k-means.pdf3.88MBcafe.daum.net 실습1. 간단한 k-means 실습#1. 기본 데이터셋c 실습 2. 아래의 데이터를 3개의 군집으로..