일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 단순회귀 분석
- if문 작성법
- 여러 데이터 검색
- 데이터분석
- 히스토그램 그리기
- sql
- 상관관계
- difftime
- 빅데이터
- max
- 데이터분석가
- 팀스파르타
- loop 문
- 정보획득량
- Dense_Rank
- 총과 카드만들기
- Intersect
- 막대그래프
- 순위출력
- 회귀분석 알고리즘
- sqld
- %in%
- 그래프시각화
- 불순도제거
- 빅데이터분석
- Sum
- merge
- count
- 회귀분석
- 그래프 생성 문법
- Today
- Total
목록빅데이터 분석(with 아이티윌)/R (76)
ch0nny_log
다중회귀 분석에 앞서서 상관관계 분석을 하는 이유 ?독립변수들간의 강한 상관관계를 보이게 되는 다중 공선성 여부를 확인해야 회귀분석 결과에 대한 가장 중요한 결정계수(설명력)에 대한 신뢰를 할 수있기 때문입니다. 상관관계와 회귀분석의 차이상관관계는 두 변수간의 관계의 강도를 측정한 수치입니다. 회귀분석은 한 변수간의 변화가 다른 변수에 미치는 영향력을 예측하는데 사용됩니다 ※ 상관관계 시각화 예제 1cha ※ 상관관계 시각화 예제 2 (산포도행렬)cha ★ 마지막문제: 미국 대학 입학 점수 데이터로 단순회귀분석하시오. ( x 축 : 학과점수(academic) y 축 : 승인점수(acceptance))x 축 : 학과점수(academic) y 축 : 승인점수(acceptance) 회귀방정식: 승인점..
simple_regrression 골턴이라는 학자가 회귀를 발견했는데 몇 세대에 걸쳐서 사람들의 키를 조사했습니다.키가 점점 세대가 지날 수록 평균으로 회귀(돌아감) 하는것을 발견했습니다. 단순 회귀분석 이해할 때 꼭 알아야하는 수학용어 2가지?1. 공분산(두변수가 함께 어떻게 변화하는지의 지표)2. 분산(데이터들이 평균으로 부터 얼마나 떨어져 있는지의 지표) ※ (질문1) 회귀식을 도출할 때 공분산이 필요한 이유? 공분산은 두 변수가 함께 어떻게 변하는지를 측정하는 지표입니다. 두 변수가 어떤 관계를 가지는지, 즉 하나의 변수가 증가할 때 다른 변수가 어떻게 변하는지를 알려줍니다. 공분산의 값이 양수인지 음수인지에 따라 두 변수 간의 관계를 알 수 있습니다. 공분산의 값에 따른 해석예를 들..
★ 점심시간 문제:독버섯을 분류하는데 있어 가장 중요한 컬럼이 무엇인가? 정보획득량이 가장 높은게 무엇인가?mush = odor 가 제일 정보획득량이 높음■ 의사결정트리란?의사결정트리는 데이터의 속성을 기준으로 분할하여 트리 형태로 모델링하는 분류 예측 모델입니다.이는 주어진 데이터에서 특정 속성을 기준으로 데이터를 분할하고, 그 분할된 데이터에 대해 반복적으로 동일한 과정을 적용하여 최종적으로 예측을 수행합니다. 의사결정트리는 각 노드에서 데이터를 분할하는 기준을 설정하고, 그 기준에 따라 데이터를 분류합니다. 이를 통해 데이터의 패턴을 발견하고, 새로운 데이터를 분류하거나 예측할 수 있는 모델을 만듭니다.회귀분석과 의사결정트리는 현업에서 선호하는 머신러닝 알고리즘입니다. 신경망이 정확도는 뛰어나지만,..
■ 의사결정트리 ※ 랜덤 포레스트 1. 의사결정트리 2. 규칙 기반 알고리즘 (if 조건에 의해서 데이터를 분류해 나가는 알고리즘)1. oneR 알고리즘(하나의 사실(조건) 만 가지고 간단하게 데이터를 분류하는 알고리즘) 2. Riper 알고리즘 ■ 규칙 기반 알고리즘 (if 조건에 의해서 데이터를 분류해 나가는 알고리즘) □ OneR 알고리즘 - 하나의 사실(조건) 만 가지고 간단하게 데이터를 분류하는 알고리즘 - 하나의 사실만 가지고 분류하다보니 간단하지만 오류가 많음. - 예: 심장질환이 있는 환자인지 아닌지를 분류하고자 한다면 가슴통증이라는 조건 하나만 보고 분류하는 알고리즘 가슴통증 하나만 보고 심장질환이 있다고 ..
■ 나이브 베이즈 모델의 성능을 높이는 하이퍼 파라미터 ■ 라플라스 추정기(p182)위와 같이 분자의 요소하나가 0 이면 전체가 0 이 되면서 스팸의 우도가 0 이 되버립니다.그러면 더 이상 계산을 진행할 수 없게 됩니다. 그래서 수학자 라플라스가 이걸 어떻게 했냐면 0을 1로 만들어주면서 아래와 같이 1을 다 더했습니다.아주 작은값을 하나 더해서 계산이 될 수 있도록 하는데 이 값을 라플라스값라고 합니다. 나이브 베이즈 모델의 성능을 높이기 위해서는 이 라플라스 값을 지정하는 하이퍼 파라미터를 쓰면 됩니다. 우리가 knn 일 때는 k 값을 조정해서 knn 모델의 성능을 높였는데 나이브베이즈는 라플라스 값을 주어서 나이브 베이즈 모델의 성능을 올리는데 사용합니다. knn시 k값을 1~100까지 홀수로..
※ 머신러닝 종류 3가지 1. 지도학습정답이 있는 데이터로 기계가 학습예) 입력: 프랑스의 수도 ? 정답: 파리2. 비지도 학습정답 없이 데이터의 패턴과 구조를 학습하는 학습방예)입력 : the quick brown fox jumps over the 모델이 예측 : lazy dog 가능성이 높다.3. 강화 학습주어진 환경을 기계가 스스로 이해하면서 데이터를 만들어가며 학습하는 것 ■ 나이브 베이즈 알고리즘이 사용되는 분야?1. 스팸 이메일 필터링과 같은 텍스트 분류2. 컴퓨터 네트워크에 침입한 비 정상적인 행위 탐지3. 일련의 관찰된 증상에 따른 의학적 질병 진단 현업 실제 사례: 컴퓨터에 여러 워드,엑셀등의 문서들이 있는데 이중에 랜썸웨어같은 악성 코드가 있는 문서가 1개가 있다고 하..
■ 유방암 데이터 코드 이원 교차표# 필요한 패키지 설치 및 로드if (!require("readr")) install.packages("readr")if (!require("dplyr")) install.packages("dplyr")if (!require("caret")) install.packages("caret")if (!require("class")) install.packages("class")if (!require("plotly")) install.packages("plotly")library(readr)library(dplyr)library(caret)library(class)library(plotly)# 1단계: 데이터 수집wbcd 설명: 위의 결과를 보면 k=7인 경우가 암환자와 정상환..
★ 240710 점심시간문제 : 다음은 어느 커피 프랜차이즈점의 음료 구매 데이터 입니다. 성별별로 선호하는 커피 종류가 다른지 카이제곱 검정을 수행하세요.첨부된 csv 파일을 불러와서 카이제곱 검정을 수행하고 결과를 해석하세요. 어제 배운 gmodels 의 CrossTable 이원교차표를 이용해서 수행하세요.귀무가설(H0): 성별(남/여)과 선호하는 커피 종류(아메리카노/라떼) 간에는 관계가 없다. (즉, 성별에 따라 선호하는 커피 종류가 다르지 않다.) 대립가설(H1): 성별(남/여)과 선호하는 커피 종류(아메리카노/라떼) 간에는 관계가 있다. (즉, 성별에 따라 선호하는 커피 종류가 다르다.) # 데이터 업로드setwd..