일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 빅데이터분석
- sqld
- 총과 카드만들기
- 여러 데이터 검색
- 불순도제거
- 히스토그램 그리기
- 그래프시각화
- if문 작성법
- 상관관계
- 회귀분석 알고리즘
- 막대그래프
- Sum
- difftime
- Dense_Rank
- 단순회귀 분석
- 팀스파르타
- sql
- max
- Intersect
- 정보획득량
- loop 문
- count
- %in%
- 회귀분석
- 빅데이터
- 데이터분석가
- merge
- 데이터분석
- 그래프 생성 문법
- 순위출력
- Today
- Total
목록빅데이터 분석(with 아이티윌)/R (76)
ch0nny_log
# 데이터 프레임 생성data 복습# 데이터 프레임 생성data2 0.5, 1, 0)train_predictions2# 훈련 데이터의 정확도 확인train_acc 0.5, 1, 0)test_predictions2 출처: https://cafe.daum.net/oracleoracle 데이터관련 교육 카페하루 공부하지 않으면 그것을 되찾기 위해서는 이틀이 걸린다. 이틀 공부하지 않으면 그것을 되찾기 의해서는 나흘이 걸린다. 1년 공부하지 않으면, 그것을 되찾기 위해서는 2년 걸린다. - 탈무cafe.daum.net 실습.# 1. 데이터를 로드합니다.x 지지도? 전체 거래중에 A 와 B 가 함께 포함된 거래의 비율 신뢰도? A를 살때 B 도 함께 살 확률 향상도? A를 살때 B 를 살 영..
복습. 회귀 분석 문제#1. 데이터프레임 생성성data- customer satisfaction:3.7, recent purchase amount:180 : 예측값 reorder:-1 (구매x)- customer satisfaction:4.0, recent purchase amount:190 : 예측값 reorder: 1 (재구매) 필기체 숫자 & 이미지를 숫자로 변환하면? 신경망 앞층의 역활과 뒷층의 역할? 앞쪽 층에서는 다양한 저수준 특징(색상, 모양 등)을 추출하고, 뒤쪽 층으로 갈수록 추상화된 고수준 특징(개념, 의미 등)을 추출합니다. 저수준 특징은 더 많은 뉴런이 필요하며, 고수준 특징으로 갈수록 정보가 압축되어 뉴런 수가 줄어듭니다. ■ 수지와 설현 사진을 신경망에 입력 ..
출처: 데이터관련 교육 카페 | [서포트 벡터 머신 이론] - Daum 카페 [서포트 벡터 머신 이론][서포트 벡터 머신 이론] 서포트 벡터 머신 이론.pdf1.63MB서포트 벡터머신 이론.pptx3.99MB ■ 이론설명1. 서포트 벡터 머신이란 무엇인가요 ? 답: ■ 이론설명2. 서포트 벡터 머신에서 결정경계cafe.daum.net 1. 서포트 벡터 머신이란 무엇인가요 ? 서포트 벡터 머신(support vector machine) 은 기계학습의 분야중 하나로 정답 데이터가 있는 지도학습에 해당하는 부분입니다. 분류를 하기 위해서 결정경계를 찾을 때 백터의 내적을 이용해서 결정경계를 찾는 분류 알고리즘 입니다. 2. 서포트 벡터 머신에서 결정경계가 무엇인가요? 결정경계란 분류를 위한..
1. 단순회귀 --> 2. 다중회귀 --> 3. 회귀트리 --> 4. 로지스틱 회귀 (p326) ↓ ↓공분산/분산-> 기울기 행렬 연산을 이용한 회귀계수 출처: https://cafe.daum.net/oracleoracle/Sotv/707 [로지스틱 회귀 이론 수업]1. 로지스틱 회귀 이론 로지스틱회귀.pdf2.32MB로지스틱회귀2.pdf1.32MB시그모이드 함수와 로지스틱 회귀의 오차 함수(로그 손실 함수)는 긴밀한 관계를 가지고 있습니다.1. 시그모이드 함수의 출력cafe.daum.net + 이상치와 노이즈에 취약함 1.로그승산값-> 베타 값을 구해야함2. 시그모이드 함수 (확률 구하기)3...
회귀 트리란?수치를 예측하는 의사결정트리 (tree) 회귀트리 ---> 회귀 모델 + 의사결정트리 모델을 결합한 모델※ 관련 자료 회귀트리 수업 자료■ 회귀트리 수업 자료 1. 의사결정트리와 회귀트리의 비교의사 결정트리회귀트리문제. 의사결정트리와 회귀트리의 차이점? 답: 2. 질문나무를 만드려면 필요한 두가지? 1. 어떤걸 물어볼cafe.daum.net -> 분할 할때/ 질문순서 정할때 모두 표준편차 축소를 이용함. ※ 표준편차 축소 계산:두 가지 분할 기준에 대해 표준편차 축소를 계산해보겠습니다. 이를 통해 어떤 분할이 더 나은지 확인할 수 있습니다.# 원본 데이터평수 5. 왜 표준편차 축소가 중요하게 사용되나? # 원본 데이터초콜릿 6. 질문나무를 만드려면 필요..
※ 다중회귀 분석결과 해석을 하기 앞서서 확인해야 될 사항!1. 변수들 끼리의 상관관계 분석2. 다중 공선성 문제가 있는지 모델 생성후에 확인3. 종속 변수에 미치는 독립변수들의 영향력만 확인하고 싶다면 표준화나 정규화를 수행 ※ 다중회귀 모델의 성능을 높이는 방법!1. 좋은 파생변수를 생성2. 이상치를 제거하거나 다른 값으로 치환3. 결측치를 제거 하거나 다른 값으로 치환 + 빅분기 실기 시험은 제한된 시간안에 문제를 풀면되어서 위의 작업을 하는 문제들이 출제되지는 않고 성능이 좋은 모델인지 아닌지를 테스트하는 시험입니다. 1유형: 데이터 전처리 2유형: 모델 생성 3유형: 가설 검정케글에 도전하거나 공모전에 도전하거나 빅분기 시험이면 훈련과 테스트를 분리해서 회귀 모델을 생성해야합니다. 실습. 훈련..
※ 머신러닝의 종류3가지 1. 지도학습정답이 있는 데이터로 기계를 학습 1.1 분류: knn, naivebayes, decesion tree 1.2 회귀: 단순회귀(수치예측), 다중회귀2. 비지도학습정답이 없는 데이터로 기계를 학습3. 강화학습환경만 주고 알아서 데이터를 만들어서 학습 ■ 다중회귀분석에 앞서서 다중공선성 문제를 확인해야됨 다중회귀 분석을 결과를 봤더니 유의한 변수들을 발견할 수 없었다고 한다면 다중공선성을 의심해봐야 됨.특히 어떤 특정 변수의 p-value 가 너무 터무니 없이 높으면서 통계적으로 유의한 변수가 아니라는 해석이 나온다면 더더욱 다중공선성을 의심해 봐야됨. 예를들어, 시험점수가 종속변수이고 독립변수로 공부시간, 주간 음주횟수, 평상시 혈중 알코올농도가 있다고 할때 다중 회..
■ 상관관계 복습 [빅데이터분석] R _ 59. 상관관계다중회귀 분석에 앞서서 상관관계 분석을 하는 이유 ?독립변수들간의 강한 상관관계를 보이게 되는 다중 공선성 여부를 확인해야 회귀분석 결과에 대한 가장 중요한 결정계수(설명력)에chonny1210.tistory.com ※ paris 패키지 설명1. pairs 그래프 보는 방법 순서 library(psych)pairs.panels(cha,pch='.') 대각선 쪽 그래프 4개 설명 대각선 그래프 확인 : 히스토그램 그래프와 확률밀도 그래프로 데이터의 분포를 확인distress_ct : 대부분의 데이터가 0에 집중되어있고, 일부 1 또는 2가 보임temperature : 온도가 약 55에서 80 사이로 분포하며 가장 빈도가 높은 구간이 65~75..