일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 그래프시각화
- 회귀분석
- 상관관계
- 히스토그램 그리기
- 그래프 생성 문법
- Dense_Rank
- 데이터분석
- 팀스파르타
- if문 작성법
- 여러 데이터 검색
- 불순도제거
- %in%
- 총과 카드만들기
- merge
- 정보획득량
- difftime
- 단순회귀 분석
- count
- 막대그래프
- max
- loop 문
- 데이터분석가
- sql
- sqld
- Sum
- 회귀분석 알고리즘
- 빅데이터
- 순위출력
- Intersect
- 빅데이터분석
- Today
- Total
목록빅데이터 분석(with 아이티윌)/R (76)
ch0nny_log
★ 미리보기#1. 데이터 수집 #2. 데이터 탐색 #3. 데이터 훈련 #4. 데이터 평가 #5. 모델 성능 개선 #6. 시각화 ---> 적절한 k 값을 찾는 라인 그래프 ---> 아이리스 품종이 어떻게 분류를 했는지 시각화(주성분분석) #7. 머신러닝 모델 포장 ( Rshiny ) --> 홈페이지 생성, exec 파일로 생성유클리드 거리 공식이란?- 거리를 계산할 때 사용하는 수학식ex) 새로운 데이터가 기존 데이터 중에서 양성종양이 어느 데이터에 더 인접해 있는지 거리를 계산헤서 가장 가까운 거리에 있는 데이터를 자기의 이웃으로 선택하는 것 ■ 유클리드 거리 공식을 R로 구현하기# 예제 1. 두점의 좌표를 지정한다.a# 예제 2. 두점사이의 거리를 ..
■ 이원 교차표 분석하기 p128 페이지 두 명목변수 간의 관계를 관찰하고자 할 때 이원 교차표를 사용합니다. 교차표는 하나의 변수값이 다른 변숫값에 의해 어떻게 변하는지 관찰할 수 있다는 장점이 있습니다.(산포도 그래프와 유사) ※ 이원 교차표의 해석1. 행 합계2. 열 합계3. 표 합계에 대한 셀의 상대적 비율4. 카이제곱 통계예제.install.packages("gmodels")library(gmodels)emp 설명: 부서번호별 직업별 인원수가 출력되면서 오른쪽에는 row 토탈이 출력 맨 아래쪽에는 칼럼 토털이 출력됩니다. ※ CrossTable 해석 요약: 빈도수 (N): 해당 셀의 실제 관측값카이제곱 기여도 (Chi-square contribution): 해당 셀이 카이제곱 통계량에..
■ 범주형 데이터 살펴보기(산포도 그래프)1. 산포도 그래프: 두개의 수치형 데이터가 서로 연관성을 보이는지 확인할 때 유용한 그래프2. 상관계수: 두개의 수치형 데이터가 서로 얼마나 상관관계를 보이는지 -1~1사이의 값으로 나타낸 값 예제. 중고차의 주행거리가 높으면 가격이 낮아지는지 확인하려면 ?plot( car$mileage, car$price, phc=21, col='red', bg='red')cor( car$mileage, car$price )설명: -0.8이면 매우 높은 음의 상관 관계를 보이는 수치임. 이는 주행거리가 높을 수록 중고차의 가격이 낮아짐을 나타냄.문제1. 자동화 스크립트를 이용해서 주행거리와 가격과의 산포도 그래프를 이용하시오. # plotly 패키지 로드library(pl..
★ 점심시간 문제: 자동화 스크립트 8번에 오라클 db 연동 코드를 추가하시오파일명: orabledb.Rlibrary(rJava)library(DBI)library(RJDBC)driver ※ 이전 복습2024.07.08 - [R] - [빅데이터분석] R _ 46. 머신러닝 하기 전에 미리 알아 둬야 할 내용들 [빅데이터분석] R _ 46. 머신러닝 하기 전에 미리 알아 둬야 할 내용들* R의 자료구조의 종류 팩터(factor) 란?1. 범주 변수나 순위 변수를 나타내는 특별한 종류의 벡터입니다.머신러닝을 할 때, 기계에게 학습 데이터를 제공할 때는 반드시 팩터 형태로 제공chonny1210.tistory.com 기계학습을 통한 분석을 하는 이유?-> 예측과 분류를 하기 위해서-> 기계에게 좋은 데..
■평균,중앙,최빈,표준편차,분산평균값 --> 중앙값 --> 최빈값 --> 범위 --> 사분위수 범위 --> 분산 --> 표준 편차↓↓데이터 중심은 어디인지? 데이터 분포를 파악 문법1. 중고차 데이터의 전반적인 관찰car설명: 데이터가 숫자로만 이루어졌으면 --> knn 알고리즘이용데이터가 숫자로만 이루어짐knn 알고리즘데이터가 문자로만 이루어짐나이브베이즈 알고리즘 데이터가 숫자,문자 섞여있음의사결정트리, 랜덤 포레스트, 신경망등 문제1. 유방암 데이터는 어떤 머신러닝 알고리즘이 적당한지 데이터를 관찰하시오.wisc -> 다 숫자이기 때문에 knn 알고리즘에 적합한 데이터임.문법 2. 결측치가 얼마나 있는지 확인.결측치가 너무 많으면 기계학습이 잘 안됨.-> 결측치가 너무 많으면 삭제/ 삭제하기 애..
* R의 자료구조의 종류 팩터(factor) 란?1. 범주 변수나 순위 변수를 나타내는 특별한 종류의 벡터입니다.머신러닝을 할 때, 기계에게 학습 데이터를 제공할 때는 반드시 팩터 형태로 제공해야 합니다. 이는 기계가 학습할 때 범주 형태의 데이터를 기대하기 때문입니다.2. 일반 벡터(vector)에 범주의 수준(level) 정보가 추가된 형태입니다.기계를 학습시킬 때는 데이터와 그에 대응하는 정답을 함께 제공하여 학습시켜야 합니다. 예를 들어, 암환자 데이터를 사용하여 암 판정을 기계에게 학습시키고자 할 때, 우리는 암을 1로, 정상환자를 0으로 지정한 종속 변수(타깃 변수)를 팩터 형태로 제공해야 합니다. 문법 1. R을 활용한 머신러닝 책 p83~84a ※ 문자형 벡터를 팩터로 변환하게 되..
★ 점심시간 문제: 다음과 같이 스티브 잡스 연설문으로 긍정단어와 부정단어를 시각화 하시오 !# 패키지 설치 및 라이브러리 로드install.packages("wordcloud2")install.packages("tm")install.packages("RColorBrewer")install.packages("plyr")install.packages("data.table")install.packages("patchwork")install.packages("htmlwidgets")install.packages("webshot")install.packages("magick")install.packages("ggplot2")install.packages("grid")library(wordcloud2)librar..
소리데이터 분석 활용분야1. 건강 의료- 심장소리 폐 소리 등을 분석해 질환 진단하는데 사용2. 보안 감시- 보안 시스템 (침입 소리 등)3. 음성 및 음악 처리- 사용자 취향분석, 맞춤형 음악제공소리->전처리->신경망이미지텍스트문사 문제 1. 노래를 데이터화 하여 그래프를 만드시오. install.packages('tuneR')library(tuneR)# 데이터 업로드setwd('c:\\data')audio문제2. 정상적인 심장박동 소리와 질환이 있는 심장 박동 소리를 각각 시각화 하시오 !# 데이터 업로드 setwd("c:\\data")audio1 설명: 그래프만 봐도 정상 심장소리와 질병 심장소리가 구분이 됩니다. 이런 심장 소리 데이터를 기계학습 시키면 수십년 경력의 의료진도 놓칠수 있는 부분..