일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 여러 데이터 검색
- 그래프시각화
- 빅데이터
- merge
- 팀스파르타
- 히스토그램 그리기
- 막대그래프
- if문 작성법
- 회귀분석 알고리즘
- max
- Sum
- 단순회귀 분석
- sqld
- 회귀분석
- 데이터분석
- 불순도제거
- Dense_Rank
- 총과 카드만들기
- 그래프 생성 문법
- Intersect
- 상관관계
- 데이터분석가
- 빅데이터분석
- difftime
- count
- 정보획득량
- loop 문
- 순위출력
- %in%
- sql
- Today
- Total
목록빅데이터 분석(with 아이티윌)/python (59)
ch0nny_log

😁 회사에 모든 데이터는 리눅스에 저장이 되어 있습니다.리눅스에 database를 설치하고 database에서 SQL을 수행해서 데이터를 검색하고 분석을 합니다. 리눅스 → 데이터 베이스 → 파이썬(시각화, 데이터 분석)(운영체제) (maria db) → 테블로(시각화) ※ 데이터 엔지니어의 역할?- 데이터 파이프 라인 구축 (raw data → table)- 리눅스 명령어와 파이썬, SQL 이용해 데이터 전처리를 함 📝 maria db 와 pathon 연동#1. maria db 를 시작 시킵니다.- mariadb 서버 시작# systemctl start mariadb#2. maria db 에 접속해서 테이블 조회를 합니다.- mysql ..

홈페이지를 만들어야하는 이유 ? 1. 분석한 결과를 배포하기 위해서 2. 나만의 분석 결과 서비스를 생성 1. 현재 나의 파이썬 버전이 어떻게 되는지 확인 합니다.2. 파이썬 3.10 을 설치https://www.python.org/downloads/release/python-3109/참고: https://cafe.daum.net/oracleoracle/Sp62/9063.윈도우 탐색기를 열고 아래의 디렉토리로 이동4. 명령 프롬프트창을 열고 위의 경로로 이동5. pip install 명령어로 streamlit 을 설치6. 명령 프롬프트창에서 한칸 뒤로 이동7. streamlit 을 실행안되면 다음과 같이 수행8. 웹브라우져 하나가 자동으로 뜨는지 확인9. plotting Demo 를 누르기10...

1. 쉬운 타이타닉 데이터 분류 모델 만들기#1. 데이터 로드import seaborn as snsimport pandas as pddata = sns.load_dataset('titanic')data.shape # (891, 15)data.info#2. 데이터 살펴보기data.isnull().sum()# ★ 결측치 처리 # 나이는 전체 나이의 평균값으로 채웁니다. ( 평균값, 최빈값, 중앙값등으로 채움)data['age'].fillna(data['age'].mean(), inplace=True )#data.isnull().sum()# 정박한 항구(embarked) 의 결측치를 최빈값으로 채웁니다. data['embarked'].fillna( data['embarked'].mode()[0], inpl..

※ 파이썬과 오라클 연동 변하지 않는 csv 파일을 불러와서 데이터 분석을 하는 경우도 있지만 실시간으로 계속 입력되는 데이터를 불러와서 데이터 분석을 해야하는 경우도 있습니다.OLTPDW 서버실시간 주문 데이터 입력과거에 주문했던 데이터를 쌓아두는 곳 실시간으로 입력되는 데이터를 매번 CSV파일로 내려서 분석하기도 번거롭고 보안상의 이슈가 있어서 고객 정보가 있는 데이터는 CSV파일로 내리기도 어렵습니다. 그래서 바로 오라크로가 파이썬을 연동해서 데이터 분석을 합니다. 엑셀에 담을 수 있는 데이터가 한계가 있지만 오라클은 한계가 없습니다. #1. 오라클이 정상인지 확인합니다. C:\Users\ITWILL>sqlplus c##scott/tiger SQL> select * from emp; #2. 오..

❤️ 현업에 많이 사용되는 가설검정이란? 1. 정규 분포를 따르는 경우 ✨ 1. 1 (단일 모집단의 모평균 검정) z검정 통계량 _분산을 아는 경우문제 1. (z검정 통계량) 한 대학의 수학 시험에서 학생들의 평균 점수를 알고자 합니다. 과거의 데이터를 통해 이 시험의 점수는 정규분포를 따르며, 분산이 100으로 알려져 있습니다. 이번 학기에 50명의 학생들을 무작위로 추출하여 시험을 보았을때, 이들의 평균점수가 75점이 나왔습니다. 이 때, 이 시험의 모평균이 70점이라고 주장할 수 있을까요 ? 유의수준 0.05 에서 검정을 수행하세요 ! - 귀무가설: 모평균은 70점이다. - 대립가설: 모평균은 70점이 아니다. #1. 주어진 값들 정리x_bar = 75 # 표본평균mu = 70 # 가정된 모평균s..
📝 파이썬으로 랜덤 포레스트 모델 생성해서 수치 예측하기 ( 빅분기 실기 2유형 )처음에는 회귀트리 모델로 수치예측 → 랜덤 포레스트 모델로 수치 예측#1. 데이터 로드import pandas as pdwine = pd.read_csv("c:\\data\\whitewines.csv")#wine.head()#2. 결측치 확인wine.isnull().sum()# 3. 훈련과 테스트 분리from sklearn.model_selection import train_test_splitx = wine.iloc[: , 0:-1] #맨 끝의 컬럼인 quality를 제외y = wine.iloc[: , -1] # 맨 끝의 정답 데이터x_train, x_test, y_train, y_test = train_test_sp..

✨ 파이썬으로 단순회귀 분석하기 주제: 탄닌 함유량과 애벌레의 성장률에 대한 산포도 그래프와 휘귀 직선 그래프를 파이썬으로 구현하기 1. 필요한 패키지 임포트#1. 필요한 패키지 임포트import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt2. 데이터 로드# 2. 데이터 로드reg = pd.read_csv('c:\\data\\regression.txt',sep='\t')reg 3.독립변수와 종속변수 지정# 3. 독립변수와 종속변수 지정x= reg[['tannin']]y= reg[['growth']] 4. 산포도 그래프 시각화#4. 산포도 그래프 시각화sns.set_style('darkgrid')plt.scatter(x,y,color..

✨ 유형 2번 문제를 풀기위해 반드시 암기하고 가야할 코드 1. 랜덤 포레스트 from sklearn.ensemble import RandomForestClassifierr_model = RandomForestClassifier(n_estimators=100) 2. 서포트 백터 머신from sklearn import svmsvm_model = svm.SVC(C=100, gamma=3) 3. 신경망 from sklearn import MLPClassifiermodel = MLPClassifier(hidden_layer_sizes=(100, 200)) 1. 데이터 생성from sklearn.datasets import make_blobsx, y = make_blobs( centers =2, ran..