일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 막대그래프
- 빅데이터
- Intersect
- merge
- 그래프 생성 문법
- 그래프시각화
- loop 문
- 불순도제거
- 히스토그램 그리기
- 회귀분석 알고리즘
- 팀스파르타
- 여러 데이터 검색
- 순위출력
- 상관관계
- if문 작성법
- max
- 단순회귀 분석
- 총과 카드만들기
- 데이터분석
- 빅데이터분석
- Dense_Rank
- sql
- %in%
- sqld
- 회귀분석
- 정보획득량
- difftime
- Sum
- count
- 데이터분석가
- Today
- Total
목록2024/09/23 (4)
ch0nny_log
하둡(hadoop) 이란 무엇인가 ? 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크 입니다킬로 바이트 : 10^3 바이트메가 바이트 : 10^6 바이트기가 바이트 : 10^9 바이트 테라 바이트 : 10^12 바이트페타 바이트 : 10^15 바이트엑사 바이트 : 10^21 바이트요타 바이트 : 10^24 바이트 오라클 엑사 서버라는 서버가 있는데 2-3억 이상입니다. 오라클 엑사 서버가 빅데이터를 핸들링하는 지금까지 나온 제일 좋은 프로그램이자 서버입니다. 저렴한 비용으로 빅데이터를 다룰 수 있는 프로그램이 있는데 이게 바로 하둡입니다. 분산처리란 ? 데이터를 여러개의 서버들에 나눠서 저장하고 여러 서버들의 자원을 다 이용해서 데이터를 처리하는 것을 말합니다. ..
😁 회사에 모든 데이터는 리눅스에 저장이 되어 있습니다.리눅스에 database를 설치하고 database에서 SQL을 수행해서 데이터를 검색하고 분석을 합니다. 리눅스 → 데이터 베이스 → 파이썬(시각화, 데이터 분석)(운영체제) (maria db) → 테블로(시각화) ※ 데이터 엔지니어의 역할?- 데이터 파이프 라인 구축 (raw data → table)- 리눅스 명령어와 파이썬, SQL 이용해 데이터 전처리를 함 📝 maria db 와 pathon 연동#1. maria db 를 시작 시킵니다.- mariadb 서버 시작# systemctl start mariadb#2. maria db 에 접속해서 테이블 조회를 합니다.- mysql ..
📝wc 명령어파일 안의 단어의 갯수 또는 라인수를 출력하는 명령어예제. wc emp.csv15 15 663 emp.csv^ ^ ^라인수 단어의 갯수 철자의 갯수 (콤마로 연결되어 있어서 한줄을 한 단어로 취급)-l 옵션으로 라인수만 출력문제1. movies_comma.csv 의 전체 라인수가 어떻게 되는지 확인하기wc -l movies_comma.csv문제2. 현재 디렉토리에 확장자가 .csv 로 끝나는 파일들을 조회하기 ls -l *.csv문제3. (⭐중요⭐)현재 디렉토리에 확장자가 .csv 로 끝나는 파일들이 몇개가 있는지 조회하기ls -l *.csv | wc -l..
지난주에 배웠던 리눅스 명령어cd 명령어mkdir 명령어cat 명령어grep 명령어awk 명령어복습문제1. 직업이 analyst인 사원들의 이름과 월급, 직업을 출력하기awk -F ',' '$3 =="ANALYST" {print $2,$6,$3}' emp.csv설명 : -F 구분자복습문제2. 1981년도에 입사한 사원들의 이름과 입사일을 출력하기awk -F ',' '$3 =="ANALYST" {print $2,$6,$3}' emp.csv 설명 : substr($컬럼번호, 시작자리 인덱스 번호, 끝자리 인덱스 번호) 복습문제 3. 이름의 첫 글자가 A로 시작하는 사원들의 이름과 월급을 출력하기 awk -F ',' 'substr($2, 1, 1) == "A" {print $2, $6}' emp.csv..