일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 회귀분석
- 정보획득량
- 상관관계
- 데이터분석
- Dense_Rank
- loop 문
- 히스토그램 그리기
- 불순도제거
- 빅데이터
- 빅데이터분석
- if문 작성법
- 그래프 생성 문법
- Intersect
- 순위출력
- 여러 데이터 검색
- 막대그래프
- 회귀분석 알고리즘
- %in%
- difftime
- sql
- 팀스파르타
- 단순회귀 분석
- Sum
- merge
- count
- 데이터분석가
- max
- sqld
- 그래프시각화
- 총과 카드만들기
- Today
- Total
목록빅데이터 분석(with 아이티윌)/리눅스 (7)
ch0nny_log

✅ 리눅스 설치[ https://cafe.daum.net/oracleoracle/Sho9/1 (참고링크) ]※ oracle VM VirtualBox 에서 머신 -> 새로만들기 ※ centos7 오른쪽 마우스 -> 설정 클릭 ※ centos7 실행 완료 클릭후 설치 시작 -> 재부팅 버튼 클릭네트워크 두개 모두 켜야됨 ※ 시스템 확장 실행 완료가 되면 터미널 창이 알아서 닫김 ★ 반드시 터미널 창에서 리부팅해야됨 이더넷 톱니바퀴 클릭 터미널창 열고 ip 확인 mobaxterm 열기 ✅ 하둡 설치https://cafe.daum.net/oracleoracle/SpJO/141(참고링크) centos7 에 하둡 3.0 설치후 하이브 3.13 설치까지 총 스크립트0. 먼저 다시 vm을 새로 ..

※ 스파크(Spark) 설치스파크(spark) 란 ? hive 의 단점을 개선하기 위해서 나온게 스파크입니다. hive 가 자바를 몰라도 하둡 분산 파일 시스템에 있는 데이터를 SQL로 조회할 수 있게 facebook 에서 만든 noSQL 입니다. hive 의 단점이 disk 에서 데이터를 처리하기 때문에 속도가 너무 느립니다. 스파크는 메모리(memory) 에서 데이터를 처리해서 속도가 아주 빠릅니다. 요즘 하드웨어 성능이 좋아지고 있고 메모리 가격도 예전에 비해서 저렴해져서 스파크(spark) 사용이 대중화가 되고 있습니다. ■ 스파크(spark)의 특징 ? 1. 메모리 기반의 데이터 처리로 속도가 아주 빠릅니다. 2. 하둡의 hdfs 를 이용할 수도 있고 또는 단독으로 사용이 가능합니..

■ centos 에 mongo db 설치 1. root 유져로 접속합니다.2. 몽고 디비를 설치하기 위하여 아래의 파일을 열어서 아래의 내용을 입력합니다. [root@centos ~]# vi /etc/yum.repos.d/mongodb-org-3.4.repo 3. 몽고디비를 설치합니다.[root@centos ~]# yum install -y mongodb-org4. 몽고디비를 시작 시킵니다.[root@centos ~]# systemctl enable mongod [root@centos ~]# systemctl start mongod5. 몽고디비를 실행합니다.[root@centos ~]# mongo6. mongodb 에 emp 테이블을 생성합니다.db.emp.save({empno:7499,ename:"..

하둡(hadoop) 이란 무엇인가 ? 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크 입니다킬로 바이트 : 10^3 바이트메가 바이트 : 10^6 바이트기가 바이트 : 10^9 바이트 테라 바이트 : 10^12 바이트페타 바이트 : 10^15 바이트엑사 바이트 : 10^21 바이트요타 바이트 : 10^24 바이트 오라클 엑사 서버라는 서버가 있는데 2-3억 이상입니다. 오라클 엑사 서버가 빅데이터를 핸들링하는 지금까지 나온 제일 좋은 프로그램이자 서버입니다. 저렴한 비용으로 빅데이터를 다룰 수 있는 프로그램이 있는데 이게 바로 하둡입니다. 분산처리란 ? 데이터를 여러개의 서버들에 나눠서 저장하고 여러 서버들의 자원을 다 이용해서 데이터를 처리하는 것을 말합니다. ..

📝wc 명령어파일 안의 단어의 갯수 또는 라인수를 출력하는 명령어예제. wc emp.csv15 15 663 emp.csv^ ^ ^라인수 단어의 갯수 철자의 갯수 (콤마로 연결되어 있어서 한줄을 한 단어로 취급)-l 옵션으로 라인수만 출력문제1. movies_comma.csv 의 전체 라인수가 어떻게 되는지 확인하기wc -l movies_comma.csv문제2. 현재 디렉토리에 확장자가 .csv 로 끝나는 파일들을 조회하기 ls -l *.csv문제3. (⭐중요⭐)현재 디렉토리에 확장자가 .csv 로 끝나는 파일들이 몇개가 있는지 조회하기ls -l *.csv | wc -l..

지난주에 배웠던 리눅스 명령어cd 명령어mkdir 명령어cat 명령어grep 명령어awk 명령어복습문제1. 직업이 analyst인 사원들의 이름과 월급, 직업을 출력하기awk -F ',' '$3 =="ANALYST" {print $2,$6,$3}' emp.csv설명 : -F 구분자복습문제2. 1981년도에 입사한 사원들의 이름과 입사일을 출력하기awk -F ',' '$3 =="ANALYST" {print $2,$6,$3}' emp.csv 설명 : substr($컬럼번호, 시작자리 인덱스 번호, 끝자리 인덱스 번호) 복습문제 3. 이름의 첫 글자가 A로 시작하는 사원들의 이름과 월급을 출력하기 awk -F ',' 'substr($2, 1, 1) == "A" {print $2, $6}' emp.csv..

※ 출처 리눅스 설치 1. 오라클 virtual box 다운로드 www.virtualbox.org/wiki/DownloadsDownloads – Oracle VM VirtualBoxDownload VirtualBox Here you will find links to VirtualBox binaries and its source code. VirtualBoxcafe.daum.net ※ 설치 프로그램 Downloads – Oracle VM VirtualBoxOracle VirtualBox Extension Pack Personal Use and Educational License (PUEL) This VirtualBox Extension Pack Personal Use and Educational Lic..