일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 히스토그램 그리기
- sql
- 상관관계
- %in%
- loop 문
- 데이터분석
- count
- 불순도제거
- difftime
- 회귀분석
- 빅데이터분석
- 그래프시각화
- merge
- 막대그래프
- 총과 카드만들기
- 데이터분석가
- 팀스파르타
- 그래프 생성 문법
- sqld
- 단순회귀 분석
- 순위출력
- if문 작성법
- Sum
- Dense_Rank
- 여러 데이터 검색
- 빅데이터
- 회귀분석 알고리즘
- 정보획득량
- max
- Intersect
- Today
- Total
목록2024/09 (22)
ch0nny_log
딥러닝책 : "밑바닥 부터 시작하는 딥러닝" 이 책이 딥러닝의 정석과 같은 책입니다. 딥러닝의 원리를 정말 잘 설명한 책 이 책이 전세계적으로 유명해진 이유가 ? 그림 설명이 많아서 이해하기 쉽게 구성 책의 내용은 미국 스탠포드대 딥러닝 강의를 그대로 교안으로 만든겁니다. 장점 ? 딥러닝의 원리를 정말 잘 설명 단점 ? 현재 텐써 플로우나 파이토치에 대한 코드가 없습니다. 오로지 파이썬 날코딩으로 신경망을 구현했습니다. 요즘에는 텐써플로우나 파이토치등을 이용해서 신경망을 구성합니다. 단층 신경망 0층 -----------> 1층 입력층 출력층 다층 신경망 0층 ------> 1층 ----------> 2층 입력층 은닉층 ..
✅ 리눅스 설치[ https://cafe.daum.net/oracleoracle/Sho9/1 (참고링크) ]※ oracle VM VirtualBox 에서 머신 -> 새로만들기 ※ centos7 오른쪽 마우스 -> 설정 클릭 ※ centos7 실행 완료 클릭후 설치 시작 -> 재부팅 버튼 클릭네트워크 두개 모두 켜야됨 ※ 시스템 확장 실행 완료가 되면 터미널 창이 알아서 닫김 ★ 반드시 터미널 창에서 리부팅해야됨 이더넷 톱니바퀴 클릭 터미널창 열고 ip 확인 mobaxterm 열기 ✅ 하둡 설치https://cafe.daum.net/oracleoracle/SpJO/141(참고링크) centos7 에 하둡 3.0 설치후 하이브 3.13 설치까지 총 스크립트0. 먼저 다시 vm을 새로 ..
1. 하둡이 정상적인 확인을 합니다. $ jps#2. 하둡을 시작 시킵니다. $ start-all.sh$ jps ■ 하둡 분산 파일 시스템 명령어 1. ls -> 지정된 디렉토리에 있는 파일의 정보를 출력 2. lsr -> 현재 디렉토리 뿐만 아니라 하위 디렉토리까지 조회 3. du -> 파일의 용량 확인 4. dus -> 파일의 전체 합계 용량 확인 5. cat -> 지정된 파일의 내용을 화면에 출력 6. text -> zip 파일 형태도 text 형태로 화면에 출력 7. mkdir -> 디렉토리 생성 8. put -> 파일을 하둡 파일 시스템에 올리는 명령어 9. copyFromLocal -> 파일 복사 10. get -> 하둡 파일 시스템의 파일을 리눅스 디렉토리로 내리는 명령어 11...
※ 스파크(Spark) 설치스파크(spark) 란 ? hive 의 단점을 개선하기 위해서 나온게 스파크입니다. hive 가 자바를 몰라도 하둡 분산 파일 시스템에 있는 데이터를 SQL로 조회할 수 있게 facebook 에서 만든 noSQL 입니다. hive 의 단점이 disk 에서 데이터를 처리하기 때문에 속도가 너무 느립니다. 스파크는 메모리(memory) 에서 데이터를 처리해서 속도가 아주 빠릅니다. 요즘 하드웨어 성능이 좋아지고 있고 메모리 가격도 예전에 비해서 저렴해져서 스파크(spark) 사용이 대중화가 되고 있습니다. ■ 스파크(spark)의 특징 ? 1. 메모리 기반의 데이터 처리로 속도가 아주 빠릅니다. 2. 하둡의 hdfs 를 이용할 수도 있고 또는 단독으로 사용이 가능합니..
■ centos 에 mongo db 설치 1. root 유져로 접속합니다.2. 몽고 디비를 설치하기 위하여 아래의 파일을 열어서 아래의 내용을 입력합니다. [root@centos ~]# vi /etc/yum.repos.d/mongodb-org-3.4.repo 3. 몽고디비를 설치합니다.[root@centos ~]# yum install -y mongodb-org4. 몽고디비를 시작 시킵니다.[root@centos ~]# systemctl enable mongod [root@centos ~]# systemctl start mongod5. 몽고디비를 실행합니다.[root@centos ~]# mongo6. mongodb 에 emp 테이블을 생성합니다.db.emp.save({empno:7499,ename:"..
하둡(hadoop) 이란 무엇인가 ? 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임워크 입니다킬로 바이트 : 10^3 바이트메가 바이트 : 10^6 바이트기가 바이트 : 10^9 바이트 테라 바이트 : 10^12 바이트페타 바이트 : 10^15 바이트엑사 바이트 : 10^21 바이트요타 바이트 : 10^24 바이트 오라클 엑사 서버라는 서버가 있는데 2-3억 이상입니다. 오라클 엑사 서버가 빅데이터를 핸들링하는 지금까지 나온 제일 좋은 프로그램이자 서버입니다. 저렴한 비용으로 빅데이터를 다룰 수 있는 프로그램이 있는데 이게 바로 하둡입니다. 분산처리란 ? 데이터를 여러개의 서버들에 나눠서 저장하고 여러 서버들의 자원을 다 이용해서 데이터를 처리하는 것을 말합니다. ..
😁 회사에 모든 데이터는 리눅스에 저장이 되어 있습니다.리눅스에 database를 설치하고 database에서 SQL을 수행해서 데이터를 검색하고 분석을 합니다. 리눅스 → 데이터 베이스 → 파이썬(시각화, 데이터 분석)(운영체제) (maria db) → 테블로(시각화) ※ 데이터 엔지니어의 역할?- 데이터 파이프 라인 구축 (raw data → table)- 리눅스 명령어와 파이썬, SQL 이용해 데이터 전처리를 함 📝 maria db 와 pathon 연동#1. maria db 를 시작 시킵니다.- mariadb 서버 시작# systemctl start mariadb#2. maria db 에 접속해서 테이블 조회를 합니다.- mysql ..
📝wc 명령어파일 안의 단어의 갯수 또는 라인수를 출력하는 명령어예제. wc emp.csv15 15 663 emp.csv^ ^ ^라인수 단어의 갯수 철자의 갯수 (콤마로 연결되어 있어서 한줄을 한 단어로 취급)-l 옵션으로 라인수만 출력문제1. movies_comma.csv 의 전체 라인수가 어떻게 되는지 확인하기wc -l movies_comma.csv문제2. 현재 디렉토리에 확장자가 .csv 로 끝나는 파일들을 조회하기 ls -l *.csv문제3. (⭐중요⭐)현재 디렉토리에 확장자가 .csv 로 끝나는 파일들이 몇개가 있는지 조회하기ls -l *.csv | wc -l..