
저번 글에서 MYSQL 데이터를 HDFS로 옮겨봤는데요이번에는 옮겨던 HDFS 데이터를 다시 Hive로 옮겨보겠습니다. 저번에 HDFS로 import해서 가져온 데이터입니다. hive 라고 입력하면 hive cli로 변경됩니다. 먼저 hdfs_retail_db라는 database를 만들어줍니다. 그리고 categories라는 테이블을 만들고 HDFS에 있는 데이터와 동일한 데이터 타입으로 각 column을 다음과 같이 정의합니다. load data inpath 'HDFS에서 옮기려는 데이터' into table 테이블이름 으로 입력해줍니다. 다음 쿼리를 통해 HDFS에서 Hive로 성공적으로 데이터를 옮긴 것을 확인할 수 있습니다.

Sqoop은 MYSQL, Oracle, Postgresql과 같은 RDBMS와 HDFS, Hive, Hbase와 같은 하둡 에코시스템 사이에서 데이터를 주고 받을 수 있게 해줍니다. 이번 글에서는 MYSQL에서 HDFS로 스쿱을 사용해 데이터를 import하는 방법에 대해 알아보겠습니다. 먼저 quickstart에 설치되어있는 MYSQL에 접속하기위해 mysql -u root -p를 입력하고 패스워드는 cloudera를 입력해줍니다.show databases를 해보면 이미 여러 database가 있는 것을 확인할 수 있습니다. 이번에 사용할 데이터는 retail_db라는 database에 있는 테이블을 사용합니다.use retail_db로 retail_db를 선택하고 show tables를 통해 들어있는..

Cloudera quickstart 이미지로 가상머신을 생성하고나면 하둡 에코시스템에 대한 여러 실습이 가능합니다.이번 글에서는 하둡의 기본 명령어에 대해 알아보겠습니다. quickstart 가상머신 첫 화면에서 위에 표시된 아이콘을 클릭하면 터미널을 열 수 있습니다. 1. hadoop fs하둡 명령어는 앞에 hadoop fs 가 항상 붙습니다.터미널에 hadoop fs만 입력하면 사용가능한 하둡 명령어 리스트들을 확인할 수 있습니다.hadoop fs 뒤의 명령어는 대부분 리눅스와 동일하지만 명령어 앞에는 항상 하이픈(-)이 붙습니다. 2. hadoop fs -lsHDFS의 리스트를 확인할 수 있습니다.ls 뒤에 경로를 붙여 탐색하고 싶은 경로를 확인할 수 있고 경로를 붙이지않으면 홈 디렉터..

Cloudera는 하둡 배포판(CDH)을 제공하는 기업입니다. Cloudera에서 제공하는 quickstart에서는 하둡과 에코시스템의 여러 프로젝트들이 설치되어있어 설치 삽질을 하며 시간을 잡아먹을 필요없이 하둡에 대한 실습을 바로 해볼 수 있습니다. 1. Virtual Box 다운로드https://www.virtualbox.org/wiki/Download_Old_Builds_6_0 Download_Old_Builds_6_0 – Oracle VM VirtualBox www.virtualbox.org해당 링크를 통해 Virtual Box를 다운로드 합니다. 현재 최신버전인 6.1 버전에서는 quickstart 이미지가 실행이 되지 않으므로 6.0 버전 밑으로 받으면 됩니다. 2. Clouder qui..

Map Reduce는 하둡 클러스터의 데이터를 처리하기 위한 분산 프로그래밍 모델로써 대용량 데이터를 분산 컴퓨팅 환경에서 병렬로 처리하게 해줍니다. Map과 Reduce라는 두개의 메소드로 구성되어있으며 각 메소드는 프로그래머가 직접 작성하여 원하는 기능에 맞게 데이터를 처리할 수 있습니다. Map에서는 key-value 형식의 데이터를 읽어들여 필터링하거나 다른 값으로 변환하여 key-value의 list를 출력하는 작업을 수행합니다. Reduce에서는 Map에서 나온 결과값(key-value list)을 사용하여 새로운 key 기준으로 그룹화하고 집계연산을 수행하여 결과를 key-value의 list로 출력해줍니다. 이는 중복되는 데이터를 제거하고 원하는 데이터를 추출하는 작업으로서 RDBMS의 ..

HDFS(Hadoop Distributed File System)는 하둡의 핵심 구성요소의 하나로써 데이터를 분산하여 저장시키는 파일 시스템 입니다. HDFS는 하나의 Name node(Master)와 여러대의 Data node(Slave)로 구성되어 있으며 file을 Block으로 분할하여 각 Block들을 Data node에 분산시켜 저장합니다.Block의 사이즈는 기본 65MB 혹은 128MB이며 file이 block의 크기보다 작을 때는 block 크기 전체를 사용하지는 않습니다. 이 때 Block은 복제되어 복제된 block들이 여러 노드에 하나씩 저장됩니다.default값은 3개이며 수정할 수 있습니다. 그리고 Name node에는 각 Bloock들이 어디에 위치해 있는지에 대한 정보를 포함..

아파치 하둡이란? 대용량 데이터를 처리해주는 소프트웨어 프레임워크 입니다. 원래는 웹 검색 엔진이었던 아파치 너치(Apache Nutch)의 데이터를 관리하기 위해 개발되었습니다. 당시 너치는 수십억 웹 페이지를 크롤링하고 색인을 할 만큼의 데이터를 처리하는 기술이 없었지만 구글에서 공개한 GFS(Google File System)와 맵리듀스(Map Reduce)를 바탕으로 NDFS(Nutch Distributed File System)를 오픈소스로 구현하여 맵리듀스와 함께 너치에 적용할 수 있었습니다. 그리고 프로젝트가 점차 확장하여 독립된 프로젝트로 구성되었고 하둡과 같이 사용해 데이터를 관리할 수 있는 다양한 프로젝트들이 생겨나며 하둡 에코시스템이라는 하둡 생태계가 갖추어졌고 현재 다양한 기업에서 ..
- Total
- Today
- Yesterday
- 완전탐색
- HDFS
- python
- 삼각형 위의 최대 경로 수 세기
- 2225
- 두니발 박사의 탈옥
- Django
- 백준
- 배열과 문자열
- 하둡
- 하이브
- 합친 lis
- 알고스팟
- hive
- 외발 뛰기
- 삼각형 위의 최대 경로
- Hadoop
- HiveQL
- 출전 순서 정하기
- 코딩인터뷰 완전분석
- pyspark
- 분할정복
- Sqoop
- 팰린드롬 구하기
- Jaeha's Safe
- import
- 종만북
- 스파크
- C++
- microwaving lunch boxes
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |