기본적인 HiveQL을 사용해보기 전에 각 테이블을 import 해줍니다. 기본적인 쿼리를 사용해보면 RDBMS와 마찬가지로 결과를 볼 수 있습니다.여기서 한 가지 차이점은 RDBMS처럼 column 명이 표시되지는 않습니다. count를 사용했을 때는 위와 차이가 있습니다.여기서는 job이 한개 잡힌 것을 확인할 수 있고 이 job이 맵리듀스를 실행하는 것을 볼 수 있습니다.그리고 맵리듀스가 끝나면 마지막에 결과가 출력됩니다. count, group by, order by를 사용한 쿼리입니다.count와 group by에 대한 총 2개의 job을 만들고 각 job들에 대해 맵리듀스를 진행합니다.join을 사용한 쿼리입니다.join에 대한 1개의 job을 만들고 맵리듀스를 진행합니다. HiveQL에..
저번 글에서는 MYSQL에서 HDFS로 먼저 데이터를 옮기고 다시 HDFS에서 Hive로 옮겨봤습니다.이번에는 MYSQL에서 Hive로 바로 데이터를 옮기는 것을 스쿱을 사용해서 해보겠습니다. hive cli에서 show databases를 해보면 저번에 만들었던 hdfs_retail_db를 확인할 수 있습니다. 이번에는 hive_retail_db라는 이름으로 database를 생성합니다. sqoop import 명령어를 입력해줍니다.HDFS로 옮길 때와 차이점은 --hive-database 옵션으로 옮기고자 하는 database를 입력해주고--hive-import 옵션을 명시해줍니다. hive_retail_db에서 쿼리를 사용해보면 성공적으로 데이터가 import된 것을 확인할 수 있습니다.MYSQL..
저번 글에서 MYSQL 데이터를 HDFS로 옮겨봤는데요이번에는 옮겨던 HDFS 데이터를 다시 Hive로 옮겨보겠습니다. 저번에 HDFS로 import해서 가져온 데이터입니다. hive 라고 입력하면 hive cli로 변경됩니다. 먼저 hdfs_retail_db라는 database를 만들어줍니다. 그리고 categories라는 테이블을 만들고 HDFS에 있는 데이터와 동일한 데이터 타입으로 각 column을 다음과 같이 정의합니다. load data inpath 'HDFS에서 옮기려는 데이터' into table 테이블이름 으로 입력해줍니다. 다음 쿼리를 통해 HDFS에서 Hive로 성공적으로 데이터를 옮긴 것을 확인할 수 있습니다.
- Total
- Today
- Yesterday
- 배열과 문자열
- hive
- 코딩인터뷰 완전분석
- 합친 lis
- Jaeha's Safe
- 2225
- 스파크
- python
- 팰린드롬 구하기
- 알고스팟
- C++
- HiveQL
- 외발 뛰기
- Django
- 백준
- 삼각형 위의 최대 경로 수 세기
- HDFS
- 출전 순서 정하기
- microwaving lunch boxes
- Sqoop
- 분할정복
- Hadoop
- 삼각형 위의 최대 경로
- 두니발 박사의 탈옥
- 종만북
- import
- pyspark
- 하이브
- 하둡
- 완전탐색
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |