티스토리 뷰
기본적인 HiveQL을 사용해보기 전에 각 테이블을 import 해줍니다.
기본적인 쿼리를 사용해보면 RDBMS와 마찬가지로 결과를 볼 수 있습니다.
여기서 한 가지 차이점은 RDBMS처럼 column 명이 표시되지는 않습니다.
count를 사용했을 때는 위와 차이가 있습니다.
여기서는 job이 한개 잡힌 것을 확인할 수 있고 이 job이 맵리듀스를 실행하는 것을 볼 수 있습니다.
그리고 맵리듀스가 끝나면 마지막에 결과가 출력됩니다.
count, group by, order by를 사용한 쿼리입니다.
count와 group by에 대한 총 2개의 job을 만들고 각 job들에 대해 맵리듀스를 진행합니다.
join을 사용한 쿼리입니다.
join에 대한 1개의 job을 만들고 맵리듀스를 진행합니다.
HiveQL에서는 쿼리에서 사용되는 기능들에 대해 job으로 만들고 해당 job을 맵리듀스로 진행해줍니다.
SQL만 알고 있으면 맵리듀스를 코드로 직접 짜지 않고도 Hive를 이용해 데이터를 처리할 수 있습니다.
하지만 job이 생성이 되지않는 가장 기본적인 select * from table 정도의 쿼리를 제외하고는 대부분의 쿼리에서는 맵리듀스가 진행되기 때문에 RDBMS에서 돌아갈 만큼의 데이터를 사용하면 Hive가 RDBMS보다 결과를 출력하는 속도가 느리기 때문에 여러 Hive 성능향상 기법을 참고해서 사용해야 합니다.
'Development > Big Data' 카테고리의 다른 글
[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기 (0) | 2020.01.03 |
---|---|
[Hadoop] 아파치 하이브 (0) | 2020.01.02 |
[Cloudera - 5] Sqoop으로 MYSQL에서 Hive로 import하기 (0) | 2020.01.01 |
[Cloudera - 4] HDFS 데이터를 Hive로 옮기기 (0) | 2020.01.01 |
[Cloudera - 3] Sqoop으로 MYSQL에서 HDFS로 import하기 (0) | 2020.01.01 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Jaeha's Safe
- 코딩인터뷰 완전분석
- HiveQL
- 분할정복
- import
- C++
- 출전 순서 정하기
- HDFS
- pyspark
- 합친 lis
- 스파크
- 외발 뛰기
- Hadoop
- 하이브
- 2225
- 백준
- 팰린드롬 구하기
- 종만북
- 하둡
- python
- 완전탐색
- Django
- 배열과 문자열
- 삼각형 위의 최대 경로
- 두니발 박사의 탈옥
- 삼각형 위의 최대 경로 수 세기
- microwaving lunch boxes
- Sqoop
- 알고스팟
- hive
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함