[Hadoop] 아파치 하이브

티스토리 뷰

Development/Big Data

[Hadoop] 아파치 하이브

Junchoi 2020. 1. 2. 11:28

코끼리와 벌??....

아파치 하이브란?

하둡에 저장된 데이터(HDFS)를 SQL을 사용해 쉽게 처리하게 해주는 데이터웨어하우스(DW) 패키지입니다.

초기에는 Facebook에서 RDBMS로는 처리하기 힘든 대용량의 데이터를 처리하기 위해 개발했으며 현재는 아파치에 속해있는 오픈소스로 하둡 에코시스템의 일부가 되었습니다.

HDFS를 처리하기 위해서는 맵리듀스를 Java나 Python으로 직접 작성해야 하는데 이러한 작업이 오래 걸리기 때문에 SQL만 알면 누구나 HDFS를 처리할 수 있도록 개발되었습니다.

하이브에서 사용하는 SQL은 HiveQL이라고 하는 SQL의 일부에 속하는 언어를 사용합니다.

SQL과 거의 비슷하지만 Having절과 같은 일부 기능을 사용하지 못하는 특징이 있습니다.

하둡과 하이브에서의 작동방식을 간략하게 살펴보면 하둡에서 맵리듀스 코드를 바로 전달해주는 것과 달리 하이브에서 HiveQL을 받으면 해당 쿼리를 맵리듀스 코드로 변환하여 줍니다. 결국 하이브는 사용자가 작성하기 더 쉬운 high level 언어를 사용할 수 있게 해주는 것입니다.

'Development > Big Data' 카테고리의 다른 글

[Cloudera - 8] pyspark 쉘에서 RDD 생성과 map, flatmap (0)	2020.01.07
[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기 (0)	2020.01.03
[Cloudera - 6] HiveQL 기본 (0)	2020.01.02
[Cloudera - 5] Sqoop으로 MYSQL에서 Hive로 import하기 (0)	2020.01.01
[Cloudera - 4] HDFS 데이터를 Hive로 옮기기 (0)	2020.01.01

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

Don't die there

티스토리 뷰