아파치 플룸(Apache Flume)이란? 로그 데이터를 수집하기 위한 분산형 소프트웨어입니다. 여러 대의 서버에서 실시간으로 쌓여가는 많은 양의 로그 데이터를 효율적으로 수집하여 하나의 로그 수집 서버로 모아 로그 데이터들을 관리할 수 있습니다. 플룸은 시스템 확장성(Scalability)과 신뢰성(Reliability)을 주요 특징으로 설계되었습니다. 따라서 수집 데이터 및 서버의 양에 맞게 효율적으로 플룸 시스템을 확장하여 관리할 수 있고 데이터의 유실없이 수집할 수 있도록 해줍니다. 플룸의 0.x 버전을 Flume OG, 1.x 버전은 Flume NG라고 부르며 이 블로그에서의 플룸에 대한 모든 글은 Flume NG를 기준으로 합니다. 플룸 구성요소 플룸은 하나의 Agent로 구성되어있고 Agen..
아파치 하이브란? 하둡에 저장된 데이터(HDFS)를 SQL을 사용해 쉽게 처리하게 해주는 데이터웨어하우스(DW) 패키지입니다. 초기에는 Facebook에서 RDBMS로는 처리하기 힘든 대용량의 데이터를 처리하기 위해 개발했으며 현재는 아파치에 속해있는 오픈소스로 하둡 에코시스템의 일부가 되었습니다. HDFS를 처리하기 위해서는 맵리듀스를 Java나 Python으로 직접 작성해야 하는데 이러한 작업이 오래 걸리기 때문에 SQL만 알면 누구나 HDFS를 처리할 수 있도록 개발되었습니다. 하이브에서 사용하는 SQL은 HiveQL이라고 하는 SQL의 일부에 속하는 언어를 사용합니다. SQL과 거의 비슷하지만 Having절과 같은 일부 기능을 사용하지 못하는 특징이 있습니다. 하둡과 하이브에서의 작동방식을 간략하..
Map Reduce는 하둡 클러스터의 데이터를 처리하기 위한 분산 프로그래밍 모델로써 대용량 데이터를 분산 컴퓨팅 환경에서 병렬로 처리하게 해줍니다. Map과 Reduce라는 두개의 메소드로 구성되어있으며 각 메소드는 프로그래머가 직접 작성하여 원하는 기능에 맞게 데이터를 처리할 수 있습니다. Map에서는 key-value 형식의 데이터를 읽어들여 필터링하거나 다른 값으로 변환하여 key-value의 list를 출력하는 작업을 수행합니다. Reduce에서는 Map에서 나온 결과값(key-value list)을 사용하여 새로운 key 기준으로 그룹화하고 집계연산을 수행하여 결과를 key-value의 list로 출력해줍니다. 이는 중복되는 데이터를 제거하고 원하는 데이터를 추출하는 작업으로서 RDBMS의 S..
HDFS(Hadoop Distributed File System)는 하둡의 핵심 구성요소의 하나로써 데이터를 분산하여 저장시키는 파일 시스템 입니다. HDFS는 하나의 Name node(Master)와 여러대의 Data node(Slave)로 구성되어 있으며 file을 Block으로 분할하여 각 Block들을 Data node에 분산시켜 저장합니다. Block의 사이즈는 기본 65MB 혹은 128MB이며 file이 block의 크기보다 작을 때는 block 크기 전체를 사용하지는 않습니다. 이 때 Block은 복제되어 복제된 block들이 여러 노드에 하나씩 저장됩니다. default값은 3개이며 수정할 수 있습니다. 그리고 Name node에는 각 Bloock들이 어디에 위치해 있는지에 대한 정보를 포..
아파치 하둡이란? 대용량 데이터를 처리해주는 소프트웨어 프레임워크 입니다. 원래는 웹 검색 엔진이었던 아파치 너치(Apache Nutch)의 데이터를 관리하기 위해 개발되었습니다. 당시 너치는 수십억 웹 페이지를 크롤링하고 색인을 할 만큼의 데이터를 처리하는 기술이 없었지만 구글에서 공개한 GFS(Google File System)와 맵리듀스(Map Reduce)를 바탕으로 NDFS(Nutch Distributed File System)를 오픈소스로 구현하여 맵리듀스와 함께 너치에 적용할 수 있었습니다. 그리고 프로젝트가 점차 확장하여 독립된 프로젝트로 구성되었고 하둡과 같이 사용해 데이터를 관리할 수 있는 다양한 프로젝트들이 생겨나며 하둡 에코시스템이라는 하둡 생태계가 갖추어졌고 현재 다양한 기업에서 ..
- Total
- Today
- Yesterday
- 출전 순서 정하기
- 2225
- Jaeha's Safe
- 배열과 문자열
- 두니발 박사의 탈옥
- C++
- Sqoop
- HiveQL
- Hadoop
- pyspark
- 분할정복
- 하이브
- 종만북
- python
- 합친 lis
- 스파크
- 삼각형 위의 최대 경로 수 세기
- 백준
- 코딩인터뷰 완전분석
- 완전탐색
- 팰린드롬 구하기
- 알고스팟
- hive
- HDFS
- Django
- microwaving lunch boxes
- import
- 외발 뛰기
- 하둡
- 삼각형 위의 최대 경로
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |