[Hadoop] Map Reduce
Map Reduce는 하둡 클러스터의 데이터를 처리하기 위한 분산 프로그래밍 모델로써 대용량 데이터를 분산 컴퓨팅 환경에서 병렬로 처리하게 해줍니다. Map과 Reduce라는 두개의 메소드로 구성되어있으며 각 메소드는 프로그래머가 직접 작성하여 원하는 기능에 맞게 데이터를 처리할 수 있습니다. Map에서는 key-value 형식의 데이터를 읽어들여 필터링하거나 다른 값으로 변환하여 key-value의 list를 출력하는 작업을 수행합니다. Reduce에서는 Map에서 나온 결과값(key-value list)을 사용하여 새로운 key 기준으로 그룹화하고 집계연산을 수행하여 결과를 key-value의 list로 출력해줍니다. 이는 중복되는 데이터를 제거하고 원하는 데이터를 추출하는 작업으로서 RDBMS의 ..
Development/Big Data
2019. 12. 27. 02:40
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 2225
- Hadoop
- 두니발 박사의 탈옥
- C++
- 스파크
- 출전 순서 정하기
- 배열과 문자열
- 완전탐색
- import
- Sqoop
- 종만북
- python
- 백준
- 외발 뛰기
- microwaving lunch boxes
- pyspark
- 팰린드롬 구하기
- 하둡
- 합친 lis
- Jaeha's Safe
- 하이브
- 삼각형 위의 최대 경로
- 코딩인터뷰 완전분석
- HDFS
- 분할정복
- HiveQL
- Django
- 삼각형 위의 최대 경로 수 세기
- 알고스팟
- hive
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함