티스토리 뷰
지금까지 했던 실습을 바탕으로 KBO 야구 데이터를 Hive에 옮기고 HiveQL로 간단한 분석을 해보겠습니다.
먼저 아래 링크에서 첨부파일을 가상머신 내에서 다운받고 압축을 풀어줍니다.
첨부파일의 압축을 풀면 KBO_Players.txt와 KBO_Teams.txt 이 두 개의 파일을 확인할 수 있습니다.
먼저 이 두 파일을 HDFS에 put 해줍니다.
하이브에서 먼저 kbo_teams 테이블을 만들고 KBO_Teams.txt 데이터를 옮겨줍니다.
다음 kbo_players 테이블에 KBO_Players.txt 파일을 옮겨줍니다.
kbo_players 테이블에는 struct라는 데이터 타입을 사용합니다.
struct를 구분짓는 문자는 collection items terminated by '문자' 를 입력해주면 됩니다.
데이터를 모두 옮겼으면 간단한 분석을 해보겠습니다.
먼저 첫 번째는 Park Byungho 선수가 속한 팀과 그 팀의 승무패를 출력해봅니다.
결과로 Park Byungho 선수가 속한 팀은 nexen이고 78승 1무 65패인 것을 확인할 수 있습니다.
다음은 승리 횟수가 88인 팀명과 그 팀에서의 총 홈런 개수를 확인해봅니다.
결과로 승리 횟수가 88인 팀은 samsung이고 총 176개의 홈런인 것을 확인할 수 있습니다.
HiveQL을 사용해 정말 간단한 분석을 해보았는데요 이렇게 데이터를 HDFS와 Hive로 이동시키는 방법을 숙지하고나면 여러가지 데이터를 사용해서 다양한 분석을 적용해볼 수 있습니다!
'Development > Big Data' 카테고리의 다른 글
[Cloudera - 9] pyspark 쉘에서 filter, groupByKey, reduceByKey, countByValue (0) | 2020.01.07 |
---|---|
[Cloudera - 8] pyspark 쉘에서 RDD 생성과 map, flatmap (0) | 2020.01.07 |
[Hadoop] 아파치 하이브 (0) | 2020.01.02 |
[Cloudera - 6] HiveQL 기본 (0) | 2020.01.02 |
[Cloudera - 5] Sqoop으로 MYSQL에서 Hive로 import하기 (0) | 2020.01.01 |
- Total
- Today
- Yesterday
- Django
- 두니발 박사의 탈옥
- 출전 순서 정하기
- C++
- 종만북
- 외발 뛰기
- 분할정복
- HDFS
- 하둡
- python
- Sqoop
- Hadoop
- 스파크
- 알고스팟
- import
- HiveQL
- 코딩인터뷰 완전분석
- 완전탐색
- microwaving lunch boxes
- 배열과 문자열
- 합친 lis
- 백준
- pyspark
- 2225
- hive
- Jaeha's Safe
- 삼각형 위의 최대 경로 수 세기
- 팰린드롬 구하기
- 하이브
- 삼각형 위의 최대 경로
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |