티스토리 뷰
지금까지 했던 실습을 바탕으로 KBO 야구 데이터를 Hive에 옮기고 HiveQL로 간단한 분석을 해보겠습니다.
먼저 아래 링크에서 첨부파일을 가상머신 내에서 다운받고 압축을 풀어줍니다.
A.I Lab - 과제 #3(HIVE를 이용한 국내 프로야구 데이터 분석)
자세한 설명은 압축 파일 안에 PDF 파일에 있습니다. 문제를 잘 읽고 답안을 PDF, HWP, DOC 중 하나의 포멧으로 만들어서 아래의 메일 주소로 보내주세요. 보낼 때 메일 제목이나 파일 제목은 "빅데이터분산컴퓨팅_이름_과제3" 으로 보내주세요. 기한은 4월 14일(목요일) 까지 입니다. mjtime@ssu.ac.kr
ailab.ssu.ac.kr
첨부파일의 압축을 풀면 KBO_Players.txt와 KBO_Teams.txt 이 두 개의 파일을 확인할 수 있습니다.
먼저 이 두 파일을 HDFS에 put 해줍니다.
하이브에서 먼저 kbo_teams 테이블을 만들고 KBO_Teams.txt 데이터를 옮겨줍니다.
다음 kbo_players 테이블에 KBO_Players.txt 파일을 옮겨줍니다.
kbo_players 테이블에는 struct라는 데이터 타입을 사용합니다.
struct를 구분짓는 문자는 collection items terminated by '문자' 를 입력해주면 됩니다.
데이터를 모두 옮겼으면 간단한 분석을 해보겠습니다.
먼저 첫 번째는 Park Byungho 선수가 속한 팀과 그 팀의 승무패를 출력해봅니다.
결과로 Park Byungho 선수가 속한 팀은 nexen이고 78승 1무 65패인 것을 확인할 수 있습니다.
다음은 승리 횟수가 88인 팀명과 그 팀에서의 총 홈런 개수를 확인해봅니다.
결과로 승리 횟수가 88인 팀은 samsung이고 총 176개의 홈런인 것을 확인할 수 있습니다.
HiveQL을 사용해 정말 간단한 분석을 해보았는데요 이렇게 데이터를 HDFS와 Hive로 이동시키는 방법을 숙지하고나면 여러가지 데이터를 사용해서 다양한 분석을 적용해볼 수 있습니다!
'Development > Big Data' 카테고리의 다른 글
[Cloudera - 9] pyspark 쉘에서 filter, groupByKey, reduceByKey, countByValue (0) | 2020.01.07 |
---|---|
[Cloudera - 8] pyspark 쉘에서 RDD 생성과 map, flatmap (0) | 2020.01.07 |
[Hadoop] 아파치 하이브 (0) | 2020.01.02 |
[Cloudera - 6] HiveQL 기본 (0) | 2020.01.02 |
[Cloudera - 5] Sqoop으로 MYSQL에서 Hive로 import하기 (0) | 2020.01.01 |
- Total
- Today
- Yesterday
- hive
- 외발 뛰기
- 출전 순서 정하기
- 종만북
- python
- Sqoop
- 하둡
- 합친 lis
- 하이브
- 완전탐색
- 코딩인터뷰 완전분석
- HiveQL
- import
- 배열과 문자열
- 2225
- microwaving lunch boxes
- HDFS
- Jaeha's Safe
- 백준
- pyspark
- Django
- 스파크
- C++
- 두니발 박사의 탈옥
- 삼각형 위의 최대 경로 수 세기
- 알고스팟
- 분할정복
- 삼각형 위의 최대 경로
- 팰린드롬 구하기
- Hadoop
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |