[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기
지금까지 했던 실습을 바탕으로 KBO 야구 데이터를 Hive에 옮기고 HiveQL로 간단한 분석을 해보겠습니다.
먼저 아래 링크에서 첨부파일을 가상머신 내에서 다운받고 압축을 풀어줍니다.
A.I Lab - 과제 #3(HIVE를 이용한 국내 프로야구 데이터 분석)
자세한 설명은 압축 파일 안에 PDF 파일에 있습니다. 문제를 잘 읽고 답안을 PDF, HWP, DOC 중 하나의 포멧으로 만들어서 아래의 메일 주소로 보내주세요. 보낼 때 메일 제목이나 파일 제목은 "빅데이터분산컴퓨팅_이름_과제3" 으로 보내주세요. 기한은 4월 14일(목요일) 까지 입니다. mjtime@ssu.ac.kr
ailab.ssu.ac.kr
첨부파일의 압축을 풀면 KBO_Players.txt와 KBO_Teams.txt 이 두 개의 파일을 확인할 수 있습니다.
먼저 이 두 파일을 HDFS에 put 해줍니다.
하이브에서 먼저 kbo_teams 테이블을 만들고 KBO_Teams.txt 데이터를 옮겨줍니다.
다음 kbo_players 테이블에 KBO_Players.txt 파일을 옮겨줍니다.
kbo_players 테이블에는 struct라는 데이터 타입을 사용합니다.
struct를 구분짓는 문자는 collection items terminated by '문자' 를 입력해주면 됩니다.
데이터를 모두 옮겼으면 간단한 분석을 해보겠습니다.
먼저 첫 번째는 Park Byungho 선수가 속한 팀과 그 팀의 승무패를 출력해봅니다.
결과로 Park Byungho 선수가 속한 팀은 nexen이고 78승 1무 65패인 것을 확인할 수 있습니다.
다음은 승리 횟수가 88인 팀명과 그 팀에서의 총 홈런 개수를 확인해봅니다.
결과로 승리 횟수가 88인 팀은 samsung이고 총 176개의 홈런인 것을 확인할 수 있습니다.
HiveQL을 사용해 정말 간단한 분석을 해보았는데요 이렇게 데이터를 HDFS와 Hive로 이동시키는 방법을 숙지하고나면 여러가지 데이터를 사용해서 다양한 분석을 적용해볼 수 있습니다!