[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기

Development/Big Data

[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기

Junchoi 2020. 1. 3. 02:44

지금까지 했던 실습을 바탕으로 KBO 야구 데이터를 Hive에 옮기고 HiveQL로 간단한 분석을 해보겠습니다.

먼저 아래 링크에서 첨부파일을 가상머신 내에서 다운받고 압축을 풀어줍니다.

http://ailab.ssu.ac.kr/rb/?c=8/29&cat=2016_1_%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%82%B0%EC%BB%B4%ED%93%A8%ED%8C%85&p=2&uid=770

A.I Lab - 과제 #3(HIVE를 이용한 국내 프로야구 데이터 분석)

자세한 설명은 압축 파일 안에 PDF 파일에 있습니다. 문제를 잘 읽고 답안을 PDF, HWP, DOC 중 하나의 포멧으로 만들어서 아래의 메일 주소로 보내주세요. 보낼 때 메일 제목이나 파일 제목은 "빅데이터분산컴퓨팅_이름_과제3" 으로 보내주세요. 기한은 4월 14일(목요일) 까지 입니다. mjtime@ssu.ac.kr

ailab.ssu.ac.kr

첨부파일의 압축을 풀면 KBO_Players.txt와 KBO_Teams.txt 이 두 개의 파일을 확인할 수 있습니다.

먼저 이 두 파일을 HDFS에 put 해줍니다.

하이브에서 먼저 kbo_teams 테이블을 만들고 KBO_Teams.txt 데이터를 옮겨줍니다.

다음 kbo_players 테이블에 KBO_Players.txt 파일을 옮겨줍니다.

kbo_players 테이블에는 struct라는 데이터 타입을 사용합니다.

struct를 구분짓는 문자는 collection items terminated by '문자' 를 입력해주면 됩니다.

데이터를 모두 옮겼으면 간단한 분석을 해보겠습니다.

먼저 첫 번째는 Park Byungho 선수가 속한 팀과 그 팀의 승무패를 출력해봅니다.

결과로 Park Byungho 선수가 속한 팀은 nexen이고 78승 1무 65패인 것을 확인할 수 있습니다.

다음은 승리 횟수가 88인 팀명과 그 팀에서의 총 홈런 개수를 확인해봅니다.

결과로 승리 횟수가 88인 팀은 samsung이고 총 176개의 홈런인 것을 확인할 수 있습니다.

HiveQL을 사용해 정말 간단한 분석을 해보았는데요 이렇게 데이터를 HDFS와 Hive로 이동시키는 방법을 숙지하고나면 여러가지 데이터를 사용해서 다양한 분석을 적용해볼 수 있습니다!