본문 바로가기 메뉴 바로가기

Don't die there

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

Don't die there

검색하기 폼
  • 분류 전체보기 (108)
    • Coding Test (82)
      • 백준 (44)
      • 알고스팟 (30)
      • 코딩인터뷰 완전분석 (8)
    • Development (26)
      • 개발환경 (6)
      • Django (5)
      • Big Data (15)
    • 일상 (0)
  • 방명록

HiveQL (2)
[Cloudera - 7] KBO 한국 야구 데이터를 사용해 Hive에서 간단한 분석 해보기

지금까지 했던 실습을 바탕으로 KBO 야구 데이터를 Hive에 옮기고 HiveQL로 간단한 분석을 해보겠습니다.먼저 아래 링크에서 첨부파일을 가상머신 내에서 다운받고 압축을 풀어줍니다. http://ailab.ssu.ac.kr/rb/?c=8/29&cat=2016_1_%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%82%B0%EC%BB%B4%ED%93%A8%ED%8C%85&p=2&uid=770" data-og-host="ailab.ssu.ac.kr" data-og-source-url="http://ailab.ssu.ac.kr/rb/?c=8/29&cat=2016_1_%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%82%B0%EC%..

Development/Big Data 2020. 1. 3. 02:44
[Cloudera - 6] HiveQL 기본

기본적인  HiveQL을 사용해보기 전에 각 테이블을 import 해줍니다. 기본적인 쿼리를 사용해보면 RDBMS와 마찬가지로 결과를 볼 수 있습니다.여기서 한 가지 차이점은 RDBMS처럼 column 명이 표시되지는 않습니다. count를 사용했을 때는 위와 차이가 있습니다.여기서는 job이 한개 잡힌 것을 확인할 수 있고 이 job이 맵리듀스를 실행하는 것을 볼 수 있습니다.그리고 맵리듀스가 끝나면 마지막에 결과가 출력됩니다. count, group by, order by를 사용한 쿼리입니다.count와 group by에 대한 총 2개의 job을 만들고 각 job들에 대해 맵리듀스를 진행합니다.join을 사용한 쿼리입니다.join에 대한 1개의 job을 만들고 맵리듀스를 진행합니다.   HiveQL에..

Development/Big Data 2020. 1. 2. 01:22
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 삼각형 위의 최대 경로 수 세기
  • 하이브
  • 백준
  • HDFS
  • C++
  • 알고스팟
  • 배열과 문자열
  • microwaving lunch boxes
  • import
  • HiveQL
  • 삼각형 위의 최대 경로
  • Sqoop
  • 합친 lis
  • Hadoop
  • 하둡
  • 분할정복
  • 두니발 박사의 탈옥
  • 2225
  • 팰린드롬 구하기
  • Jaeha's Safe
  • 외발 뛰기
  • 출전 순서 정하기
  • hive
  • python
  • 스파크
  • 종만북
  • 코딩인터뷰 완전분석
  • Django
  • 완전탐색
  • pyspark
more
«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바