[Cloudera - 8] pyspark 쉘에서 RDD 생성과 map, flatmap
quickstart 가상머신에서 스파크를 사용하려면 pyspark라는 명령어로 pyspark 쉘에 접근할 수 있습니다.하지만 파이썬 2.6 버전과 스파크 1.6 버전으로 낮은 버전을 사용하기 때문에 버전을 높이거나 주피터 노트북과 같은 환경을 새로 구축해서 사용하기에는 어려운 점이 있어 스파크 함수들을 익히는 정도의 간단한 실습용으로만 사용하는 것을 추천드립니다.처음 쉘에 진입했을 때 SparkContext available as sc 라고 표시되있기 때문에 별도로 선언해주지 않아도 sc로 사용할 수 있습니다. sc의 타입을 확인해보면 SparkContext로 나옵니다. 이 SparkContext를 이용해 RDD를 생성하고 여러 스파크 함수들을 사용할 수 있습니다.먼저 파이썬의 데이터 타입들을 사용하여 ..
Development/Big Data
2020. 1. 7. 16:38
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 종만북
- 알고스팟
- 팰린드롬 구하기
- HDFS
- import
- 배열과 문자열
- python
- 코딩인터뷰 완전분석
- microwaving lunch boxes
- 2225
- Django
- C++
- hive
- 출전 순서 정하기
- Jaeha's Safe
- 백준
- 스파크
- 분할정복
- 완전탐색
- 삼각형 위의 최대 경로
- 하둡
- Hadoop
- pyspark
- 하이브
- 외발 뛰기
- Sqoop
- 삼각형 위의 최대 경로 수 세기
- 합친 lis
- 두니발 박사의 탈옥
- HiveQL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함