[Spark] RDD 개념 및 코드
RDD(Resilient Distributed Dataset)란? 직역하면 탄력적인 분산 데이터셋이다. 말 그대로 데이터를 클러스터에 분산하여 저장하며, 그런 데이터를 탄력적으로 이용(이슈 발생 시 과거 데이터로 돌아가기 등)할 수 있게 하는 데이터셋이다. 지금부터 RDD의 특징을 톺아보자. 1. 데이터의 분산 RDD는 다음과 같이 데이터를 여러 클러스터에 분산 저장하는 방식이다. 하지만 여러 클러스터에 흩어져있어도 하나의 파일처럼 사용하는 것이 가능하다. # 패키지를 가져오고 from pyspark import SparkConf, SparkContext import pandas as pd # Spark 설정 conf = SparkConf().setMaster("local").setAppName("ube..
2022.04.24