[Spark] 분산/병렬 처리할 때 주의할 점
앞 포스팅에서 언급했듯이, Spark는 분산/병렬 처리를 지원한다. 하지만 분산/병렬 처리가 된다고 마냥 믿고 쓰기만 해서는 안된다. 분산/병렬 처리의 성능을 올리고, 비용을 줄이기 위해선 생각해줘야 할 것들이 몇몇 있다. 지금부터 그 요소들을 살펴보고 어떻게 코딩해야 할지 방향을 짚어보자. Distributed Data-Parallel 먼저 Spark의 핵심인 'Distributed Data-Parallel'에 대해서 알아보자. 분산된 환경에서의 병렬 처리란? 1) 데이터를 여러 개로 나누어 여러 노드로 보낸다. 2) 각 노드에서 독립적으로 task를 시행. 3) 각자 만든 결괏값을 합친다. 이 일련의 과정이 분산된 환경에서의 병렬 처리이며, 그림으로 표현하면 다음과 같다. Spark를 처음 접한다면,..
2022.05.01