[Spark] Apache Spark 개념 및 버전

[Spark] Apache Spark 개념 및 버전

2022. 4. 23. 11:53ㆍ🛠 Data Engineering/Apache Spark

Apache Spark에 대해 알아보자.

Apache Spark란 빅데이터 처리를 위한 오픈소스 엔진(고속 분산처리)이다.

이미 아마존, 우버, 넷플릭스 등 다양한 기업에서 쓰이고 있다.

Apache Spark 등장 배경

데이터가 쏟아지면서 3가지 문제를 맞이한다.

1. 데이터의 크기가 기하급수적으로 증가한다.

2. 데이터가 생성되는 속도가 어마어마하게 증가했다.

3. 데이터의 종류도 증가했다.

물론 데이터를 통해 인사이트를 얻고자 하는 사람 입장에선 좋을 수도 있다. 하지만 분석 전에 데이터를 처리하고 저장해야 하는 입장에선 문제가 아닐 수 없다. 데이터 크기가 증가하면 저장 비용이 증가하고, 생성되는 속도가 증가하면 저장하는 속도가 따라잡지 못해 알맞게 처리할 시간을 확보하지 못한다. 종류가 증가하면 그에 따른 처리, 분석 방법도 필요한데, 미리 손 쓸 방법이 없다면 데이터를 버리게 된다.

이에 따라 업계에선 해결책을 내놓아야 했고, 그래서 탄생한 것이 Yahoo의 hadoop이다.

Hadoop은 파일 시스템(HDFS), 연산 엔진(Map Reduce), 리소스 관리(Yarn)의 기능을 선보였다. 그중에서 연산 엔진을 Map Reduce 대신 Spark가 더 좋은 성능을 내면서 Spark가 유명세를 탔다.

Spark 작동 원리

Spark의 장점은 '빠르다'는 것이다.

왜 Spark가 빠를까?

Spark의 담당 영역인 연산 엔진은 다음과 같은 구조를 따른다.

컴퓨터가 연산을 시작하면 하드디스크에서 CPU까지 데이터가 위로 이동한다. 연산에 자주 쓰이는 데이터는 위로 배치되고 연산에 자주 쓰이지 않는 데이터는 아래로 배치된다. 속도는 HDD, 즉 디스크 영역에서 제일 느리고, CPU로 올라갈 수록 빨라진다. CPU에서 제일 빠르니까 데이터를 모두 CPU에서 처리하면 되지 않을까? 라는 의문이 들 수 있다. 하지만 계층 위로 올라갈수록 처리 가능한 속도와 용량이 반비례한다. 따라서 용량이 큰 데이터를 빠르게 처리하는 것은 어려워 보였다.

이때 Spark에서 내놓은 것이 '데이터를 쪼개서 처리하자' 였다.

데이터를 쪼개 여러 노드로 분배한다. 그 후, 여러 노드의 메모리에서 동시에 처리한다.

다음 그림은 Spark의 전체적 구조이다.

우리가 익히 아는 Python, Java, Scala 스크립트를 이용해 명령한다.

명령을 받은 Cluster Manager는 Node에 데이터를 분산시켜 연산 처리를 진행하고, 그 결과를 다시 Script를 통해 받아온다.

Pandas vs Spark

Spark처럼 데이터 프레임 등을 처리하는 라이브러리로는 대표적으로 Pandas가 있다.

하지만 작은 데이터에선 판다스보다 Spark가 처리 속도가 느리다. 이는 Spark가 확장성을 고려해서 설계했기 때문이다. 데이터 크기가 증가할수록 Pandas의 처리속도는 O(n) 느낌으로 증가하지만, Spark는 그렇지 않다.

즉, Spark는 필요에 따라 노드를 계속해서 늘려서 계산할 수 있으며 속도는 크게 늘어나지 않는 특징을 가진다.

Hadoop MapReduce보다

메모리 상에선 100배 빠르고,

디스크 상에선 10배 빠르다.

Lazy Evaluation

task를 정의할 때는 연산하지 않으며 결과가 필요할 때 연산한다.

기다리면서 연산 과정을 최적화할 수 있다.

RDD(Resilient Distributed Dataset)

여러 분산 노드에 걸쳐서 저장하며,

변경이 불가능하다.

여러 개의 파티션으로 분리하며 Immutable 성질을 가진다.

Spark History

Spark 1.0

- 2014년

- RDD를 이용한 인메모리 처리 방식

- DataFrame

- Project Tungsten: 엔진 업그레이드로 메모리와 CPU 효율 최적화

Spark 2.0

- 2016년

- 단순화, 성능 개선

- Structured Streaming

- DataSet이라는 DataFrame의 확장형 자료구조 등장

- Catalyst Optimizer 프로젝트 - 언어에 상관없이 동일한 성능

Spark 3.0

- 2020년

- MLib 기능 추가

- Spark SQL 기능 추가

- PySpark 사용성 개선

- 딥러닝 지원 강화

- GraphX - 분산 그래프 연산

- Spark 2.4보다 약 2배 빨라짐

'🛠 Data Engineering > Apache Spark' 카테고리의 다른 글

[Spark] Transformations & Actions 함수 (0)	2022.05.01
[Spark] Key-Value RDD 개념 및 코드 (0)	2022.05.01
[Spark] 분산/병렬 처리할 때 주의할 점 (0)	2022.05.01
[Spark] RDD 개념 및 코드 (0)	2022.04.24
[Spark] 초기 환경 세팅 ft. 호환 문제 해결 (0)	2022.04.20

HIGHQUAL

HIGHQUAL

태그

최근글

댓글

공지사항

아카이브

'🛠 Data Engineering > Apache Spark' 카테고리의 다른 글

관련글

티스토리툴바