[Spark] ์ดˆ๊ธฐ ํ™˜๊ฒฝ ์„ธํŒ… ft. ํ˜ธํ™˜ ๋ฌธ์ œ ํ•ด๊ฒฐ

2022. 4. 20. 23:07ใ†๐Ÿ›  Data Engineering/Apache Spark

 

 

 

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์€ Spark ์ดˆ๊ธฐ ํ™˜๊ฒฝ ์„ธํŒ…์ด๋‹ค. 

Spark, pyspark, java ๋“ฑ ๊ทธ๋ƒฅ ์„ค์น˜ํ•ด์„œ ๋๋‚ด๋ฉด ๋˜๋Š” ๊ฑฐ ์•„๋‹ˆ๋ƒ ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ,

์ค‘๊ฐ„์— ๋ฒ„์ „ ํ˜ธํ™˜ ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•ด์„œ ๋ง‰ํž ์ˆ˜ ์žˆ๋‹ค.

๊ทธ ๋ถ€๋ถ„์„ ์ง‘์–ด์ฃผ๊ณ ์ž ํฌ์ŠคํŒ…์„ ํ•œ๋‹ค.

* ํ•ด๋‹น ํฌ์ŠคํŒ…์€ windows 10 ํ™˜๊ฒฝ์—์„œ ์ง„ํ–‰ํ•œ๋‹ค.

 

 

 

 

 

 

Anaconda ์„ค์น˜


๋จผ์ € https://www.anaconda.com/ ๋งํฌ์— ์ ‘์†ํ•œ๋‹ค.

Downloads๋ฅผ ๋ˆŒ๋Ÿฌ์„œ ์„ค์น˜ ํŒŒ์ผ์„ ๋ฐ›์•„์ค€๋‹ค.

 

 

 

๊ทธ ๋‹ค์Œ, exe ํŒŒ์ผ์„ ๋ˆŒ๋Ÿฌ์„œ ๋‹ค์Œ ์„ค์น˜๋ฅผ ์ญ‰ ์ง„ํ–‰ํ•œ๋‹ค.

 

 

 

 

 

Anaconda prompt๋ฅผ ์—ด์–ด์„œ python ์œ„์น˜๋ฅผ ํ™•์ธํ•œ๋‹ค. 

 

 

 

 

 

 

์„ค์น˜ ๊ฒฝ๋กœ: C:\Users\W21841\anaconda3\python.exe

* ๊ฐœ์ธ ์ปดํ“จํ„ฐ๋งˆ๋‹ค ๊ฒฝ๋กœ๋Š” ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 

 

Java ์„ค์น˜


 

Oracle Java ๋งํฌ https://www.oracle.com/java/technologies/downloads/ ์— ์ ‘์†ํ•œ๋‹ค. 

 

 

 

์ฃผ์˜

Java ๋ฒ„์ „์€ ๋‹ค์–‘ํ•˜๊ฒŒ ์žˆ๋‹ค. 8, 11, 17, 18... ๋“ฑ

ํ•˜์ง€๋งŒ pyspark 3.2.1์™€ ํ˜ธํ™˜๋˜๋Š” Java ๋ฒ„์ „์€ 8, 11(ํ™•์ธ๋œ ๊ฒƒ๋งŒ)์ด๋‹ค. 

* Java 18์„ ๊น”๋ฉด pyspark๊ฐ€ ์•ˆ ๋˜๋Š” ์ƒํ™ฉ์ด ๋ฒŒ์–ด์ง„๋‹ค. ๋‚ด๊ฐ€ ๊ทธ๋žฌ๋‹ค...

 

 

 

์Šคํฌ๋กค์„ ์ญ‰ ๋‚ด๋ฆฌ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ 8, 11 ๋ฒ„์ „์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. 

11 ๋ฒ„์ „์„ ๊น”์•„์„œ ์„ธํŒ…ํ–ˆ๊ณ , ์ด ๋ฒ„์ „์„ ์„ค์น˜ํ•˜๋ ค๋ฉด Oracle ํšŒ์›๊ฐ€์ž…์„ ํ•ด์„œ 1ํšŒ ๋กœ๊ทธ์ธํ•ด์•ผ ํ•œ๋‹ค. ๊ฐ„๋‹จํ•˜๋‹ˆ ์ง„ํ–‰ํ•˜๊ธธ ๋ฐ”๋ž€๋‹ค. 

 

 

์•„๋‚˜์ฝ˜๋‹ค์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ญ‰ ๊น”์•„์ฃผ๊ณ  ์„ค์น˜ ๊ฒฝ๋กœ๋ฅผ ํ™•์ธํ•œ๋‹ค.

 

 

 

 

์„ค์น˜ ๊ฒฝ๋กœ: C:\Program Files\Java\jdk-11.0.15

 

 

 

 

 

Spark ์„ค์น˜


https://spark.apache.org/downloads.html ๊ฒฝ๋กœ ์ ‘์†

 

 

 

Download Spark: spark-3.2.1-bin-hadoop2.7.tgz

์ด ๋ถ€๋ถ„์„ ํด๋ฆญ.

 

 

download ๋งํฌ๋ฅผ ํด๋ฆญ.

 

 

 

Spark ์••์ถ•์„ C ๋“œ๋ผ์ด๋ฒ„์— ํ’€๊ณ , ์„ค์น˜ ๊ฒฝ๋กœ๋ฅผ ํ™•์ธํ•ด์ค€๋‹ค.

์„ค์น˜ ๊ฒฝ๋กœ: C:\Spark\spark-3.2.1-bin-hadoop2.7

 

 

 

 

 

 

Hadoop ์„ค์น˜


https://github.com/cdarlint/winutils ๊ฒฝ๋กœ ์ ‘์†

 

 

Download ZIP์„ ๋ˆŒ๋Ÿฌ์„œ ์••์ถ• ํŒŒ์ผ์„ ๋‹ค์šด๋ฐ›์Šต๋‹ˆ๋‹ค. 

 

์••์ถ• ํ•ด์ œ ํ›„, Spark ๋‹ค์šด๋ฐ›์„ ๋•Œ ์˜ต์…˜์œผ๋กœ ์„ ํƒํ•œ Hadoop ๋ฒ„์ „์„ ๋ณต์‚ฌํ•ฉ๋‹ˆ๋‹ค.

 

 

 

๋˜‘๊ฐ™์ด ์›ํ•˜๋Š” ๊ฒฝ๋กœ๋ฅผ ์„ ํƒํ•˜์—ฌ ๋ถ™์—ฌ๋„ฃ๊ธฐ๋ฅผ ํ•ด์ฃผ๊ณ , ๊ฒฝ๋กœ๋ฅผ ํ™•์ธํ•ด๋‘ก๋‹ˆ๋‹ค.

์„ค์น˜ ๊ฒฝ๋กœ: C:\Hadoop

 

 

 

 

 

ํ™˜๊ฒฝ๋ณ€์ˆ˜ ์„ค์ •


์„ค์น˜๊ฐ€ ๋๋‚ฌ๋‹ค๋ฉด, ์ ‘๊ทผ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก PATH ์„ค์ •์„ ํ•ด์ค˜์•ผ ํ•œ๋‹ค.

Windows์—์„œ '์‹œ์Šคํ…œ ํ™˜๊ฒฝ ๋ณ€์ˆ˜ ํŽธ์ง‘'์ด๋ผ๊ณ  ์น˜๊ณ  ํด๋ฆญํ•œ๋‹ค.

 

 

 

์‹œ์Šคํ…œ ํ™˜๊ฒฝ ๋ณ€์ˆ˜ ํŽธ์ง‘ -> ํ™˜๊ฒฝ ๋ณ€์ˆ˜

 

 

 

์ƒˆ๋กœ ๋งŒ๋“ค๊ธฐ๋ฅผ ํ†ตํ•ด ๋‹ค์Œ ๊ฒฝ๋กœ๋“ค์„ ๋ชจ๋‘ ๋งŒ๋“ค์–ด ์ค€๋‹ค. 

 

 

 

Hadoop

 

 

Spark

 

 

Anaconda

 

 

Java

 

 

๋งˆ์ง€๋ง‰, PATH ๊ฒฝ๋กœ๋ฅผ ๋ชจ๋‘ ์„ค์ •ํ•œ๋‹ค.

 

 

 

 

%๋“ฑ๋ก ๊ฒฝ๋กœ%

์ด๋ ‡๊ฒŒ ์ƒˆ๋กœ ๋งŒ๋“  ํ›„, ํ™•์ธ - ์ ์šฉ์„ ํ•ด์ค€๋‹ค.

๊ทธ๋Ÿฌ๋ฉด ์ดˆ๊ธฐ Spark ์„ธํŒ…์€ ๋ชจ๋‘ ๋๋‚œ๋‹ค. 

Anaconda Prompt๋ฅผ ํ†ตํ•ด ํ™•์ธํ•ด์ฃผ์ž.

 

 

import pyspark

์ž˜ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. 

 

 

pyspark ํ˜ผ์ž์„œ๋„ ์ž˜ ์‹คํ–‰๋˜๋Š”์ง€ ํ™•์ธํ•œ๋‹ค.

 

 

 

 

 

ํฌ๊ฒŒ Spark ํ‘œ์‹œ๊ฐ€ ๋œฌ ๊ฑธ ํ™•์ธํ–ˆ๋‹ค๋ฉด, ์„ธํŒ…์— ์„ฑ๊ณตํ•œ ๊ฒƒ์ด๋‹ค.

์ถ•ํ•˜ํ•œ๋‹ค.