2022. 4. 20. 23:07ใ๐ Data Engineering/Apache Spark
์ด๋ฒ ํฌ์คํ ์ Spark ์ด๊ธฐ ํ๊ฒฝ ์ธํ ์ด๋ค.
Spark, pyspark, java ๋ฑ ๊ทธ๋ฅ ์ค์นํด์ ๋๋ด๋ฉด ๋๋ ๊ฑฐ ์๋๋ ํ ์ ์์ง๋ง,
์ค๊ฐ์ ๋ฒ์ ํธํ ๋ฌธ์ ๊ฐ ์กด์ฌํด์ ๋งํ ์ ์๋ค.
๊ทธ ๋ถ๋ถ์ ์ง์ด์ฃผ๊ณ ์ ํฌ์คํ ์ ํ๋ค.
* ํด๋น ํฌ์คํ ์ windows 10 ํ๊ฒฝ์์ ์งํํ๋ค.
Anaconda ์ค์น
๋จผ์ https://www.anaconda.com/ ๋งํฌ์ ์ ์ํ๋ค.
Downloads๋ฅผ ๋๋ฌ์ ์ค์น ํ์ผ์ ๋ฐ์์ค๋ค.
๊ทธ ๋ค์, exe ํ์ผ์ ๋๋ฌ์ ๋ค์ ์ค์น๋ฅผ ์ญ ์งํํ๋ค.
Anaconda prompt๋ฅผ ์ด์ด์ python ์์น๋ฅผ ํ์ธํ๋ค.
์ค์น ๊ฒฝ๋ก: C:\Users\W21841\anaconda3\python.exe
* ๊ฐ์ธ ์ปดํจํฐ๋ง๋ค ๊ฒฝ๋ก๋ ๋ค๋ฅผ ์ ์๋ค.
Java ์ค์น
Oracle Java ๋งํฌ https://www.oracle.com/java/technologies/downloads/ ์ ์ ์ํ๋ค.
์ฃผ์
Java ๋ฒ์ ์ ๋ค์ํ๊ฒ ์๋ค. 8, 11, 17, 18... ๋ฑ
ํ์ง๋ง pyspark 3.2.1์ ํธํ๋๋ Java ๋ฒ์ ์ 8, 11(ํ์ธ๋ ๊ฒ๋ง)์ด๋ค.
* Java 18์ ๊น๋ฉด pyspark๊ฐ ์ ๋๋ ์ํฉ์ด ๋ฒ์ด์ง๋ค. ๋ด๊ฐ ๊ทธ๋ฌ๋ค...
์คํฌ๋กค์ ์ญ ๋ด๋ฆฌ๋ฉด ๋ค์๊ณผ ๊ฐ์ 8, 11 ๋ฒ์ ์ ํ์ธํ ์ ์๋ค.
11 ๋ฒ์ ์ ๊น์์ ์ธํ ํ๊ณ , ์ด ๋ฒ์ ์ ์ค์นํ๋ ค๋ฉด Oracle ํ์๊ฐ์ ์ ํด์ 1ํ ๋ก๊ทธ์ธํด์ผ ํ๋ค. ๊ฐ๋จํ๋ ์งํํ๊ธธ ๋ฐ๋๋ค.
์๋์ฝ๋ค์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ญ ๊น์์ฃผ๊ณ ์ค์น ๊ฒฝ๋ก๋ฅผ ํ์ธํ๋ค.
์ค์น ๊ฒฝ๋ก: C:\Program Files\Java\jdk-11.0.15
Spark ์ค์น
https://spark.apache.org/downloads.html ๊ฒฝ๋ก ์ ์
Download Spark: spark-3.2.1-bin-hadoop2.7.tgz
์ด ๋ถ๋ถ์ ํด๋ฆญ.
download ๋งํฌ๋ฅผ ํด๋ฆญ.
Spark ์์ถ์ C ๋๋ผ์ด๋ฒ์ ํ๊ณ , ์ค์น ๊ฒฝ๋ก๋ฅผ ํ์ธํด์ค๋ค.
์ค์น ๊ฒฝ๋ก: C:\Spark\spark-3.2.1-bin-hadoop2.7
Hadoop ์ค์น
https://github.com/cdarlint/winutils ๊ฒฝ๋ก ์ ์
Download ZIP์ ๋๋ฌ์ ์์ถ ํ์ผ์ ๋ค์ด๋ฐ์ต๋๋ค.
์์ถ ํด์ ํ, Spark ๋ค์ด๋ฐ์ ๋ ์ต์ ์ผ๋ก ์ ํํ Hadoop ๋ฒ์ ์ ๋ณต์ฌํฉ๋๋ค.
๋๊ฐ์ด ์ํ๋ ๊ฒฝ๋ก๋ฅผ ์ ํํ์ฌ ๋ถ์ฌ๋ฃ๊ธฐ๋ฅผ ํด์ฃผ๊ณ , ๊ฒฝ๋ก๋ฅผ ํ์ธํด๋ก๋๋ค.
์ค์น ๊ฒฝ๋ก: C:\Hadoop
ํ๊ฒฝ๋ณ์ ์ค์
์ค์น๊ฐ ๋๋ฌ๋ค๋ฉด, ์ ๊ทผ์ด ๊ฐ๋ฅํ๋๋ก PATH ์ค์ ์ ํด์ค์ผ ํ๋ค.
Windows์์ '์์คํ ํ๊ฒฝ ๋ณ์ ํธ์ง'์ด๋ผ๊ณ ์น๊ณ ํด๋ฆญํ๋ค.
์์คํ ํ๊ฒฝ ๋ณ์ ํธ์ง -> ํ๊ฒฝ ๋ณ์
์๋ก ๋ง๋ค๊ธฐ๋ฅผ ํตํด ๋ค์ ๊ฒฝ๋ก๋ค์ ๋ชจ๋ ๋ง๋ค์ด ์ค๋ค.
Hadoop
Spark
Anaconda
Java
๋ง์ง๋ง, PATH ๊ฒฝ๋ก๋ฅผ ๋ชจ๋ ์ค์ ํ๋ค.
%๋ฑ๋ก ๊ฒฝ๋ก%
์ด๋ ๊ฒ ์๋ก ๋ง๋ ํ, ํ์ธ - ์ ์ฉ์ ํด์ค๋ค.
๊ทธ๋ฌ๋ฉด ์ด๊ธฐ Spark ์ธํ ์ ๋ชจ๋ ๋๋๋ค.
Anaconda Prompt๋ฅผ ํตํด ํ์ธํด์ฃผ์.
import pyspark
์ ์๋ํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
pyspark ํผ์์๋ ์ ์คํ๋๋์ง ํ์ธํ๋ค.
ํฌ๊ฒ Spark ํ์๊ฐ ๋ฌ ๊ฑธ ํ์ธํ๋ค๋ฉด, ์ธํ ์ ์ฑ๊ณตํ ๊ฒ์ด๋ค.
์ถํํ๋ค.
'๐ Data Engineering > Apache Spark' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Spark] Transformations & Actions ํจ์ (0) | 2022.05.01 |
---|---|
[Spark] Key-Value RDD ๊ฐ๋ ๋ฐ ์ฝ๋ (0) | 2022.05.01 |
[Spark] ๋ถ์ฐ/๋ณ๋ ฌ ์ฒ๋ฆฌํ ๋ ์ฃผ์ํ ์ (0) | 2022.05.01 |
[Spark] RDD ๊ฐ๋ ๋ฐ ์ฝ๋ (0) | 2022.04.24 |
[Spark] Apache Spark ๊ฐ๋ ๋ฐ ๋ฒ์ (0) | 2022.04.23 |