๐ Data Engineering(23)
-
[Spark] RDD ๊ฐ๋ ๋ฐ ์ฝ๋
RDD(Resilient Distributed Dataset)๋? ์ง์ญํ๋ฉด ํ๋ ฅ์ ์ธ ๋ถ์ฐ ๋ฐ์ดํฐ์ ์ด๋ค. ๋ง ๊ทธ๋๋ก ๋ฐ์ดํฐ๋ฅผ ํด๋ฌ์คํฐ์ ๋ถ์ฐํ์ฌ ์ ์ฅํ๋ฉฐ, ๊ทธ๋ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ ฅ์ ์ผ๋ก ์ด์ฉ(์ด์ ๋ฐ์ ์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ก ๋์๊ฐ๊ธฐ ๋ฑ)ํ ์ ์๊ฒ ํ๋ ๋ฐ์ดํฐ์ ์ด๋ค. ์ง๊ธ๋ถํฐ RDD์ ํน์ง์ ํบ์๋ณด์. 1. ๋ฐ์ดํฐ์ ๋ถ์ฐ RDD๋ ๋ค์๊ณผ ๊ฐ์ด ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ ํด๋ฌ์คํฐ์ ๋ถ์ฐ ์ ์ฅํ๋ ๋ฐฉ์์ด๋ค. ํ์ง๋ง ์ฌ๋ฌ ํด๋ฌ์คํฐ์ ํฉ์ด์ ธ์์ด๋ ํ๋์ ํ์ผ์ฒ๋ผ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค. # ํจํค์ง๋ฅผ ๊ฐ์ ธ์ค๊ณ from pyspark import SparkConf, SparkContext import pandas as pd # Spark ์ค์ conf = SparkConf().setMaster("local").setAppName("ube..
2022.04.24 -
[Spark] Apache Spark ๊ฐ๋ ๋ฐ ๋ฒ์
Apache Spark์ ๋ํด ์์๋ณด์. Apache Spark๋ ๋น ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ์คํ์์ค ์์ง(๊ณ ์ ๋ถ์ฐ์ฒ๋ฆฌ)์ด๋ค. ์ด๋ฏธ ์๋ง์กด, ์ฐ๋ฒ, ๋ทํ๋ฆญ์ค ๋ฑ ๋ค์ํ ๊ธฐ์ ์์ ์ฐ์ด๊ณ ์๋ค. Apache Spark ๋ฑ์ฅ ๋ฐฐ๊ฒฝ ๋ฐ์ดํฐ๊ฐ ์์์ง๋ฉด์ 3๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋ง์ดํ๋ค. 1. ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. 2. ๋ฐ์ดํฐ๊ฐ ์์ฑ๋๋ ์๋๊ฐ ์ด๋ง์ด๋งํ๊ฒ ์ฆ๊ฐํ๋ค. 3. ๋ฐ์ดํฐ์ ์ข ๋ฅ๋ ์ฆ๊ฐํ๋ค. ๋ฌผ๋ก ๋ฐ์ดํฐ๋ฅผ ํตํด ์ธ์ฌ์ดํธ๋ฅผ ์ป๊ณ ์ ํ๋ ์ฌ๋ ์ ์ฅ์์ ์ข์ ์๋ ์๋ค. ํ์ง๋ง ๋ถ์ ์ ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ ์ฅํด์ผ ํ๋ ์ ์ฅ์์ ๋ฌธ์ ๊ฐ ์๋ ์ ์๋ค. ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ๋ฉด ์ ์ฅ ๋น์ฉ์ด ์ฆ๊ฐํ๊ณ , ์์ฑ๋๋ ์๋๊ฐ ์ฆ๊ฐํ๋ฉด ์ ์ฅํ๋ ์๋๊ฐ ๋ฐ๋ผ์ก์ง ๋ชปํด ์๋ง๊ฒ ์ฒ๋ฆฌํ ์๊ฐ์ ํ๋ณดํ์ง ๋ชปํ๋ค. ์ข ๋ฅ๊ฐ ์ฆ๊ฐํ๋ฉด..
2022.04.23 -
[Spark] ์ด๊ธฐ ํ๊ฒฝ ์ธํ ft. ํธํ ๋ฌธ์ ํด๊ฒฐ
์ด๋ฒ ํฌ์คํ ์ Spark ์ด๊ธฐ ํ๊ฒฝ ์ธํ ์ด๋ค. Spark, pyspark, java ๋ฑ ๊ทธ๋ฅ ์ค์นํด์ ๋๋ด๋ฉด ๋๋ ๊ฑฐ ์๋๋ ํ ์ ์์ง๋ง, ์ค๊ฐ์ ๋ฒ์ ํธํ ๋ฌธ์ ๊ฐ ์กด์ฌํด์ ๋งํ ์ ์๋ค. ๊ทธ ๋ถ๋ถ์ ์ง์ด์ฃผ๊ณ ์ ํฌ์คํ ์ ํ๋ค. * ํด๋น ํฌ์คํ ์ windows 10 ํ๊ฒฝ์์ ์งํํ๋ค. Anaconda ์ค์น ๋จผ์ https://www.anaconda.com/ ๋งํฌ์ ์ ์ํ๋ค. Downloads๋ฅผ ๋๋ฌ์ ์ค์น ํ์ผ์ ๋ฐ์์ค๋ค. ๊ทธ ๋ค์, exe ํ์ผ์ ๋๋ฌ์ ๋ค์ ์ค์น๋ฅผ ์ญ ์งํํ๋ค. Anaconda prompt๋ฅผ ์ด์ด์ python ์์น๋ฅผ ํ์ธํ๋ค. ์ค์น ๊ฒฝ๋ก: C:\Users\W21841\anaconda3\python.exe * ๊ฐ์ธ ์ปดํจํฐ๋ง๋ค ๊ฒฝ๋ก๋ ๋ค๋ฅผ ์ ์๋ค. Java ์ค์น Oracle Java ..
2022.04.20 -
[MLOps] MLflow Tracking
์ด๋ฒ ํฌ์คํ ์ MLflow์ ์ฃผ์ ๊ธฐ๋ฅ ์ค ํ๋์ธ Tracking์ด๋ค. MLflow ์คํํ ๊ฒ๋ค์ ๋ฐ์ดํฐ๋ก ๋จ๊ธฐ๋ ๊ธฐ๋ฅ์ด๋ฉฐ, ์ด๋์/ ์ด๋ค ๊ฒ์/ ์ด๋ป๊ฒ Tracking ํ๋์ง ํบ์๋ณด์. ๋ง์ฝ, MLflow์ ๊ฐ๋ ์ ๋จผ์ ์๊ณ ์ถ๋ค๋ฉด ์ด๊ณณ์ ๋ค์๋ค ์ค์. [์ด์ ํฌ์คํ : https://mengu.tistory.com/16?category=927678 ] [MLOps] MLflow ์์ & ๊ฐ๋ ์ ๋ฆฌ ์ต๊ทผ MLOps๋ ๋จ์ด๊ฐ ๋ง์ด ๋ฑ์ฅํ๋ค. MLOps : ํ๋ก๋์ ํ๊ฒฝ์์ ๊ธฐ๊ณํ์ต์ ์์ ์ ์ผ๋ก ์ํํ๊ธฐ ์ํ ์ผ๋ จ์ ๊ณผ์ MLOps = DevOps + Machine Learning ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ๋ถ์, ๋ชจ๋ธ๋ง์ ์ฃผ๋ก ๊ณต๋ถํด์์ง๋ง, ์ต mengu.tistory.com MLflow Tracking is org..
2022.04.16 -
[MLOps] MLflow ์์ & ๊ฐ๋ ์ ๋ฆฌ
์ต๊ทผ MLOps๋ ๋จ์ด๊ฐ ๋ง์ด ๋ฑ์ฅํ๋ค. MLOps : ํ๋ก๋์ ํ๊ฒฝ์์ ๊ธฐ๊ณํ์ต์ ์์ ์ ์ผ๋ก ์ํํ๊ธฐ ์ํ ์ผ๋ จ์ ๊ณผ์ MLOps = DevOps + Machine Learning ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ๋ถ์, ๋ชจ๋ธ๋ง์ ์ฃผ๋ก ๊ณต๋ถํด์์ง๋ง, ์ต๊ทผ ๋ค์ด ์ด๋ฐ ์์คํ ์ ํ์์ฑ์ ๋๊ผ๋ค. ๋งค ๋ถ์ ์๊ฐ๋ง๋ค ์ ์ฒ๋ฆฌ-EDA-FE-Modeling-๊ฒ์ฆ ๊ณผ์ ์ ๊ฑฐ์น๋ฉด ์๊ฐ์ด ๋ง์ด ๋ ๋ค. ๋ชจ๋ธ์ ์ ์ฅํ๊ณ , ๋ค์ ์๋นํ๋ ๊ณผ์ ๋ ๊ฐํธํ๋ ํ์๊ฐ ์๋ค. ๊ทธ๋ฐ ์๊ฐ์ ํ๋ฆ์์ MLflow๋ฅผ ๊ณต๋ถํ๊ฒ ๋์์ผ๋ฉฐ, ๊ณต๋ถํ ๊ฒ๋ค์ ๋ธ๋ก๊ทธ๋ก ์ ๋ฆฌํด๋ณด๊ณ ์ ํ๋ค. [์ฐธ๊ณ ์๋ฃ] https://github.com/mlflow/mlflow/ GitHub - mlflow/mlflow: Open source platform for the machine..
2022.04.14