[SparkML] MLlib 개념 및 실습 코드
MLlib Machine Learning Library 스파크의 컴포넌트 중 하나로, 머신러닝 파이프라인 개발을 쉽게 하기 위해 개발되었다. MLlib에는 다시 알고리즘(Classification 등) + 파이프라인(Training, Evaluation 등) + FE + Utils(Statistics 등)의 여러 컴포넌트가 있다. MLlib은 DataFrame 위에서 동작하며, MLlib API를 Spark ML이라고 부른다. 이번 포스팅에선 MLlib의 활용을 알고리즘, 파이프라인, FE, Utils에 걸쳐서 차근차근 살펴보도록 하겠다. MLlib 포스팅에서 사용할 데이터는 이전 포스팅에서 다뤘던 '택시 데이터'이다. https://mengu.tistory.com/50?category=932924 [S..
2022.05.20