SparkML(2)
-
[SparkML] MLlib Pipeline 구축하기
Spark MLlib은 Pipeline 컴포넌트를 지원한다. Pipeline은 머신러닝의 워크플로우를 말하기도 하며, 여러 Stage를 담고 있다. persist() 함수를 통해 저장도 가능하다. 그렇다면 실제 코드는 어떻게 짤까? 이전 포스팅에서 다뤘던 택시 데이터로, MLlib Pipeline을 구축해보자. 기본 세팅은 이전 Spark 포스팅들을 보면 이해할 수 있다. [데이터 https://mengu.tistory.com/50?category=932924] [SparkSQL] 택시 데이터 다운/전처리/분석 feat. TLC 이전 포스팅에서 공부한 SparkSQL 지식을 바탕으로, 실제 Taxi 데이터를 전처리해보자. * 전처리란? 이상치 제거, 그룹화 등 데이터 분석이 용이하도록 데이터를 변형하는 ..
2022.05.21 -
[SparkML] MLlib 개념 및 실습 코드
MLlib Machine Learning Library 스파크의 컴포넌트 중 하나로, 머신러닝 파이프라인 개발을 쉽게 하기 위해 개발되었다. MLlib에는 다시 알고리즘(Classification 등) + 파이프라인(Training, Evaluation 등) + FE + Utils(Statistics 등)의 여러 컴포넌트가 있다. MLlib은 DataFrame 위에서 동작하며, MLlib API를 Spark ML이라고 부른다. 이번 포스팅에선 MLlib의 활용을 알고리즘, 파이프라인, FE, Utils에 걸쳐서 차근차근 살펴보도록 하겠다. MLlib 포스팅에서 사용할 데이터는 이전 포스팅에서 다뤘던 '택시 데이터'이다. https://mengu.tistory.com/50?category=932924 [S..
2022.05.20