전처리(2)
-
[SparkSQL] 택시 데이터 다운/전처리/분석 feat. TLC
이전 포스팅에서 공부한 SparkSQL 지식을 바탕으로, 실제 Taxi 데이터를 전처리해보자. * 전처리란? 이상치 제거, 그룹화 등 데이터 분석이 용이하도록 데이터를 변형하는 과정을 말한다. TLC Trip Record Data에서 먼저 데이터를 받아오자. TLC는 미국의 택시 운전 데이터를 모아놓은 아주 유용한 사이트다. [https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page] TLC Trip Record Data - TLC TLC Trip Record Data The yellow and green taxi trip records include fields capturing pick-up and drop-off dates/times, pick-..
2022.05.10 -
[MLOps] MLflow 시작 & 개념 정리
최근 MLOps란 단어가 많이 등장했다. MLOps : 프로덕션 환경에서 기계학습을 안정적으로 수행하기 위한 일련의 과정 MLOps = DevOps + Machine Learning 데이터 전처리, 분석, 모델링을 주로 공부해왔지만, 최근 들어 이런 시스템의 필요성을 느꼈다. 매 분석 순간마다 전처리-EDA-FE-Modeling-검증 과정을 거치면 시간이 많이 든다. 모델을 저장하고, 다시 서빙하는 과정도 간편화될 필요가 있다. 그런 생각의 흐름에서 MLflow를 공부하게 되었으며, 공부한 것들을 블로그로 정리해보고자 한다. [참고자료] https://github.com/mlflow/mlflow/ GitHub - mlflow/mlflow: Open source platform for the machine..
2022.04.14