pyspark(16)
-
[Airflow] Airflow & Spark 연동해서 활용하기 (2)
저번 포스팅에선 airflow와 spark을 연동하는 방법에 대해 알아봤습니다. 이번 포스팅에선 간단한 실습을 바로 진행해보도록 하겠습니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com [Airflow&Spark 연동하러 가기] https://mengu.tistory.com/124 [..
2022.09.19 -
[Airflow] Airflow & Spark 연동해서 활용하기 (1)
이번 포스팅에선 Airlfow와 Spark의 연동에 대해 다루겠습니다. Spark에서의 작업을 Airflow를 통해 자동화시키는 작업까지 해보겠습니다. 당연히 Airlflow와 pyspark 환경이 세팅되어 있어야 합니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com 목차 📃 Airf..
2022.09.17 -
[SparkML] ALS, 추천 알고리즘 활용하기
ALS, Alternating Least Squares SparkML은 추천 알고리즘인 ALS를 지원한다. 영화 평점 데이터를 가져와서 직접 ALS 모델을 Spark에서 사용해보자. [ALS 개념] https://mengu.tistory.com/60 [추천 알고리즘] ALS 개념, Basic 하게 feat. 코드 X Alternating Least Squares 추천 알고리즘 중 하나로, 교대 최소 제곱법이라고도 불린다. 이번 포스팅에선 간단한 추천 알고리즘 개념들을 살펴보고, ALS의 장점을 알아보자. 추천 알고리즘 : 사용자가 mengu.tistory.com Basic Settings from matplotlib import font_manager, rc font_path = 'C:\\WINDOWS\..
2022.05.23 -
[SparkML] MLlib Parameter 튜닝 개념 및 코드
Parameter Tuning 머신러닝을 다뤄본 사람이라면 익숙한 개념일 것이다. 머신러닝을 알고리즘을 이용하더라도, 그 안의 변수를 어떻게 조정하냐에 따라서 모델의 성능이 달라진다. MLlib은 당연히도 Paramter Tuning 기능을 제공한다. 코드를 살펴보며 어떻게 튜닝을 하는지 살펴보자. [만약 Spark에 대해 아무것도 모른다면?] https://mengu.tistory.com/26?category=932924 [Spark] Apache Spark 개념 및 버전 Apache Spark에 대해 알아보자. Apache Spark란 빅데이터 처리를 위한 오픈소스 엔진(고속 분산처리)이다. 이미 아마존, 우버, 넷플릭스 등 다양한 기업에서 쓰이고 있다. Apache Spark 등장 배경 데이터가 m..
2022.05.22 -
[SparkML] MLlib Pipeline 구축하기
Spark MLlib은 Pipeline 컴포넌트를 지원한다. Pipeline은 머신러닝의 워크플로우를 말하기도 하며, 여러 Stage를 담고 있다. persist() 함수를 통해 저장도 가능하다. 그렇다면 실제 코드는 어떻게 짤까? 이전 포스팅에서 다뤘던 택시 데이터로, MLlib Pipeline을 구축해보자. 기본 세팅은 이전 Spark 포스팅들을 보면 이해할 수 있다. [데이터 https://mengu.tistory.com/50?category=932924] [SparkSQL] 택시 데이터 다운/전처리/분석 feat. TLC 이전 포스팅에서 공부한 SparkSQL 지식을 바탕으로, 실제 Taxi 데이터를 전처리해보자. * 전처리란? 이상치 제거, 그룹화 등 데이터 분석이 용이하도록 데이터를 변형하는 ..
2022.05.21 -
[SparkML] MLlib 개념 및 실습 코드
MLlib Machine Learning Library 스파크의 컴포넌트 중 하나로, 머신러닝 파이프라인 개발을 쉽게 하기 위해 개발되었다. MLlib에는 다시 알고리즘(Classification 등) + 파이프라인(Training, Evaluation 등) + FE + Utils(Statistics 등)의 여러 컴포넌트가 있다. MLlib은 DataFrame 위에서 동작하며, MLlib API를 Spark ML이라고 부른다. 이번 포스팅에선 MLlib의 활용을 알고리즘, 파이프라인, FE, Utils에 걸쳐서 차근차근 살펴보도록 하겠다. MLlib 포스팅에서 사용할 데이터는 이전 포스팅에서 다뤘던 '택시 데이터'이다. https://mengu.tistory.com/50?category=932924 [S..
2022.05.20