spark(21)
-
[Airflow] Airflow & Spark 연동해서 활용하기 (2)
저번 포스팅에선 airflow와 spark을 연동하는 방법에 대해 알아봤습니다. 이번 포스팅에선 간단한 실습을 바로 진행해보도록 하겠습니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com [Airflow&Spark 연동하러 가기] https://mengu.tistory.com/124 [..
2022.09.19 -
[Airflow] Airflow & Spark 연동해서 활용하기 (1)
이번 포스팅에선 Airlfow와 Spark의 연동에 대해 다루겠습니다. Spark에서의 작업을 Airflow를 통해 자동화시키는 작업까지 해보겠습니다. 당연히 Airlflow와 pyspark 환경이 세팅되어 있어야 합니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com 목차 📃 Airf..
2022.09.17 -
[Airflow] Airflow 기초 지식
Airflow란? 작업 스케줄러. Airflow를 이용하면 원하는 시간에, 원하는 작업을 실행시킬 수 있습니다. 이번 포스팅에선 Airlfow의 기초 지식을 알아보도록 하겠습니다. 목차 📃 Airflow 기원 및 장점 📃 Airflow 구조 Airflow 기원 및 장점 📌 기원 Airflow는 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼입니다. 2016년 아파치 재단의 incubator program으로 탄생했으며, 현재는 아파치 탑 레벨 프로젝트입니다. Airbnb, Yahoo, Paypal, Intel, Stripe 등에서 Airflow를 활용하고 있습니다. 📌 기존 방식의 문제점 기존엔 하나의 어플리케이션에 모든 Task를 집어넣고 실행시켰습니다. pipeline을 한 번에 배포하는 ..
2022.09.15 -
[Analytics] 미국 택시로 생존하는 방법 (2) feat. TLC
당신은 NEWYORK에서 택시 기사로 일하고 있다. 택시는 Yellow Taxi이다. 택시 기사로 생존하기 위해선 다음과 같은 노력이 필요하다. 1) 근무 시간 동안, 손님을 최대한 많이 태울 것 (손님) 2) 많은 요금 + 풍부한 팁 (요금) 3) 현금 결제는 소득에 포함시키지 않고 슬쩍하기 (세금 절약) 첫 번째 노력은 이전 포스팅에서 다뤘다. 이번 포스팅에선 많은 요금과 팁을 받는 방법, 현금 결제하는 손님을 받는 방법을 알아보겠다. [Data] 데이터는 SparkSQL 포스팅에서 전 처리한 Yellow Taxi 데이터(cleaned)를 사용하도록 하겠다. NEWYORK Yellow Taxi의 운행을 2021.01~2021.07까지 모두 모아놓은 데이터다. [Yellow Taxi Data: http..
2022.05.25 -
[SparkML] ALS, 추천 알고리즘 활용하기
ALS, Alternating Least Squares SparkML은 추천 알고리즘인 ALS를 지원한다. 영화 평점 데이터를 가져와서 직접 ALS 모델을 Spark에서 사용해보자. [ALS 개념] https://mengu.tistory.com/60 [추천 알고리즘] ALS 개념, Basic 하게 feat. 코드 X Alternating Least Squares 추천 알고리즘 중 하나로, 교대 최소 제곱법이라고도 불린다. 이번 포스팅에선 간단한 추천 알고리즘 개념들을 살펴보고, ALS의 장점을 알아보자. 추천 알고리즘 : 사용자가 mengu.tistory.com Basic Settings from matplotlib import font_manager, rc font_path = 'C:\\WINDOWS\..
2022.05.23 -
[SparkML] MLlib Parameter 튜닝 개념 및 코드
Parameter Tuning 머신러닝을 다뤄본 사람이라면 익숙한 개념일 것이다. 머신러닝을 알고리즘을 이용하더라도, 그 안의 변수를 어떻게 조정하냐에 따라서 모델의 성능이 달라진다. MLlib은 당연히도 Paramter Tuning 기능을 제공한다. 코드를 살펴보며 어떻게 튜닝을 하는지 살펴보자. [만약 Spark에 대해 아무것도 모른다면?] https://mengu.tistory.com/26?category=932924 [Spark] Apache Spark 개념 및 버전 Apache Spark에 대해 알아보자. Apache Spark란 빅데이터 처리를 위한 오픈소스 엔진(고속 분산처리)이다. 이미 아마존, 우버, 넷플릭스 등 다양한 기업에서 쓰이고 있다. Apache Spark 등장 배경 데이터가 m..
2022.05.22