airflow(4)
-
[Airflow] Airflow & Spark 연동해서 활용하기 (2)
저번 포스팅에선 airflow와 spark을 연동하는 방법에 대해 알아봤습니다. 이번 포스팅에선 간단한 실습을 바로 진행해보도록 하겠습니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com [Airflow&Spark 연동하러 가기] https://mengu.tistory.com/124 [..
2022.09.19 -
[Airflow] Airflow & Spark 연동해서 활용하기 (1)
이번 포스팅에선 Airlfow와 Spark의 연동에 대해 다루겠습니다. Spark에서의 작업을 Airflow를 통해 자동화시키는 작업까지 해보겠습니다. 당연히 Airlflow와 pyspark 환경이 세팅되어 있어야 합니다. * 본 포스팅은 해당 강의를 참고한 것임을 밝힙니다. [pyspark 세팅하러 가기] https://mengu.tistory.com/25?category=932924 [Spark] 초기 환경 세팅 ft. 호환 문제 해결 이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅 mengu.tistory.com 목차 📃 Airf..
2022.09.17 -
[Airflow] Airflow 기초 지식
Airflow란? 작업 스케줄러. Airflow를 이용하면 원하는 시간에, 원하는 작업을 실행시킬 수 있습니다. 이번 포스팅에선 Airlfow의 기초 지식을 알아보도록 하겠습니다. 목차 📃 Airflow 기원 및 장점 📃 Airflow 구조 Airflow 기원 및 장점 📌 기원 Airflow는 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼입니다. 2016년 아파치 재단의 incubator program으로 탄생했으며, 현재는 아파치 탑 레벨 프로젝트입니다. Airbnb, Yahoo, Paypal, Intel, Stripe 등에서 Airflow를 활용하고 있습니다. 📌 기존 방식의 문제점 기존엔 하나의 어플리케이션에 모든 Task를 집어넣고 실행시켰습니다. pipeline을 한 번에 배포하는 ..
2022.09.15 -
[Airflow Error] 403:Forbidden
403 Forbidden HTTP 오류 코드 URL을 들어가거나, API를 요청하던 중 다음과 같은 에러를 만났나요? 그렇다면 여러분은 정상적인 요청을 했습니다만, 저쪽의 서버가 거부한 것입니다. 여러분이 해야할 것은, 이것저것 코드 에러를 찾기 보단, 해당 url의 사이트가 원하는 권한을 부여받아야 합니다. 예를 들어 api key를 받거나, authentication 룰을 살펴보고 따라해야 합니다. 저의 경우, Airflow Task 중 opensea api 유무를 확인하는 센서를 개발하고 있었습니다. 당연히 opensea api URL을 타고 확인하는 작업이 컴퓨터에서 이뤄질 것이고, 그러다가 다음과 같은 오류를 냈습니다. Traceback (most recent call last): File "/..
2022.09.08