SQL(2)
-
[Analytics] 미국 택시로 생존하는 방법 (1) feat. TLC
당신은 NEWYORK에서 택시 기사로 일하고 있다. 택시는 Yellow Taxi이다. 택시 기사로 생존하기 위해선 다음과 같은 노력이 필요하다. 1) 근무 시간 동안, 손님을 최대한 많이 태울 것 (손님) 2) 많은 요금 + 풍부한 팁 (요금) 3) 현금 결제는 소득에 포함시키지 않고 슬쩍하기 (세금 절약) 두 가지는 단순히 노력만으론 이뤄지지 않는다. 빅데이터를 이용해 손님이 많은 장소와 시간을 특정하고, 미리 대기하고 있어야 한다. 또한 손님이 특정 장소를 요구해도, 그곳이 데이터 상 손님이 많은 장소가 아니라면 용기 있게 Pass 할 필요도 있다. 그렇다면 지금부터 데이터를 살펴보며 전략을 구축해보자. [Data] 데이터는 SparkSQL 포스팅에서 전처리한 Yellow Taxi 데이터(cleane..
2022.05.12 -
[Spark] SparkSQL 개념 및 코드
SparkSQL Structured Data를 다루기 위해 Spark에서도 SQL문을 쓸 수 있게 했다. 1. Structured Data와 Unstructured Data의 차이점은 무엇이고 2. 왜 RDD가 아닌 Structured Data를 써야 하며 3. Spark에서 SQL문을 어떻게 쓸 수 있을까? 포스팅을 읽어가며 질문을 해소해보자. "본 포스팅은 패스트캠퍼스의 강의를 듣고, 정리한 자료임을 밝힙니다." Structured Data vs Unstructured Data Unstructured Data : free form - 로그 파일 - 이미지 말 그대로 free form. 자유로운 형식의 데이터다. 이미지가 될 수도 있고, 하나의 스트링이 될 수 있다. 이런 데이터들을 정제하여 Struc..
2022.05.06