데이터분석(4)
-
ADsP 자격증 취득 후기 (꿀팁 포함)
2022.08.28 제34회 데이터 분석 준전문가(ADsP)를 쳤다. 예상보다 난이도가 있으며, 만만하게 보고 들어갔다간 큰코다칠 수 있다. 다만, 합격 커트라인이 낮아서... 그럼에도 합격은 할 수 있지 않았었을까 예상. 약 2-3주 준비했으며, 하루에 2시간 정도씩 공부했다. 물론 빠진 날도 있었지만! 총 3과목을 봐야 하며, 총점 60점을 넘으면 합격이다. 결과는 다행히 합격. 지금부터는 합격 꿀팁을 전달하도록 하겠다. Let's Go. 1. 책 책은 ADsP에서 가장 유명한 책으로 선정했다. 이 책은 개념과 문제가 섞여있으며, 사실 이것만 봐도 무방할 정도다. ADsP를 준비하는 사람이라면, 그냥 이 책을 사면 된다. 다른 책은 필요 없다. 2. 공부 방법 ADsP는 빠르게 보고 끝내야 하는 자격..
2022.12.12 -
[Analytics] 미국 택시로 생존하는 방법 (1) feat. TLC
당신은 NEWYORK에서 택시 기사로 일하고 있다. 택시는 Yellow Taxi이다. 택시 기사로 생존하기 위해선 다음과 같은 노력이 필요하다. 1) 근무 시간 동안, 손님을 최대한 많이 태울 것 (손님) 2) 많은 요금 + 풍부한 팁 (요금) 3) 현금 결제는 소득에 포함시키지 않고 슬쩍하기 (세금 절약) 두 가지는 단순히 노력만으론 이뤄지지 않는다. 빅데이터를 이용해 손님이 많은 장소와 시간을 특정하고, 미리 대기하고 있어야 한다. 또한 손님이 특정 장소를 요구해도, 그곳이 데이터 상 손님이 많은 장소가 아니라면 용기 있게 Pass 할 필요도 있다. 그렇다면 지금부터 데이터를 살펴보며 전략을 구축해보자. [Data] 데이터는 SparkSQL 포스팅에서 전처리한 Yellow Taxi 데이터(cleane..
2022.05.12 -
[SparkSQL] 택시 데이터 다운/전처리/분석 feat. TLC
이전 포스팅에서 공부한 SparkSQL 지식을 바탕으로, 실제 Taxi 데이터를 전처리해보자. * 전처리란? 이상치 제거, 그룹화 등 데이터 분석이 용이하도록 데이터를 변형하는 과정을 말한다. TLC Trip Record Data에서 먼저 데이터를 받아오자. TLC는 미국의 택시 운전 데이터를 모아놓은 아주 유용한 사이트다. [https://www1.nyc.gov/site/tlc/about/tlc-trip-record-data.page] TLC Trip Record Data - TLC TLC Trip Record Data The yellow and green taxi trip records include fields capturing pick-up and drop-off dates/times, pick-..
2022.05.10 -
[Kaggle] Ubiquant Market Prediction, 금융데이터 예측 - Part 1
Ubiquant Market Prediction 대회가 열렸다. (사실 개최된지는 꽤... 되었지만) 대회에서 제시하는 문제를 이해하고, 어떻게 문제를 해결할지 고민하고, 실제로 설루션을 제시하는 과정을 천천히 밟아 가보자. Let's Go! https://www.kaggle.com/code/miingkang/ml-from-the-beginning-to-the-end-for-newbies?scriptVersionId=91431811 ML from the beginning to the end (For newbies🐢) Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.ka..
2022.04.03