스파크(3)
-
[SparkML] ALS, 추천 알고리즘 활용하기
ALS, Alternating Least Squares SparkML은 추천 알고리즘인 ALS를 지원한다. 영화 평점 데이터를 가져와서 직접 ALS 모델을 Spark에서 사용해보자. [ALS 개념] https://mengu.tistory.com/60 [추천 알고리즘] ALS 개념, Basic 하게 feat. 코드 X Alternating Least Squares 추천 알고리즘 중 하나로, 교대 최소 제곱법이라고도 불린다. 이번 포스팅에선 간단한 추천 알고리즘 개념들을 살펴보고, ALS의 장점을 알아보자. 추천 알고리즘 : 사용자가 mengu.tistory.com Basic Settings from matplotlib import font_manager, rc font_path = 'C:\\WINDOWS\..
2022.05.23 -
[SparkSQL] UDF 개념 및 코드
UDF User Define Function. 즉, 사용자 지정 함수를 말한다. 앞선 포스팅에서 데이터 프레임을 처리하는 여러 함수들을 보았다. SparkSQL에선 사용자가 직접 어떤 작업을 수행하는 함수를 명명하고, Spark에 등록하여 쓸 수 있다. 자세하게 알아보자. "본 포스팅은 패스트캠퍼스의 강의를 듣고, 정리한 자료임을 밝힙니다." Basic Setting import os import findspark findspark.init(os.environ.get("SPARK_HOME")) import pyspark from pyspark import SparkConf, SparkContext import pandas as pd import faulthandler faulthandler.enable(..
2022.05.08 -
[Spark] 초기 환경 세팅 ft. 호환 문제 해결
이번 포스팅은 Spark 초기 환경 세팅이다. Spark, pyspark, java 등 그냥 설치해서 끝내면 되는 거 아니냐 할 수 있지만, 중간에 버전 호환 문제가 존재해서 막힐 수 있다. 그 부분을 집어주고자 포스팅을 한다. * 해당 포스팅은 windows 10 환경에서 진행한다. Anaconda 설치 먼저 https://www.anaconda.com/ 링크에 접속한다. Downloads를 눌러서 설치 파일을 받아준다. 그 다음, exe 파일을 눌러서 다음 설치를 쭉 진행한다. Anaconda prompt를 열어서 python 위치를 확인한다. 설치 경로: C:\Users\W21841\anaconda3\python.exe * 개인 컴퓨터마다 경로는 다를 수 있다. Java 설치 Oracle Java ..
2022.04.20