Python(61)
-
[BOJ] # 2609번: 최대공약수와 최소공배수
문제 두 개의 자연수를 입력받아 최대 공약수와 최소 공배수를 출력하는 프로그램을 작성하시오. 입력 첫째 줄에는 두 개의 자연수가 주어진다. 이 둘은 10,000 이하의 자연수이며 사이에 한 칸의 공백이 주어진다. 출력 첫째 줄에는 입력으로 주어진 두 수의 최대공약수를, 둘째 줄에는 입력으로 주어진 두 수의 최소 공배수를 출력한다. CODE import sys a, b = map(int, sys.stdin.readline().split()) def multiply(arr): ans = 1 for n in arr: ans *= n return ans def small_num(i): d = 2 i_list = [] while i > 1: if i % d == 0: i = i / d i_list.append(d..
2022.05.02 -
[BOJ] # 1037번: 약수
문제 양수 A가 N의 진짜 약수가 되려면, N이 A의 배수이고, A가 1과 N이 아니어야 한다. 어떤 수 N의 진짜 약수가 모두 주어질 때, N을 구하는 프로그램을 작성하시오. 입력 첫째 줄에 N의 진짜 약수의 개수가 주어진다. 이 개수는 50보다 작거나 같은 자연수이다. 둘째 줄에는 N의 진짜 약수가 주어진다. 1,000,000보다 작거나 같고, 2보다 크거나 같은 자연수이고, 중복되지 않는다. 출력 첫째 줄에 N을 출력한다. N은 항상 32비트 부호 있는 정수로 표현할 수 있다. 코드 import sys n = int(sys.stdin.readline()) n_list = list(map(int, sys.stdin.readline().split())) m = min(n_list) x = max(n_l..
2022.05.02 -
[Spark] Reduction 개념 및 코드
Reduction 요소들을 모아서 하나로 합치는 작업을 말한다. 많은 Spark 연산들이 Reduction이라고 봐도 무방하다. * 파일 저장, collect() 등과 같이 Reduction이 아닌 액션도 존재. 코드로 실습해보자. conf 설정 import os import findspark findspark.init(os.environ.get('SPARK_HOME')) import pyspark from pyspark import SparkConf, SparkContext import pandas as pd import faulthandler faulthandler.enable() conf = SparkConf().setMaster('local').setAppName('my-RDD-transforma..
2022.05.01 -
[Spark] Spark 속도 최적화, Cashe() & Persist()
Spark 속도를 최적화시키는 방법으론, Cashe(), Persist()가 있다. Spark 특성상, Transformations는 Lazy Execution 방식으로 작업을 수행한다. 그 이유는, Eager Execution(즉시 시행)을 따를 경우 다음과 같은 비효율이 발생한다. Task를 수행할 때마다 Disk에 저장을 하고, 다시 이를 불러들여야 한다. 이 과정에서 Disk 공간은 물론, 통신으로 인한 속도 저하 등 비효율이 발생하게 된다. 그렇다면 Lazy Execution 방식으로 작업을 수행한다면 어떨까? Lazy Execution 방식이라면, Disk에 저장하지 않는다. 대신 Task에서 Task로 전달될 때 In-Memory 방식으로 데이터를 주고받을 수 있다. In-Memory 방식으..
2022.05.01 -
[Spark] Transformations & Actions 함수
Spark Operation = Transformations + Actions Tranformations는 결괏값으로 새로운 RDD를 반환하고, Lazy Execution을 한다는 점이 특징이다. Actions는 결괏값을 연산하여 출력하거나 저장하며, Eager Execution을 한다는 점이 특징이다. Transformations와 Actions 함수들을 더 자세히 살펴보자. conf 설정 import os import findspark findspark.init(os.environ.get('SPARK_HOME')) import pyspark from pyspark import SparkConf, SparkContext import pandas as pd import faulthandler faulth..
2022.05.01 -
[Spark] Key-Value RDD 개념 및 코드
Key-Value RDD (Key, Value) 쌍을 가지는 RDD로, Paris RDD라고 불리기도 한다. Single Value RDD와 Key-Value RDD는 활용 양상이 조금 다른데, 다음과 같다. Single Value RDD 예) 특정 단어 수 세기 Key-Value RDD 예) 특정 드라마가 받은 별점의 평균 RDD가 무엇인지 모르겠다면? https://mengu.tistory.com/27?category=932924 [Spark] RDD 개념 및 코드 RDD(Resilient Distributed Dataset)란? 직역하면 탄력적인 분산 데이터셋이다. 말 그대로 데이터를 클러스터에 분산하여 저장하며, 그런 데이터를 탄력적으로 이용(이슈 발생 시 과거 데이터로 돌아가기 mengu.tis..
2022.05.01