데이터셋(2)
-
[Spark] RDD 개념 및 코드
RDD(Resilient Distributed Dataset)란? 직역하면 탄력적인 분산 데이터셋이다. 말 그대로 데이터를 클러스터에 분산하여 저장하며, 그런 데이터를 탄력적으로 이용(이슈 발생 시 과거 데이터로 돌아가기 등)할 수 있게 하는 데이터셋이다. 지금부터 RDD의 특징을 톺아보자. 1. 데이터의 분산 RDD는 다음과 같이 데이터를 여러 클러스터에 분산 저장하는 방식이다. 하지만 여러 클러스터에 흩어져있어도 하나의 파일처럼 사용하는 것이 가능하다. # 패키지를 가져오고 from pyspark import SparkConf, SparkContext import pandas as pd # Spark 설정 conf = SparkConf().setMaster("local").setAppName("ube..
2022.04.24 -
[CNN basic] MNIST 데이터셋 학습, 예측
이번 포스팅에선 간단하게 Keras를 이용하여 CNN모델을 만들고 학습, 예측한다. CNN의 학습과정을 전체적으로 따라가 보자. CNN의 개념이 익숙지 않다면 이전 포스팅을 보고 오자. [이전 포스팅: https://mengu.tistory.com/23] [CNN basic] 합성곱 층, 풀링 층 CNN basic 합성곱 층, 풀링 층 CNN(Convolutional neural network)이란? 합성곱 신경망은 시각 피질 안의 뉴런 작동방식을 본 따 만들어진 네트워크이다. 위 그림은 실제 시각피질의 뉴런이 작동하는 방식이 mengu.tistory.com MNIST 데이터셋 MNIST 데이터셋은 손글씨 데이터 셋이다. 해당 포스팅에선, 이미지를 바탕으로 손글씨를 0~10까지 분류하는 모델을 만들 것이..
2022.04.19