step49. Dataset 클래스와 전처리

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DonHurry

step49. Dataset 클래스와 전처리 본문

DeZero/🗻제4고지

step49. Dataset 클래스와 전처리

_도녁 2023. 3. 1. 16:45

📢 본 포스팅은 밑바닥부터 시작하는 딥러닝3을 기반으로 작성하였습니다. 배운 내용을 기록하고, 개인적인 공부를 위해 작성하는 포스팅입니다. 자세한 내용은 교재 구매를 강력 추천드립니다.

이번 단계에서는 저번 단계에서 사용했던 Dataset 클래스에 대해 자세히 살펴보겠습니다. 사용자가 실제로 사용하는 데이터셋은 기반 클래스를 상속받아 구현합니다. 먼저 기반 클래스 코드를 보겠습니다.

Dataset 클래스에서는 __getitem__과 __len__ 메서드가 중요합니다. __len__ 메서드는 len 함수를 사용할 때 호출되고, __getitem__ 메서드는 지정된 인덱스에 위치하는 데이터를 꺼낼 때 사용합니다. 기본적으로 딥러닝 학습에는 데이터와 라벨이 필요하므로, 생성자에서 지정해주도록 합니다. 별개로 transform은 데이터셋 전처리 시에 활용합니다. 학습하기 전 데이터에서 특정 값을 제거하거나, 좌우 반전 등의 데이터 수를 인위적으로 늘리는 경우가 많습니다. 이러한 전처리 기술들에 대응하기 위해 transform 기능을 추가합니다. 만약 transform이 인자로 들어오지 않는 경우 lambda x: x를 통해 원본 데이터를 그대로 반환합니다.

class Dataset:
    def __init__(self, train=True, transform=None, target_transform=None):
        self.train = train
        self.transform = transform
        self.target_transform = target_transform
        if self.transform is None:
            self.transform = lambda x: x
        if self.target_transform is None:
            self.target_transform = lambda x: x
        
        self.data = None
        self.label = None
        self.prepare()

    def __getitem__(self, index):
        assert np.isscalar(index)
        if self.label is None:
            return self.transform(self.data[index]), None
        else:
            return self.transform(self.data[index]),\
                    self.target_transform(self.label[index])
    
    def __len__(self):
        return len(self.data)
    
    def prepare(self):
        pass

이제 위의 Dataset 클래스를 상속 받아 스파이럴 데이터셋을 구현해보겠습니다. 사실 핵심 데이터 구성은 get_spiral 메서드에 구현되어있지만, 이런 식으로 Dataset 클래스를 상속 받아 구현한다는 것만 알아두시면 됩니다.

class Spiral(Dataset):
    def prepare(self):
        self.data, self.label = get_spiral(self.train)

만약 데이터셋이 엄청나게 큰 경우 다른 방식을 사용해야 합니다. 예를 들어 data 디렉터리와 label 디렉터리에 각각 100만 개의 데이터가 저장되어 있다면, BigData 클래스 초기화 시에 데이터를 읽는 것이 아니라 데이터에 접근할 때 읽도록 하는 것입니다. np.load는 53단계에서 설명한다고 합니다.

class BigData(Dataset):
	def __getitem__(index):
    	x = np.load('data/{}.npy'.format(index))
        t = np.load('label/{}.npy'.format(index))
        return x, t
        
    def __len__():
    	return 1000000

이제 학습을 진행하겠습니다. 이전과 달라진 점은 Dataset을 불러올 때 클래스를 활용한다는 점입니다. 또한 Spiral 클래스에서 데이터를 미니배치로 가져올 때의 코드가 달라졌습니다. 이 부분은 아래에서 따로 살펴보겠습니다.

import math
import numpy as np
import dezero
import dezero.functions as F
from dezero import optimizers
from dezero.models import MLP


max_epoch = 300
batch_size = 30
hidden_size = 10
lr = 1.0

train_set = dezero.datasets.Spiral(train=True)
model = MLP((hidden_size, 3))
optimizer = optimizers.SGD(lr).setup(model)

data_size = len(train_set)
max_iters = math.ceil(data_size / batch_size)


for epoch in range(max_epoch):
    index = np.random.permutation(data_size)
    sum_loss = 0

    for i in range(max_iters):
        batch_index = index[i * batch_size:(i + 1) * batch_size]
        batch = [train_set[i] for i in batch_index]
        batch_x = np.array([example[0] for example in batch])
        batch_t = np.array([example[1] for example in batch])

        y = model(batch_x)
        model.cleargrads()
        loss = F.softmax_cross_entropy(y, batch_t)
        loss.backward()
        optimizer.update()

        sum_loss += float(loss.data) * len(batch_t)
    
    avg_loss = sum_loss / data_size
    print('epoch %d, loss %.2f' % (epoch + 1, avg_loss))

먼저 인덱스를 지정하여 미니배치를 꺼냅니다. 다음으로 인덱스에 따라 batch에 여러 데이터를 리스트로 저장합니다. 다음으로 batch_x, batch_t에 하나의 ndarray 인스턴스로 변환하여 할당해줍니다. 이 과정을 반복하여 신경망에 미니배치를 입력하여 줍니다.

train_set = dezero.datasets.Spiral()

batch_index = [0, 1, 2]  # 0번째에서 2번째까지의 데이터 꺼내기
batch = [train_set[i] for i in batch_index]
# batch = [(data_0, label_0), (data_1, label_1), (data_2, label_2)]
batch_x = np.array([example[0] for example in batch])
batch_t = np.array([example[1] for example in batch])

print(x.shape)
print(t.shape)

(3, 2)

(3,)

위에서 설명했던 데이터 전처리 transform은 dezero/transform.py에 여러 변환 처리들이 준비되어 있다고 합니다. 책에서 따로 설명하고 있지는 않습니다. 관심있는 분은 참고하시면 좋을 것 같습니다.

GitHub - WegraLee/deep-learning-from-scratch-3: 『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020)

『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020). Contribute to WegraLee/deep-learning-from-scratch-3 development by creating an account on GitHub.

github.com

'DeZero > 🗻제4고지' 카테고리의 다른 글

step50. 미니배치를 뽑아주는 DataLoader (0)	2023.03.02
step48. 다중 클래스 분류 (0)	2023.02.28
step47. 소프트맥스 함수와 교차 엔트로피 오차 (0)	2023.02.27
step46. Optimizer로 수행하는 매개변수 갱신 (0)	2023.02.25
step45. 계층을 모아두는 계층 (0)	2023.02.24

'DeZero/🗻제4고지' Related Articles

DonHurry

step49. Dataset 클래스와 전처리 본문

step49. Dataset 클래스와 전처리

'DeZero > 🗻제4고지' 카테고리의 다른 글

티스토리툴바