step48. 다중 클래스 분류

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DonHurry

step48. 다중 클래스 분류 본문

DeZero/🗻제4고지

step48. 다중 클래스 분류

_도녁 2023. 2. 28. 23:59

📢 본 포스팅은 밑바닥부터 시작하는 딥러닝3을 기반으로 작성하였습니다. 배운 내용을 기록하고, 개인적인 공부를 위해 작성하는 포스팅입니다. 자세한 내용은 교재 구매를 강력 추천드립니다.

이전 단계에서 구현한 소프트맥스 함수와 엔트로피 오차를 활용하여 다중 클래스 분류를 해보도록 하겠습니다. 이번 단계에서는 스파이럴 데이터셋이라는 아주 작은 데이터셋을 사용합니다. 데이터셋은 DeZero의 dezero/datasets.py에 준비되어 있습니다.

우선 스파이럴 데이터셋을 읽어와 모양을 확인해보겠습니다. 이번 문제는 총 3 클래스 분류 문제로, 정답 데이터(레이블) t의 원소는 0, 1, 2 중 하나입니다.

import dezero

x, t = dezero.datasets.get_spiral(train=True)
print(x.shape)
print(t.shape)

(300, 2)

(300,)

이제 총 학습 코드를 살펴보겠습니다. 주석으로 달아둔 번호대로 설명을 이어나가겠습니다.

import dezero
import math
import numpy as np
import matplotlib.pyplot as plt
from dezero import optimizers
import dezero.functions as F
from dezero.models import MLP


# 1: Hyperparameters
max_epoch = 300
batch_size = 30
hidden_size = 10
lr = 1.0

# 2: data, model, optimizer
x, t = dezero.datasets.get_spiral(train=True)
model = MLP((hidden_size, 3))
optimizer = optimizers.SGD(lr).setup(model)

data_size = len(x)
max_iter = math.ceil(data_size / batch_size)

for epoch in range(max_epoch):
    # 3: Shuffle index for data
    index = np.random.permutation(data_size)
    sum_loss = 0

    for i in range(max_iter):
    	# 4
        batch_index = index[i * batch_size:(i + 1) * batch_size]
        batch_x = x[batch_index]
        batch_t = t[batch_index]
		
        # 5
        y = model(batch_x)
        loss = F.softmax_cross_entropy(y, batch_t)
        model.cleargrads()
        loss.backward()
        optimizer.update()
        sum_loss += float(loss.data) * len(batch_t)

    # 6: Print loss every epoch
    avg_loss = sum_loss / data_size
    print('epoch %d, loss %.2f' % (epoch + 1, avg_loss))

1번에서 하이퍼파라미터를 설정합니다. 은닉층 수, 학습률 등 사람이 직접 결정해야하는 변수들입니다. 2번에서는 데이터셋을 읽어오고, 모델과 옵티마이저를 생성합니다. 또한 준비된 데이터셋을 모두 살펴봤을 때가 1 epoch 입니다. 배치 사이즈는 데이터를 한 번에 몇개씩 묶어서 처리하냐를 뜻합니다.

3번에서는 데이터셋의 인덱스를 무작위로 섞습니다. np.random.permutation 함수는 인수를 N으로 받으면, 0부터 N-1까지의 정수가 무작위로 배열된 리스트를 반환합니다.

4번에서는 미니배치를 생성합니다. DeZero의 함수는 Variable 혹은 ndarray 인스턴스를 입력으로 받는데, batch_x와 batch_t는 ndarray 인스턴스입니다.

5번에서는 여태 해왔던 것처럼 ㄱ울기를 구하고 매개변수를 갱신합니다. 마지막으로 6번에서 에폭마다 손실 함수의 결과를 출력합니다.

코드를 실행해보면 손실이 계속해서 줄어드는 것을 확인할 수 있습니다. 손실 그래프로 나타내면 다음과 같습니다.

학습이 완료된 신경망이 클래스별 영역을 어떻게 구분하고 있는가도 시각화해보겠습니다. 이 클래스별 영역을 결정 경계(decision boundary)라고 합니다. 시각화는 아래 코드를 실행하면 됩니다.

# Plot boundary area the model predict
h = 0.001
x_min, x_max = x[:, 0].min() - .1, x[:, 0].max() + .1
y_min, y_max = x[:, 1].min() - .1, x[:, 1].max() + .1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
X = np.c_[xx.ravel(), yy.ravel()]

with dezero.no_grad():
    score = model(X)
predict_cls = np.argmax(score.data, axis=1)
Z = predict_cls.reshape(xx.shape)
plt.contourf(xx, yy, Z)

# Plot data points of the dataset
N, CLS_NUM = 100, 3
markers = ['o', 'x', '^']
colors = ['orange', 'blue', 'green']
for i in range(len(x)):
    c = t[i]
    plt.scatter(x[i][0], x[i][1], s=40, marker=markers[c], c=colors[c])
plt.show()

결과를 보면 신경망이 소용돌이 패턴을 제대로 파악하고 있는 것을 확인할 수 있습니다. 비선형 분리 영역을 학습한 것이죠. 이처럼 층을 더 깊게 쌓는 방식으로 표현력을 증진시킬 수 있다는 것이 딥러닝의 특징입니다.

'DeZero > 🗻제4고지' 카테고리의 다른 글

step50. 미니배치를 뽑아주는 DataLoader (0)	2023.03.02
step49. Dataset 클래스와 전처리 (0)	2023.03.01
step47. 소프트맥스 함수와 교차 엔트로피 오차 (0)	2023.02.27
step46. Optimizer로 수행하는 매개변수 갱신 (0)	2023.02.25
step45. 계층을 모아두는 계층 (0)	2023.02.24

'DeZero/🗻제4고지' Related Articles

DonHurry

step48. 다중 클래스 분류 본문

step48. 다중 클래스 분류

'DeZero > 🗻제4고지' 카테고리의 다른 글

티스토리툴바