step 43. 신경망

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DonHurry

step 43. 신경망 본문

DeZero/🗻제4고지

step 43. 신경망

_도녁 2023. 2. 19. 21:23

📢 본 포스팅은 밑바닥부터 시작하는 딥러닝3을 기반으로 작성하였습니다. 배운 내용을 기록하고, 개인적인 공부를 위해 작성하는 포스팅입니다. 자세한 내용은 교재 구매를 강력 추천드립니다.

이번 단계에서는 전 단계에서 구현했던 선형 회귀를 신경망으로 확장시키도록 하겠습니다. 우선 선형 변환을 DeZero의 linear 함수로 구현해보겠습니다. $y = F.matmul(x, W) + b$와 같이 입력 x와 매개변수 W를 행렬 곱하고, b를 더하는 것을 선형 변환(linear transformation) 혹은 아핀 변환(affine transformation)이라고 합니다. (엄밀히 말하면 b를 제외한 것이 선형 변환입니다.) 이때 선형 변환은 신경망에서 완전연결계층(fully connected later)에 해당합니다.

선형 변환은 아래 두 가지 방식을 통해 구현할 수 있습니다. 왼쪽은 DeZero의 matmul 함수와 +(add 함수)를 이용하는데, 이때 matmul 함수의 출력은 Variable 인스턴스이기 때문에 계산 그래프에 기록됩니다. 계산 그래프가 존재하는 동안에는 Variable 인스턴스와 그 안에 담긴 ndarray 인스턴스는 메모리에 계속 남게 됩니다. 한편 오른쪽의 Linear 클래스를 활용하는 방법은 중간 결과 t가 보존되지 않기 때문에 메모리를 효율적으로 사용합니다.

이때 t의 데이터는 + 역전파에 필요가 없습니다. matmul 역전파 역시 마찬가지입니다. +의 역전파는 출력 쪽 기울기를 단순히 흘리기 때문입니다. 따라서 다음과 같이 구현 가능합니다. 중간 결과인 t 데이터를 삭제해주는 것이죠.

def linear_simple(x, W, b=None):
    t = matmul(x, W)
    if b is None:
        return t
    
    y = t + b
    t.data = None  # Release t.data (ndarray) for memory
    return y

제 4고지에서는 생략되는 코드 설명이 많은데, 아래 깃허브에서 자세한 구현을 확인해볼 수 있습니다. Linear 클래스 역시 마찬가지입니다. dezero의 functions.py에 구현되어 있습니다.

GitHub - WegraLee/deep-learning-from-scratch-3: 『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020)

『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020). Contribute to WegraLee/deep-learning-from-scratch-3 development by creating an account on GitHub.

github.com

이제 직접 데이터셋을 활용해 신경망을 구현해보겠습니다. 저번과는 달리 비선형 데이터셋을 만들어내겠습니다.

import numpy as np

np.random.seed(0)
x = np.random.rand(100, 1)
y = np.sin(2 * np.pi * x) + np.random.rand(100, 1)

이러한 데이터셋에서 x와 y는 선형 관계가 아니기 때문에 선형 회귀로 풀 수 없습니다. 따라서 신경망이 필요합니다. 신경망에서는 선형 변환의 출력에 비선형 변환을 수행하게 되는데, 이 비선형 변환을 활성화 함수라고 합니다. 시그모이드나 렐루 같은 함수들이죠.

선형 변환과 활성화 함수를 활용하여 신경망 코드를 구현해보겠습니다.

import numpy as np
import matplotlib.pyplot as plt
from dezero import Variable
import dezero.functions as F


# non-linear dataset
np.random.seed(0)
x = np.random.rand(100, 1)
y = np.sin(2 * np.pi * x) + np.random.rand(100, 1)

# 가중치 초기화
I, H, O = 1, 10, 1
W1 = Variable(0.01 * np.random.randn(I, H))
b1 = Variable(np.zeros(H))
W2 = Variable(0.01 * np.random.randn(H, O))
b2 = Variable(np.zeros(O))


# 신경망 추론
def predict(x):
    y = F.linear(x, W1, b1)
    y = F.sigmoid(y)
    y = F.linear(y, W2, b2)
    return y


lr = 0.2
iters = 10000

# 신경망 학습
for i in range(iters):
    y_pred = predict(x)
    loss = F.mean_squared_error(y, y_pred)

    W1.cleargrad()
    b1.cleargrad()
    W2.cleargrad()
    b2.cleargrad()
    loss.backward()

    W1.data -= lr * W1.grad.data
    b1.data -= lr * b1.grad.data
    W2.data -= lr * W2.grad.data
    b2.data -= lr * b2.grad.data
    if i % 1000 == 0:
        print(loss)


# Plot
plt.scatter(x, y, s=10)
plt.xlabel('x')
plt.ylabel('y')
t = np.arange(0, 1, 0.1)[:, np.newaxis]
y_pred = predict(t)
plt.plot(t, y_pred.data, color='r')
plt.show()

variable(0.8473695850105871)
variable(0.2514286285183606)
variable(0.2475948546674987)
variable(0.2378612044705481)
variable(0.21222231333102912)
variable(0.16742181117834126)
variable(0.09681932619992642)
variable(0.07849528290602334)
variable(0.07749729552991154)
variable(0.07722132399559321)

학습을 완료하면 다음과 같은 결과를 얻을 수 있습니다. (위의 코드를 그대로 돌리면 곡선이 아래처럼 매끄럽지는 않습니다.) 결과를 확인하면 sin 함수의 곡선을 잘 표현하고 있습니다. 이 방식을 활용하면 더 깊은 신경망도 구현할 수 있지만, 매개변수 관리가 힘들어집니다. 따라서 다음 단계에서는 매개변수 관리를 간소화하는 구조를 만들어보겠습니다.

'DeZero > 🗻제4고지' 카테고리의 다른 글

step45. 계층을 모아두는 계층 (0)	2023.02.24
step44. 매개변수를 모아두는 계층 (0)	2023.02.23
step42. 선형 회귀 (0)	2023.02.18
step41. 행렬의 곱 (0)	2023.02.16
step40. 브로드캐스트 함수 (0)	2023.02.15

'DeZero/🗻제4고지' Related Articles

DonHurry

step 43. 신경망 본문

step 43. 신경망

'DeZero > 🗻제4고지' 카테고리의 다른 글

티스토리툴바