step46. Optimizer로 수행하는 매개변수 갱신

Notice

Recent Posts

Recent Comments

Link

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DonHurry

step46. Optimizer로 수행하는 매개변수 갱신 본문

DeZero/🗻제4고지

step46. Optimizer로 수행하는 매개변수 갱신

_도녁 2023. 2. 25. 00:25

📢 본 포스팅은 밑바닥부터 시작하는 딥러닝3을 기반으로 작성하였습니다. 배운 내용을 기록하고, 개인적인 공부를 위해 작성하는 포스팅입니다. 자세한 내용은 교재 구매를 강력 추천드립니다.

지금까지는 매개변수 갱신에 경사하강법을 활용했습니다. 하지만 실제 모델 학습에는 더 다양한 최적화 기법이 있고, 여러 가지를 활용할 수 있어야 합니다. 따라서 이번 단계에서 갱신하는 작업을 모듈화하겠습니다.

먼저 매개변수 갱신을 위한 기반 클래스를 마련합니다. 기본적으로 target과 hooks라는 인스턴스 변수를 초기화합니다. target은 매개변수를 갖는 클래스인 Model이나 Layer를 저장합니다. 실제적으로 매개변수 갱신은 update_one에서 실행하는데, 이는 자식 클래스에서 재정의하도록 합니다. hook은 가중치 감소(Weight Decay) 혹은 기울기 클리핑(Gradient Clipping) 같은 기법을 활용할 때 사용합니다.

class Optimizer:
    def __init__(self):
        self.target = None
        self.hooks = []
    
    def setup(self, target):
        self.target = target
        return self
    
    def update(self):
        params = [p for p in self.target.params() if p.grad is not None]
		
        # 전처리(옵션)
        for f in self.hooks:
            f(params)
        
        # 매개변수 갱신
        for param in params:
            self.update_one(param)
    
    def update_one(self, param):
        raise NotImplementedError()
    
    def add_hook(self, f):
        self.hooks.append(f)

이제 Optimizer 클래스를 상속하여 SGD 클래스를 구현해보겠습니다. SGD는 확률적경사하강법(Stochastic Gradient Descent)의 약자입니다. 여기서 확률적이란 대상 데이터 중에서 무작위로 선별한 데이터에 대해 경사하강법을 수행하는 것을 뜻합니다.

class SGD(Optimizer):
    def __init__(self, lr=0.01):
        super().__init__()
        self.lr = lr
    
    def update_one(self, param):
        param.data -= self.lr * param.grad.data

이제 이전 단계에서 풀었던 문제를 다시 풀어보겠습니다. MLP 클래스를 활용하여 모델을 생성하고, SGD 클래스로 매개변수를 갱신합니다. 이전보다 훨씬 깔끔해졌습니다.

import numpy as np
from dezero import Variable
from dezero import optimizers
import dezero.functions as F
from dezero.models import MLP


np.random.seed(0)
x = np.random.rand(100, 1)
y = np.sin(2 * np.pi * x) + np.random.rand(100, 1)

lr = 0.2
max_iter = 10000
hidden_size = 10

model = MLP((hidden_size, 1))
optimizer = optimizers.SGD(lr).setup(model)

for i in range(max_iter):
    y_pred = model(x)
    loss = F.mean_squared_error(y, y_pred)

    model.cleargrads()
    loss.backward()

    optimizer.update()
    if i % 1000 == 0:
        print(loss)

SGD 이외의 추가적인 최적화 기법은 아래 깃허브 링크를 참고해주세요.

GitHub - WegraLee/deep-learning-from-scratch-3: 『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020)

『밑바닥부터 시작하는 딥러닝 ❸』(한빛미디어, 2020). Contribute to WegraLee/deep-learning-from-scratch-3 development by creating an account on GitHub.

github.com

'DeZero > 🗻제4고지' 카테고리의 다른 글

step48. 다중 클래스 분류 (0)	2023.02.28
step47. 소프트맥스 함수와 교차 엔트로피 오차 (0)	2023.02.27
step45. 계층을 모아두는 계층 (0)	2023.02.24
step44. 매개변수를 모아두는 계층 (0)	2023.02.23
step 43. 신경망 (0)	2023.02.19

'DeZero/🗻제4고지' Related Articles

DonHurry

step46. Optimizer로 수행하는 매개변수 갱신 본문

step46. Optimizer로 수행하는 매개변수 갱신

'DeZero > 🗻제4고지' 카테고리의 다른 글

티스토리툴바