Lecture 3

Loss Functions & Optimization

limitations of Linear Classifier

Score 값의 뜻이 애매함

어느정도 되야 이 class 인건지 헷갈림

그래서 0~1 확률처럼 포함하길 원함

Sigmoid Function

input 이 커질수록 1 작아질수록 0

Softmax Classifier

확률이라고 할 수 는있다.

softmax function

W 를 구하고 score를 구해서 soft max function

W 는 어떻게 찾는가?

W 를 랜덤하게 해놓음

training data x 로 y 를 예측함

y 예측값과 y 정답을 비교해서 틀린 거를 확인 loss functions

해서 W 업데이트 optimization

Loss Function

얼마나 잘하고 있는지 점수를 매겨주는것

prediction y , ground truth y

둘이 가까울수록 loss 가 낮아져야함

둘이 멀어질수록 loss 가 올라감

Log loss

미분 안되는점이 중요한 점도 있고 아닌점도 잇는데 hinge loss 는 괜찮

데이터가 많이 틀렸을땐 exponential loss 안좋음

전통적인 머신러닝에서 loss function 을 많이 배움

Cross entropy

loss function + optimization

loss function 이 가장 낮은 점을 찾아야함.

미분 해서 내려옴

gardient discent

learning rate 알파

stochastic gradient descent

minibatch 적당히 크면 데이터셋을 몇문제 풀어보고 optimize

noise curve 가 나오는 이유?

mini batch 를 사용하면 training loss 가 떨어지긴 해도 노이지생김

mini batch 를 쓰지 않으면 시간이 오래 걸림

early stopping 을 잘해야함 노이즈 하기때문에

evaluation

test data 는 한번할때 까지 절대 사용 금지 overfitting test 는 객관적으로 해야함.