Lecture 3
Loss Functions & Optimization
limitations of Linear Classifier
Score 값의 뜻이 애매함
어느정도 되야 이 class 인건지 헷갈림
그래서 0~1 확률처럼 포함하길 원함
Sigmoid Function
input 이 커질수록 1 작아질수록 0
Softmax Classifier
확률이라고 할 수 는있다.
softmax function
W 를 구하고 score를 구해서 soft max function
W 는 어떻게 찾는가?
W 를 랜덤하게 해놓음
training data x 로 y 를 예측함
y 예측값과 y 정답을 비교해서 틀린 거를 확인 loss functions
해서 W 업데이트 optimization
Loss Function
얼마나 잘하고 있는지 점수를 매겨주는것
prediction y , ground truth y
둘이 가까울수록 loss 가 낮아져야함
둘이 멀어질수록 loss 가 올라감
Log loss
미분 안되는점이 중요한 점도 있고 아닌점도 잇는데 hinge loss 는 괜찮
데이터가 많이 틀렸을땐 exponential loss 안좋음
전통적인 머신러닝에서 loss function 을 많이 배움
Cross entropy
loss function + optimization
loss function 이 가장 낮은 점을 찾아야함.
미분 해서 내려옴
gardient discent
learning rate 알파
stochastic gradient descent
minibatch 적당히 크면 데이터셋을 몇문제 풀어보고 optimize
noise curve 가 나오는 이유?
mini batch 를 사용하면 training loss 가 떨어지긴 해도 노이지생김
mini batch 를 쓰지 않으면 시간이 오래 걸림
early stopping 을 잘해야함 노이즈 하기때문에
evaluation
test data 는 한번할때 까지 절대 사용 금지 overfitting test 는 객관적으로 해야함.