Lecture 4
lecture 3 복습
softmax function 은 무엇인가
linear classification
output 큰 것을 그냥 쓸수있는데 unbound 되어있다.
그냥 큰것을 고르는것보다 확률적으로 해석하기 위해 사용한다.
loss function 은 무엇인가?
quantify how good or bad this prediction
optimization
loss 를 줄이는 방향으로 현재 시점에서 모든 파라미터 미분을 하면서 내려가는 부분
왜 완벽하지 않은가?
full gradient descent
local minimum 빠질 가능성이 있다 convex 하지 않다 복잡
미분 안되는 부분이 있을 경우가 있다.
느리다. -> minibatch stochastic gradient descent
K-fold cross validation
k개의 폴더로 만들고, k-1 학습 1개로 test
test set 을 하나로 고정하면 안되기에 여러개 하고 평균
본인의 domain knowledge 를 잘알아야함
Neural Network
Perceptron
input -> weight -> y
x -> 얼마나 중요한가 ->activation function –> y
multiple perceptrons
multilayer perceptron
activation function 이 있기에 non linearity 가 생김