Lecture 4

lecture 3 복습

softmax function 은 무엇인가

linear classification

output 큰 것을 그냥 쓸수있는데 unbound 되어있다.

그냥 큰것을 고르는것보다 확률적으로 해석하기 위해 사용한다.

loss function 은 무엇인가?

quantify how good or bad this prediction

optimization

loss 를 줄이는 방향으로 현재 시점에서 모든 파라미터 미분을 하면서 내려가는 부분

왜 완벽하지 않은가?

full gradient descent

local minimum 빠질 가능성이 있다 convex 하지 않다 복잡

미분 안되는 부분이 있을 경우가 있다.

느리다. -> minibatch stochastic gradient descent

K-fold cross validation

k개의 폴더로 만들고, k-1 학습 1개로 test

test set 을 하나로 고정하면 안되기에 여러개 하고 평균

본인의 domain knowledge 를 잘알아야함

Neural Network

Perceptron

input -> weight -> y

x -> 얼마나 중요한가 ->activation function –> y

multiple perceptrons

multilayer perceptron

activation function 이 있기에 non linearity 가 생김