[CS231n] Lecture 2 - Image Classification

www.youtube.com/watch?v=OoUX-nOEjG0&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv&index=2

Stanford University 에서 2017년도에 강의한 CS231n를 들으며 정리, 요약했다.

2강 Image Classification 강의 요약 시작!

이미지 분류의 문제점

컴퓨터가 보는 고양이!

x, y, rgb 차원 (800 * 600 * 3)

조금만 카메라 각도를 바꾸거나,

빛의 위치가 달라지거나,

고양이가 쇼파 밑에 숨어있다면 이 픽셀 값들은 크게 바뀔 것이다.

배경이 복잡하거나 여러 마리가 뭉쳐있는 경우에도 알고리즘은 혼란을 겪을 것이다.

하지만 사람은 ms만에 사진이 고양이라는 것을 감별해낸다.

sort number와 같은 것은 명확한 algorithm 이 있는데,

이미지 분류는 위와 같이 너무나 다양한 변이가 있다는 이유로 algorithm을 만들기 힘들다.

그래서 data-driven 접근을 이용하기로 한다.

모든 사진을 input으로 받고, 그 정보를 소화한 뒤 분류를 하는 방법으로 머신러닝을 하기로 한다.

Image classification 의 예시 : CIFAR10

그럼 수많은 이미지를 비교할 때, 이 두 이미지가 같은 분류라는 것을 어떻게 알 것인가?

Distance Metric

두 이미지를 비교하는 아주 간단한 방법으로 L1 distance가 있다.

두 이미지의 차이를 구할 수 있는 아주 간단한 방법.

train에서는 input정보를 그대로 저장함

predict에서는 train image랑 가장 비슷한 class 찾음.

이렇게 하면 1개의 이미지 테스트 하는데 모든 train set이랑 비교해봐야 함. -> 시간이 많이 걸림

nearest neighbor

nearest neighbor 분류를 하면 어떤 모습인가?

space를 가까운 점들에 의존해서 색칠함 (class를 나눔)

근데 가운데가 초록색 사이에 yellow island가 생김

그리고 빨/파 사이에 fingers들이 생김

그래서 K-nearest neighbors 방법을 이용

K-nearest neighbors

K개의 가장 가까운 점들에게 투표를 받아서 공간 색을 정하는 것.

smooth 하게 decition boundary 정할 수 있다.

Distanse Metric

L1말고 L2 distance를 사용할 수도 있다.

L1은 차원의 변화에 따라 서로의 거리가 달라질 수도 있는데 L2는 그렇지 않다.

어떻게 이미지의 차이를 구할지도 생각해봐야 할 문제이다

L2와 L1비교

L1은 coordinate axis에 영향을 받고, L2는 그렇지 않다

어떤 K를 고를지, 어떤 distance를 고를지?

이런 것 들을 Hyperparameters라고 한다.

Hyperparameters

경우에 따라 매우 다르기 때문에 뭐가 더 낫다고 할 수 없다, problem과 data에 알맞게 사용해야 함

training set은 label값을 가지고 학습을 하는 set이고

val은 label에 접근을 못한 체 추론 후 label과 비교, 어느 정도 학습됐는지 보여주는 지표

Hyperparameters을 고를 때

무조건 training data가 좋게 나오는 쪽으로 사용 -> 안됨

train과 test를 나눠두고 test 값이 잘 나오는 것을 사용 -> 안됨

가지고 있는 data set에서 잘 작동하는 것이 아니라 우리의 알고리즘이 잘 작동하게 만드는 것이 목표이기 때문

새로운 data가 들어왔을 때도 잘 작동하게 돼야 함

train으로 학습을 시키고, validation set을 통해 시험을 한 뒤 best인 Hyperparameters을 고름

그다음에 test 셋에 한번 돌려본 후, 그 수치를 report에 쓰는 거임

Cross Validation

train데이터를 5개의 fold로 나눔

각각의 fold를 validation에 사용함 :

모든 데이터 셋을 train에 사용할 수 있고, 데이터 부족으로 생기는 underfitting을 막을 수 있다.

data set이 적을 때 유용하다고 함.

x축은 K값, y축은 K에 따른 정확도

여기에서 K=7 정도에서 best

하지만 K-nearest는 거의 사용되지 않는다.

단점

1. test 할 때 매우 느림

2. 픽셀들의 거리가 주는 정보가 별로 없다

눈, 코 가리거나, 약간 움직이거나, 틴트 필터를 씌웠을 때 모두 같은 L2 distance를 가진다.

또 다른 문제로는

차원이 커짐에 따라 익스포넨셜 하게 픽셀 수 가 많아짐

모든 차원을 빽빽하게 채우려면 필요한 데이터가 익스포넨셜 하게 많아짐

KNN 요약

이미지에서는 정말 잘 쓰이지 않음

Linear Classification

빌딩 블록에 비교된다고 함

레고 블럭 같은 네트워크의 예시 - 나중에 배울 예정

다시 CIFAR 10으로 돌아가서

x는 input data

W는 parameters

test time에는 x는 필요 없고 W만 필요함

x를 쭉 펴서 3072*1로 만들고 10개의 클래스 중 1개로 예측하고 싶다

그럼 10*3072가 W의 차원이 될 것이다

b는 bias이다.

예시

W는 3*4 x는 4*1

W 여기에서

주황색 부분은 cat

보라색 부분은 dog

초록색 부분은 ship을 나타낸다

위의 주황, 보라, 초록 부분처럼 W에서 각각 클래스에 해당하는 부분을 visualize 시킨 모습

문제점 : 한 클래스에 한 템플릿만 학습한다

horse를 보면 초록색 풀밭에 서있고, 머리가 2개인 말의 모습이 보임

32*32*3을 쭉 펴면 3072*1이고 이는 3072차원 위의 한 점으로 표현된다.

linear classifier은 이를 공간상으로 나누는 것

이런 경우 linear classifier로 나누는 것이 어렵다

2차원의 공간에서 blue와 red를 나눌 수 있는 하나의 선이 나오지 않는다

전통적으로 linear classifier의 문제점

예시로 말이 오른쪽을 보고 있는 경우 island랑 말이 왼쪽으로 보고있는 경우를 한 island로 분류하는 것이 힘들 수 있다

어떻게 W를 잘 학습시켰는지, W가 좋은 값인지 아닐지 알 수 있을까?

다음 시간에!

저작자표시 비영리 변경금지 (새창열림)

'KAIST MASTER📚 > CS231n' 카테고리의 다른 글

[CS231n] Lecture 5 - Convolutional Neural Networks (0)	2021.02.03
[CS231n] Lecture 4 - Introduction to Neural Networks (0)	2021.02.01
[CS231n] Lecture 3 - Loss Functions and Optimization (0)	2021.01.31

arXiv.org

[CS231n] Lecture 2 - Image Classification

이미지 분류의 문제점

Distance Metric

nearest neighbor

K-nearest neighbors

Distanse Metric

Hyperparameters

Cross Validation

KNN 요약

Linear Classification

'KAIST MASTER📚 > CS231n' 카테고리의 다른 글

댓글

티스토리툴바

[CS231n] Lecture 2 - Image Classification

이미지 분류의 문제점

Distance Metric

nearest neighbor

K-nearest neighbors

Distanse Metric

Hyperparameters

Cross Validation

KNN 요약

Linear Classification

'KAIST MASTER📚 > CS231n' 카테고리의 다른 글

관련글

댓글

티스토리툴바