본문 바로가기

AI

cs231n Deep Learning for Computer Vision 1.Introduction

파편적으로 공부해온 것들이 정리가 안되는 측면이 있어서, stanford의 computer vision강의를 듣기 시작하였습니다.

아무래도 이미 배웠던 내용들이라 이해가 잘 되는 편이었기에 해외의 유명 대학에선 어떻게 강의를 하는지 궁금증이 같이 해결되는 것 같습니다.

이는 유튜브에 올라와있고 2017년 버전이 유명한거 같네요.

개인 공부를 위해 정리한 내용입니다.

 

 

 

 

 

 

 

 

 

과거 생물체 개체수 갑자기 증가 ⇒ eye 때문이라는 연구?  (그만큼 시각의 중요성)

 

어떻게 시각적 이미지를 인식하는지?에 대한 많은 연구가 진행됨. 다만 어려움.

물체인식이 어렵다면 image segmentation부터 하자.

 

1990년대 : SVM, boost, graphical model..

 

혁신적 변화의 시작 - ImageNet(2009) : 22K categories, 14M images ⇒ Benchmark

 2012년(CNN based) ⇒ 인간과 동등 수준으로 이미지 분류.

 2012 AlexNet Layer8

 2014 GoogleNet layer22

 2014 VGG Layer19

 2015 ResNet Layer152

 

다만 1998에 (이미 2012에 큰 성과를 낸) CNN 구조 있었음(by LeCun)

Q) 왜 옛날엔 안됬는지?

=> 컴퓨팅 증가(무어의 법칙), GPU, Data(labeled)

 

 

여전히 아직 발전하고 연구할게 많다. 이유는, 우리가 세계여행을 한다고 가정하면 우리는 물체 인식만 하지 않는다. 이미지를 보고 그 사람이 무슨 행동을 하는지 알 수 있으며, 또한 2D를 봐도 3D로 인식한다. 다른 예시로는 0.5초만 아래 사진을 보여줘도 많은것들을 설명하게 할 수 있다. (예를 들면, 오바마 대통령이라는 이미지의 사람이 앞의 몸무게를 재고 있는 사람의 체중계에 발을 올려 더 나오게 만들고 있으며 뒤에는 웃고있고 등..)