티스토리 뷰

반응형

2 Related Work

Starting with LeNet-5 [10], convolutional neural networks (CNN) have typically had a standard structure – stacked convolutional layers (optionally followed by contrast normalization and maxpooling) are followed by one or more fully-connected layers.

Lenet-5를 시작으로, CNN은 표준화된 형태를 가지게 되었다. - convolutional 레이어들(때로, contrast normalization이나 맥스풀링이 붙기도 한다)에 fully-connected layer들이 붙은 형태.

 

Variants of this basic design are prevalent in the image classification literature and have yielded the best results to-date on MNIST, CIFAR and most notably on the ImageNet classification challenge [9, 21].

이 기본 디자인의 변형들은 image classification에서 잘 알려져 있고, 현재까지 MNIST나 CIFAR 그리고 ImageNet classification challenge에서 최고의 성적을 내고 있다.

 

For larger datasets such as Imagenet, the recent trend has been to increase the number of layers [12] and layer size [21, 14], while using dropout [7] to address the problem of overfitting.

Imagenet과 같은 큰 데이터셋을 위해서, 최근 트랜드는 레이어의 수, 레이어 사이즈를 늘리고, 드랍아웃을 사용해서 overfitting을 줄이는 식으로 가고 있다.

 

Despite concerns that max-pooling layers result in loss of accurate spatial information, the same convolutional network architecture as [9] has also been successfully employed for localization [9, 14], object detection [6, 14, 18, 5] and human pose estimation [19].

맥스풀링 레이어들을 사용하면 공간적 정보가 소실될거라는 걱정에도 불구하고, 동일한 convolutional network 구조가 localization, object detection, human pose estimation에 훌륭하게 적용되었다.

 

Inspired by a neuroscience model of the primate visual cortex, Serre et al. [15] use a series of fixed Gabor filters of different sizes in order to handle multiple scales, similarly to the Inception model.

포유류 시각 관련 신경과학적 모델에서 영감을 받아서, Serre et al은 여러 사이즈의 고정된 gabor 필터들을 이용해서 다중 스케일을 처리하였다. 그리고 이는 inception model과 비슷하다.

-> gabor filter? https://provbs.tistory.com/353

-> multiple scales? - 데이터가 다양한 크기 또는 해상도를 가지고 있는 것을 고려하는 것?!

 

However, contrary to the fixed 2-layer deep model of [Robust object recognition with cortex-like mechanism], all filters in the Inception model are learned. Furthermore, Inception layers are repeated many times, leading to a 22-layer deep model in the case of the GoogLeNet model.

하지만, 2개의 고정된 레이어를 가진 deep 모델인 Robust~~~mechanism에 반해서, 인셉션에 사용된 모든 필터들은 학습되어진다. 더 나아가서, 인셉션 레이어들은 여러번 반복되고, 이를 통해 22레이어를 가진 deep 모델인 GoogLeNet 모델을 형성하게 된다.

 

Network-in-Network is an approach proposed by Lin et al. [12] in order to increase the representational power of neural networks.

Network-in-Network는 Lin et al.을 통해 제시된 어프로치이며, neural network의 표현적 파워를 높이기 위해 제시되었다.

 

When applied to convolutional layers, the method could be viewed as additional 1×1 convolutional layers followed typically by the rectified linear activation [9].

Convolutional layer들에 사용될 경우, 이 방법은 추가적인 1x1 convolutional layer들이 rectified linear activation(ReLU) 뒤에 붙은것과 동일하게 볼 수 있다. (비선형성을 추구 -> 더 어려운 패턴들을 인식하기 좋아짐)

 

This enables it to be easily integrated in the current CNN pipelines. We use this approach heavily in our architecture.

이런 형태가 현재의 CNN 파이프라인에 쉽게 붙일 수 있는 이유이다. 우리는 우리의 모델 구조에서 이 어프로치를 확실하게 사용하였다.

 

However, in our setting, 1 × 1 convolutions have dual purpose: most critically, they are used mainly as dimension reduction modules to remove computational bottlenecks, that would otherwise limit the size of our networks.

하지만, 우리의 세팅에서, 1x1의 convolution은 두개의 목적이 있다. : 가장 핵심적으로는, 계산에서 오는 병목현상들을 제거하기 위해서, 차원 축소 모듈로서 사용되는 것이며, 동시에 우리 네트워크의 사이즈를 제한하는 목적으로도 쓰인다.

 

This allows for not just increasing the depth, but also the width of our networks without significant performance penalty.

이것은 깊이를 늘려주는 것 뿐만 아니라, 큰 성능에 감소 없이 넓이 또한 늘릴 수 있게 해준다.

 

The current leading approach for object detection is the Regions with Convolutional Neural Networks (R-CNN) proposed by Girshick et al. [6].

현재 object dectection의 핵심 어프로치는 Grishick et al이 제안한 R-CNN 모델이다.

 

R-CNN decomposes the overall detection problem into two subproblems: to first utilize low-level cues such as color and superpixel consistency for potential object proposals in a category-agnostic fashion, and to then use CNN classifiers to identify object categories at those locations.

R-CNN은 detection을 진행할때 두개의 sub-problems로 나눠서 진행하게 되는데, 첫째는  카테고리에 구애받지 않는 형식으로, low-level cues(색상이나, superpixel consistency)를 사용해서, 잠재적인 object 들을 식별하거나, CNN classifier들을 사용해서 해당 위치에서의 object의 카테고리를 식별해냅니다.

 

Such a two stage approach leverages the accuracy of bounding box segmentation with low-level cues, as well as the highly powerful classification power of state-of-the-art CNNs.

이런 두 스테이지를 지나는 어프로치는 low-level cues를 활용하는 bounding box segmentation의 정확도를 높일 수 있고, CNN을 활용한 강력한 classification power를 sota급으로 가질수 있다.

 

We adopted a similar pipeline in our detection submissions, but have explored enhancements in both stages, such as multi-box [5] prediction for higher object bounding box recall, and ensemble approaches for better categorization of bounding box proposals

우리는 해당 파이프라인을 우리의 detection submission들에 발전시켜서 적용시켰고, 먼저, 객체 경계 상자를 더 잘 표현하기 위해서 multi-box prediction을 사용하였고, ensemble 어프로치를 통해서 더 나은 bounding box proposal들의 categorization을 이끌어냈다.

반응형
댓글
공지사항
최근에 올라온 글