티스토리 뷰
1 Introduction
In the last three years, mainly due to the advances of deep learning, more concretely convolutional networks [10], the quality of image recognition and object detection has been progressing at a dramatic pace.
저번 3년 동안, 딥러닝(convolutional networks)의 발전과 함께, image recognition과 obejct detection의 퀄리티가 빠르게 상승하고 있다.
One encouraging news is that most of this progress is not just the result of more powerful hardware, larger datasets and bigger models, but mainly a consequence of new ideas, algorithms and improved network architectures.
한가지 좋은 소식은, 이 좋은 결과들이 단순히 하드웨워 혹은 더 큰 데이터셋과 더 큰 모델들의 발전 때문이 아니라, 주로 새로운 아이디어들, 알고리즘들, 그리고 네트워크 구조의 개선에서 왔다는 것이다.
No new data sources were used, for example, by the top entries in the ILSVRC 2014 competition besides the classification dataset of the same competition for detection purposes.
ILSVRC 2014 대회의 top entries들은 해당 대회의 classification dataset 외의 다른 새로운 데이터셋을 사용하지 않았다.
Our GoogLeNet submission to ILSVRC 2014 actually uses 12× fewer parameters than the winning architecture of Krizhevsky et al [9] from two years ago, while being significantly more accurate.
우리의 ILSVRC 2014 제출물인 GoogLeNet은, 2년전에 우승한 Krizhevsky et al의 구조보다 12배 더 적은 parameter들을 가지고 있으면서도, 더 정확한 결과물을 냈다.
The biggest gains in object-detection have not come from the utilization of deep networks alone or bigger models, but from the synergy of deep architectures and classical computer vision, like the R-CNN algorithm by Girshick et al [6].
object-dectection의 가장 큰 발전은 깊은 레이어를 사용한 deep network의 사용, 혹은 더 큰 모델의 사용 하나만에서 온것이 아닌, 깊은 네트워크 구조와 R-CNN 알고리즘과 같은 classical computer vision의 시너지에서 왔다.
Another notable factor is that with the ongoing traction of mobile and embedded computing, the efficiency of our algorithms – especially their power and memory use – gains importance.
다른 눈에 보이는 부분은 mobile과 embedded computing의 추세와 함께, 우리의 알고리즘의 효율성, 특히나 파워와 메모리 사용량에 있어서 중요성이 있다.
It is noteworthy that the considerations leading to the design of the deep architecture presented in this paper included this factor rather than having a sheer fixation on accuracy numbers.
주목할만한것은, 해당 논문에 소개된 심층 구조를 디자인할때, 정확도라는 숫자에 집착하지 않고, 이런 효율성과 같은 부분도 고려했다는 것이다.
For most of the experiments, the models were designed to keep a computational budget of 1.5 billion multiply-adds at inference time, so that the they do not end up to be a purely academic curiosity, but could be put to real world use, even on large datasets, at a reasonable cost.
대부분의 실험들에서, 모델들은 inference time에 15억개의 곱셈-덧셈 연산을 가지도록 설계되는 것이 일반적인데, 이는 학문적인 부분뿐만아니라, 더 큰 데이터셋에서도 실제 환경에서도 사용할 수 있는 합리적인 cost로 설계하기 위함입니다.
In this paper, we will focus on an efficient deep neural network architecture for computer vision, codenamed Inception, which derives its name from the Network in network paper by Lin et al [12] in conjunction with the famous “we need to go deeper” internet meme [1].
해당 논문에서, 우리는 컴퓨터 비전 분야에서 효율적인 deep neural network 구조인 codename "inception"(Lin et al의 network paper 중 we need to go deeper 라는 인터넷 밈에서 따옴)에 집중할 것이다.
In our case, the word “deep” is used in two different meanings: first of all, in the sense that we introduce a new level of organization in the form of the “Inception module” and also in the more direct sense of increased network depth.
우리의 경우, "deep"이라는 단어는 두가지 의미로 사용된다. 첫째로, 우리가 "inception module"이라는 형태의 새로운 레벨의 구조를 소개했을 뿐만 아니라, 직관적인 의미로 네트워크의 깊이 자체를 더 깊게 만들었음을 의미한다.
In general, one can view the Inception model as a logical culmination of "network of network" while taking inspiration and guidance from the theoretical work by Arora et al [2].
대체적으로, 누군가는 inception model을 network of network 논문의 논리적 결론이라고 볼 수 있겠지만, 누군가는 Arora et al의 연구에서 영감과 지침을 받았다고 볼 수도 있다.
The benefits of the architecture are experimentally verified on the ILSVRC 2014 classification and detection challenges, on which it significantly outperforms the current state of the art.
해당 구조의 장점은 ILSVRC 2014 classification and detection에서 실험적으로 증명되었으며, 현재의 sota를 확실하게 재꼈다.