๐งโ๐ซ Lecture 9
์ด๋ฒ ์๊ฐ์ Knowledge Distillation ๊ธฐ๋ฒ์ ๋ํด์ ์ด์ผ๊ธฐ ํด๋ณผ๊น ํด์. ์ง๊ธ๊น์ง ์์ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ํด์ ์์๋ดค์ง๋ง, ์ฌ์ ํ ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ผ๋ก ๋ถ์กฑํ ์ ์ด ๋ง์ฃ . ์ฑ๋ฅ์ ๊ฐ์ ์ํค๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ ๋ํด์ ๊ณ ๋ฏผํ๋ค๊ฐ โํฌ๊ธฐ๊ฐ ํฐ ๋ชจ๋ธ์ ์ด์ฉํด๋ณด์.โ ์์ ๋์จ ์์ด๋์ด๊ฐ ๋ฐ๋ก Knowledge Distillation ์ ๋๋ค.
1. What is Knowledge Distillation?
Knowledge Distillation์ ๊ฐ๋จํ๊ฒ Teach Network๋ผ๊ณ ๋ถ๋ฆฌ๋ ํฌ๊ธฐ๊ฐ ํฐ ๋ชจ๋ธ์ด ์์ด์. ์ด Teacher Network๊ฐ ๋จผ์ Training์ ํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์ค๋์ ์ฃผ์ธ๊ณต Student Network๋ก ๋ถ๋ฆฌ๋ ํฌ๊ธฐ๊ฐ ์์ ๋ชจ๋ธ์ด ์์ฃ . ์ด ๋ชจ๋ธ์ ๋ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ํ์ต์ ํ๋๋ฐ, ์ฒซ ๋ฒ์งธ๋ ๊ธฐ์กด์ ํ์ตํ๋ ๋๋ก Target ๋ฐ์ดํฐ๋ก๋ถํฐ ํ์ต์ด ์๊ตฌ์. ๋ค๋ฅธ ํ ๊ฐ์ง๋ Teacher Network๋ฅผ ๋ฐ๋ผ๊ฐ๋ ํ์ต์ด ์์ต๋๋ค.
- The goal of knowledge distillation is to align the class probability distributions from teacher and student networks.
๊ทธ๋ผ ๊ถ๊ธํ ์ ์ด Teacher Network์ ์ด๋ค ์ ์ ๋ฐฐ์์ผํ ๊น์? ๊ฐ์์์๋ ์ด 6๊ฐ๋ก Output logit, Intermediate weight, Intermediate feature, Gradient, Sparsity pattern, Relational information์ผ๋ก ๋๋ ์ ์ค๋ช ํฉ๋๋ค. ์ค๋ช ํ๊ธฐ์ ์์์ ๊ฐ๋ ํ๋ ์๊ฐํ๊ณ ๋์ด๊ฐ๊ป์.
๋ง์ฝ ์ Teacher Network๊ฐ ํ์ตํ ๊ฒฐ๊ณผ(T=1)๋ก ๊ณ ์์ด ์ฌ์ง์ผ ํ๋ฅ 0.982, ๊ฐ์์ง ์ฌ์ง์ผ ํ๋ฅ ์ด 0.017์ด๋ผ๊ณ ํฉ์๋ค. ๊ทธ๋ผ Student Network๋ Output logit์ ํ์ตํ๋ค๊ณ ๊ฐ์ ํ๋ฉด, ์ด ๋ ํ๋ฅ ์ ๋ฐ๋ผ ๊ฐ๊ฒ๋๋ค. ํ์ง๋ง Student Network์ ๋ฐ๋ผ ์ด ์์น๊น์ง ํ์ตํ๊ธฐ ์ด๋ ค์ธ ์ ์์ต๋๋ค. ์ด ๋ โTemperature(T)โ์ด๋ผ๋ ๊ฐ๋ ์ ๋ค์ฌ์ Teacher Network์ Cat๊ณผ Dog์ ๋ํ ํ๋ฅ ์ ์ข ๋ Smoothํ๊ฒ ๋ง๋ค์ฃ .
\[ p(z_i,T) = \dfrac{exp(z_j/T)}{\sum_j exp(z_j/T)} \]
์์ผ๋ก ์ฐ๋ฉด ์์ ๊ฐ์ด ๋ ํ ๋ฐ, ๋ณดํต์ 1๋ก ๋๊ณ ํ๋ค๊ณ ๊ฐ์์์ ์ธ๊ธํฉ๋๋ค. ์ ์ค๋ช ํ๋๊ตฌ์? ํน์๋ ๊ฐ๋ ์ด ๋์ค๋ฉด ์ดํดํ์๊ธฐ ํธํ์๋ผ๊ตฌ์๐ ๊ทธ๋ผ, Teacher Network์์ ์ด๋ค ๋ถ๋ถ์ Student Network์ ํ์ต์ํฌ์ง ์์๋ณด์์ฃ .
2. What to match between Teacher and Student Network?
2.1 Output logits
์ฒซ ๋ฒ์งธ๋ Output logit์ ๋๋ค. loss๋ก๋ ๋ํ์ ์ผ๋ก Cross entropy loss์ L2 loss๊ฐ ์๊ฒ ์ฃ .
2.2 Intermediate weights
๋ ๋ฒ์งธ๋ Layer๋ง๋ค Weight์ ๋๋ค. ํ์ง๋ง Student Model์ Weight dimesion์ด ๋ค๋ฅผ ์ ๋ฐ์ ์๋๋ฐ, ๊ทธ๋ผ Linear Transformation์ ์ด์ฉํด์ Dimension์ ๋ง์ถฐ ํ์ตํ๋ฉด ๋๊ฒ ๋ค์.
์คํฐ๋ ์ค์ ๋์จ ์ง๋ฌธ์ด โ๊ทธ๋ผ Student Network์์ ์ถ๊ฐ์ ์ธ ๋ ์ด์ด๊ฐ ์๊ธฐ๋๋ฐ, ์๊ฒ ๋ง๋๋ ์๋ฏธ๊ฐ ์์ง ์๋๋?โ ์์ต๋๋ค. ์ ์๊ฐ์ Weight Dimension์ ๋ง์ถ๊ธฐ ์ํ Linear Transformation์ ์ํ ๋ ์ด์ด๋ ์ถ๋ก ์ ์ฌ์ฉํ์ง ์์ ์ ์์ผ๋, Student Network์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ๋ ์ ๊ฒฉ์๋๊น์? ๋ง์น ์ถ๋ก ๋ ํ์ํ ๋ถํ๋ง ์กฐ๋ฆฝํ๋ฏ ๋ง์ด์ฃ .
2.3 Intermediate features
์ธ ๋ฒ์งธ๋ Feature ์ ๋๋ค. ์ด์ ๊ฒฝ์ฐ๊ฐ Weight๋ผ๊ณ ํ๋ฉด, ์ด๋ฒ์ Layer์ Output์ ๋๋ค. Teach Network๊ณผ Student Network์ Feature๋ฅผ ๊ฐ๊ฒ ํ์ต์ํค๋ ๋ฐฉ๋ฒ์ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์๋๋ฐ, ์ฌ๊ธฐ์๋ Cosine of angle๋ก ํ์ต์ ์ํค๋ ๋ฐฉ๋ฒ(Like What You Like: Knowledge Distill via Neuron Selectivity Transfer [Huang and Wang, arXiv 2017]) ๊ณผ Dimension์ ์ค์ฌ์ ํ์ต์ ์ํค๋ ๋ฐฉ๋ฒ(Paraphrasing Complex Network: Network Compression via Factor Transfer [Kim et al., NeurIPS 2018])์ ์๊ฐํฉ๋๋ค.
- The paraphraser shrinks the output teacher feature map from m dimensions to m x k dimensions (called factor typically k=0.5) and then expands the dimensionality back to m.
- The output of paraphraser is supervised with a reconstruction loss against the original m-dimensional output.
- Student uses one layer of MLP to obtain a factor with the same dimensionality of m x k.
- FT minimizes the distance between teacher and student factors.
2.4 Gradients
๋ค ๋ฒ์งธ๋ Gradient ์ ๋๋ค. Gradient๋ฅผ ์๊ฐ์ ์ผ๋ก ๋ณผ ์ ์๋ ๋ฐฉ๋ฒ์๋ Attention Map์ด ์๋๋ฐ์, ์ด Attention Map์ ์ด๋ฏธ์ง์์ ํน์ง์ ์ธ ๋ถ๋ถ์ ์ก์๋ผ ์ ์์ฃ .
- Reference: Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer [Zagoruyko and Komodakis, ICLR 2017]
- Gradients of feature maps are used to characterize attention of DNNs
- The attention of a CNN feature map \(x\) is defined as \(\dfrac{\partial L}{\partial x}\), where \(L\) is the learning objective.
- Intuition: If \(\dfrac{\partial L}{\partial x_{i,j}}\) is large, a small perturbation at \(i,j\) will significantly impact the final output. As a result, the network is putting more attention on position \(i, j\)
์๋ ๊ทธ๋ฆผ์ โAttention Map์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋๋ค๋ฉด ๋น์ทํ ํจํด์ผ๋ก ๋์จ๋ค.โ ๋ ์์๋ก ๋์ต๋๋ค. Resnet34์ ResNet101์ Attention Map์ ์ ์ฌํ๊ฒ ๋ณด์ด๋ ๋ฐ๋ฉด NIN์ธ ๊ฒฝ์ฐ๋ ๋ง์ด ๋ค๋ฅธ ๊ฒ์ ํ์ธ ํ ์ ์์ต๋๋ค.
Performant models have similar attention maps
Attention makes of performant ImageNet models (ResNets) are indeed similar to each other, but the less performant model(NIN) has quite different attention maps
2.5 Sparsity patterns
๋ค์ฏ ๋ฒ์งธ๋ Sparsity Pattern ์ ๋๋ค. Layer๋ง๋ค Output Acitivation์ ๊ฐ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ธ๋ฐ, Intermediate Feature์ ์ ์ฌํ๊ฒ ๋ณด์ด๋ค์.
Intuition: the teacher and student networks should have similar sparsity patterns after the ReLU activation. A neuron is activated after ReLU if its value is larger than 0, denoted by the indicator function \(\rho(x) = 1 [x>0]\).
We want to minimize \(\mathscr{L}(I) = \lvert\lvert \rho(T(I))-\rho(S(I)) \lvert\lvert_1\), where \(S\) and \(T\) corresponds to student and teacher networks, respectively
2.6.1 Relational information: Different Layers
๋ง์ง๋ง์ผ๋ก ๋ชจ๋ธ๋ด์์ ๋์ค๋ ํ ์์ ์ํธ ์ฐ๊ด์ฑ์ ๋ํด์๋ ๊ฐ๊ฒ ํ ์ ์๋ค๋ ๋ฐฉ๋ฒ ๋ ๊ฐ์ง๊ฐ ๋์ต๋๋ค. ์ฒซ ๋ฒ์งธ๋ ๊ฐ ๋ ์ด์ด์ ์ ๋ ฅ, ์ถ๋ ฅ ํ ์๋ฅผ Inner product ํ๊ฒ ๋๋ฉด ํ๋์ Matrix๋ฅผ ์ป์ ์ ์๋๋ฐ, ์ด Matrix๋ฅผ ๊ฐ๊ฒ ํ์ต์ํจ๋ค๋ ์์ด๋์ด์ฃ .
Use inner product to extract relational information (a matrix of shape \(C_{in} \times C_{out}\), reduction on the spatial dimensions) for both student and teacher networks. *Note: the student and teacher networks only differ in number of layers, not number of channels
Then match the resulting dot products between teacher and student networks \((G_1^T, G_1^S)\)
2.6.1 Relational information: Different Samples
๋ ๋ฒ์งธ๋ ์ด์ ๊น์ง ์ ํฌ๋ ํ์ต๋ฐ์ดํฐ ํ๋ํ๋๋ง๋ค ๋์ค๋ ๊ฒฐ๊ณผ๋ฅผ Teach์ Student๋ฅผ ๊ฐ๊ฒ๋ ํ์ต์์ผฐ๋๋ฐ, ์ด๋ฒ์ ์ฌ๋ฌ ํ์ต๋ฐ์ดํฐ์์ ๋์จ ์ฌ๋ฌ Output์ ํ๋์ Matrix ํํ๋ก ๋ฎ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- Conventional KD focuses on matching features / logins for one input. Relation KD looks at the relations between intermediate features from multiple inputs.
Relation between different samples
์ง๊ธ๊น์ง Student Network๊ฐ Teacher Network์ ์ด๋ค Output์ ๊ฐ์ง๊ณ ํ์ต์ํฌ์ง์ ๋ํด์ ์์๋ดค์ต๋๋ค. ๊ทธ๋ฐ๋ฐ ์ ํฌ๊ฐ TinyML์ ํ๋ ๋ชฉ์ ์ ์ฌ์ค โ๋ ์์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํด๋ณด์.โ ์ด์ง ์์๋์? ์ฆ, Teacher Network์์ด Student Network๋ง์ผ๋ก๋ ํ ์ ์๋ ๋ฐฉ๋ฒ์ด ์์๊น์? ์ด๋ฐ ์๊ฐ์์ ๋์จ ์์ด๋์ด๊ฐ Self and Online Distillation ์ ๋๋ค.
3. Self and Online Distillation
- What is the disadvantage of fixed large teachers? Does it have to be the case that we need a fixed large teacher in KD?
3.1 Self Distillation
์ฒซ ๋ฒ์งธ Self Distillation์ ๊ตฌ์กฐ๊ฐ ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ๊ณ์ํด์ ๋ณต์ฌํด ๋๊ฐ๋๋ค. ๊ทธ๋ฌ๋ฉด์ ์ด์ ์ ํ์ตํ ๋คํธ์ํฌ๋ก ๋ถํฐ๋ ๋ณต์ฌ๋ ๋คํธ์ํฌ๊ฐ ํ์ตํ ์ ์๋๋ก ํ๋ฉฐ, k๊ฐ ๋งํผ ๋ณต์ฌํ๋ฉฐ ํ์ตํ ํ์ ์ต์ข Output์ผ๋ก๋ ๋ณต์ฌํ ๋คํธ์ํฌ๋ค์ Output์ Ensembleํ ๊ฒฐ๊ณผ๋ฅผ ์ด์ฉํ์ฃ . ์ฌ๊ธฐ์ Accuracy๋ k๋ฒ์งธ๋ก ๊ฐ์๋ก ๋์ด๋๊ฒ ์ฃ ?
Born-Again Networks generalizes defensive distillation by adding iterative training states and using both classification objective and distillation objective in subsequent stages.
Network architecture \(T = S_1=S_2=\dots=S_k\)
Network accuracy \(T < S_1 < S_2 < \dots < S_k\)
Can alteratively ensemble \(T,S_1, S_2, \dots, S_k\) to get even better performance
3.2 Online Distillation
๋ ๋ฒ์งธ๋ Online Distillation์ธ๋ฐ, ์ฌ๊ธฐ ์์ด๋์ด๋ โ๊ฐ์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ฐ์.โ ์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ Teacher network๊ณผ Student network๋ ์ฒ์๋ถํ ๊ฐ์ด ํ์ตํ๋๋ฐ, Loss์ ํ ๊ฐ์ง ํญ์ด ์ถ๊ฐ๋์ฃ . ๋ฐ๋ก โKL Divergenceโ ์ ๋๋ค.
Idea: for both teach and student networks, we want to add a distillation objective that minimizes the output distribution of the other party.
\(\mathscr{L}(S) = CrossEntropy(S(I), y)+KL(S(I), T(I))\)
\(\mathscr{L}(T) = CrossEntropy(T(I), y)+KL(S(I), T(I))\)
It is not necessary to retrain \(T\) and \(S=T\) is allowed
3.3 Combined Distillation
๋ง์ง๋ง์ Self ์ Online Distillation์ ํฉ์น ์ฐ๊ตฌ๋ค์ ์๊ฐํ ๊ฒ์.
์ฒซ ๋ฒ์งธ๋ On-the-Fly Native Ensemble ์ ๋๋ค. ๊ตฌ์กฐ๋ฅผ ๋ณด์๋ฉด Branch ๋ง๋ค ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๋์ผํ๊ฒ Branch 0, Branch 1, โฆ , Branch m ์ผ๋ก ๋๋๋ ๊ฒ Self Distillation๋ฅผ ๋ณด๋ ๋ฏํ์ฃ . ๊ทธ๋ฆฌ๊ณ ๊ฐ Branch๋ฅผ ํ์ต์ ๋์์ ์งํํ๋ ๊ฒ์ผ๋ก ๋ณด์ด๋ค์.
Idea: generating multiple output probability distributions and ensemble them as the target distribution for knowledge distillation.
Similar to DML(Deep Mutual Learning), ONE allows the teacher model to be exactly the same as the student model, and it does not require retraining the teach network first. It is also not necessary to train two models as in DML.
Result
๋ ๋ฒ์งธ ์ฐ๊ตฌ๋ Be Your Own Teacher ๋ผ๋ ์ฐ๊ตฌ์ธ๋ฐ, ์ฌ๊ธฐ์๋ ๊ฐ ๋ ์ด์ด๋ง๋ค ๋์จ Feature map์ ์ถ๊ฐ์ ์ธ ๋ ์ด์ด๋ฅผ ๋ถ์ฌ์ Self Distillation์ ๋ฐฉ๋ฒ์ ์ด์ฉํฉ๋๋ค. Loss๋ก๋ Cross entropy(Output Logit), ์ถ๊ฐ์ ์ผ๋ก ๋ถ์ฌ์ ๋ง๋ ๊ฐ ๋ชจ๋ธ๋ง๋ค KL Divergence, ๊ทธ๋ฆฌ๊ณ intermediate feature๋ฅผ ์ฌ์ฉํ๋ค์. ํฅ๋ฏธ๋ก์ ๋ ์ ์ ์ฒซ ๋ฒ์งธ, ๋ ๋ฒ์งธ ๋ ์ด์ด์์๋ ์ฑ๋ฅ์ด ๊ฑฐ์ ๋์ค์ง ์์ ๊ฒ ๊ฐ์๋๋ฐ ๋ ๋ฒ์งธ ๋ ์ด์ด๋ถํฐ๋ Ensemble๊น์ง ์ด๋์ ๋ ์ฑ๋ฅ์ด ๋์ค๋ ๊ฒ์ ๊ฒฐ๊ณผ์์ ๋ณผ ์ ์์ด์.
Use deeper layers to distill shallower layers.
Intuition: Labels at later stages are more reliable, so the authors use them to supervise the predictions from the previous stages.
Result
4. Distillation for different tasks
์ด๋ ๊ฒ ์์๋ณธ Knowledge Distillation์ ์ด๋ค Application์ ์ฌ์ฉ๋ ์ ์์๊น์? ๊ฐ์๋ Object Detection, Semantic Segmentation, GAN, Transformer ๋ชจ๋ธ๋ก ๋๋ ์ ์ด์ผ๊ธฐํฉ๋๋ค. ๊ฐ ๋ถ๋ถ๋ง๋ค ์ด๋ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋์ง ํน์ ์ด๋ค ์์ด๋์ด๋ฅผ ์ฌ์ฉํ๋์ง๋ง ์ง๊ณ ๋์ด๊ฐ๋ณผ๊ฒ์(์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ์กฐ!).
4.1 Object Detection
Object Detection์ ์ธ ๊ฐ์ง๋ก ํด๊ฒฐํด์ผํ ๋ฌธ์ ๊ฐ ๋์ด๋ฌ์ต๋๋ค. ํ๋๋ Classification, ๊ทธ๋์ ํด์๋ ๋ถ๋ถ์ด๊ตฌ์, ๋ค๋ฅธ ๋ ๊ฐ๋ Background์ Foreground์ ๊ตฌ๋ถํ๋ ๊ฒ๊ณผ Bounding block ๋ฌธ์ ์ ๋๋ค.
์ด ์ฐ๊ตฌ๋ Classifcation๊ณผ Background, Foreground ๋ฌธ์ ๋ฅผ ์ํด ์ธ ๊ฐ์ง Loss๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ๋๋ Feature, ๊ทธ๋ฆฌ๊ณ Output Logit์์ Background, Foreground๋ฅผ ๊ฐ๊ฐ ๋ค๋ฅธ Weight๋ฅผ ์ค Cross Entropy, ๋ง์ง๋ง์ Bounded ํ Regression Loss ์ ๋๋ค.
๊ทธ๋ผ Bounding block ์ ์ด๋ป๊ฒ ํด๊ฒฐํ ๊น์? ์ด ๋ ผ๋ฌธ์์๋ X์ถ๊ณผ Y์ถ์ผ๋ก 6๊ฐ๋ก ๋๋ ์ง ๊ตฌ์ญ์์ ๋ ์ ์ผ๋ก bounding block์ ์ก์ต๋๋ค. ์ด๋ ๊ฒ ์ก์ Bounding block์ ๋ถํฌ๋ฅผ Student Network๊ฐ ํ์ตํ๋ ๊ฒ๋๋ค.
4.2 Semantic Segmentation
๋ ๋ฒ์งธ Task์ธ Semantic Segmentation์์๋ Feature์ Output Logit์์ Pixel ๋จ์๋ก Loss๋ฅผ ๊ตฌํ ๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ Discriminator ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ํ์ต์ ์ํจ๋ค๋ ์ ์ด ๋ํด์ก์ต๋๋ค.
4.3 GAN
์ธ๋ฒ์งธ Task๋ GAN ์ ๋๋ค. ๋งค Task ๋ง๋ค feature map์ KD-loss๋ก ๊ฐ์ ธ๊ฐ๊ณ ๊ธฐ์กด์ Output Logit์ ๋์ผํ๊ฒ ๊ฐ์ ธ๊ฐ๋ค์. ์ถ๊ฐ๋ก ํด๋น ์ฐ๊ตฌ์์๋ ๊ฐ ๋ ์ด์ด๋ง๋ค ์ฑ๋ ์ ์ค ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์ ์ผ์ด์ค์ ํํด Fine-Tuning์ ์งํํ๋ค๋ ์ ์ด ์์ต๋๋ค.
4.4 Transformer
๋ง์ง๋ง์ Transformer ๋ชจ๋ธ์์ Knowledge Distillation ์ ๋๋ค. Transformer๋ Feature Map, Attention Map์ ์ ๋ณผ ์๊ฐ ์๋๋ฐ์, ์๋ ๊ทธ๋ฆผ์์ ๋ณด๋ฉด attention transfer๋ฅผ ํ๊ณ ํ์ง ์์ ๊ฒฝ์ฐํ๊ณ ํ์คํ Teacher์ Attention map๊ฐ ๋น๊ต๊ฐ ๋๋ค์.
5. Network Augmentation, a training technique for tiny machine learning models.
์ง๊ธ๊น์ง Task์ ๋ํด์ ์ดํด๋ดค๋๋ฐ์, ๊ทธ๋ผ Tiny Model๋ overfitting ๋ฌธ์ ๊ฐ ์์ง ์์๊น์? ๊ทธ๋ ์ overfitting์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ์๋ Data Augmentation์ด ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ ์ฒ๋ผ Cutoff, Mixup, AutoAugment, Dropout๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ๋ค์ด ์์ต๋๋ค.
ํ์ง๋ง Data Augmentation์ ์ ์ฉํ Tiny Model์ ์ฑ๋ฅ์ ๋ณด์๋ฉด ์ ์ฉํ๋ ๋ฐฉ๋ฒ๋ง๋ค ๋จ์ด์ง๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๊ทธ๋์ ์ฌ๊ธฐ์ ์ ์ํ ์์ด๋์ด๊ฐ โNetwork Augmentationโ ์ ๋๋ค.
- Tiny Neural Network lacks capacity! โ NetAug
5.2 Network Augmentation
Network Augmentation์ ๊ธฐ์กด์ ๋์์ธํ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ํ์ต์ ์ํจ ํ, ์ ๋ชจ๋ธ๊ณผ ๊ฐ ๋ ์ด์ด๋ง๋ค ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณ๊ฒฝํ ๋ชจ๋ธ์ ํจ๊ป ์ฌํ์ต์ ์ํค๋ ๋ฐฉ๋ฒ์ ๋๋ค. ํ๋ผ๋ฏธํฐ๋ฅผ ๋ณ๊ฒฝํ๋ ๋ชจ๋ธ๊ฐ์ ๊ฒฝ์ฐ ์ด์ ์๊ฐ ์ค์ต์ ์์ผ๋ ๊ถ๊ธํ์๋ฉด ์ฐธ๊ณ ํด์ฃผ์ธ์. ์คํ๊ฒฐ๊ณผ๋ 1.3 ~ 1.8 % Tiny ๋ชจ๋ธ์ด ์ฑ๋ฅ ๊ฐ์ ์ด ์ด๋ค์ง ๊ฒ์ ๋ณผ ์ ์์ด์. ์ฌ๊ธฐ์ ์ ๋ชจ๋ธ(ResNet50)์ด Evaluation์์๋ ์ด๋ฏธ ๊ฐ์ง ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ์ถฉ๋ถํ ํ๋ จ์์ผฐ๊ธฐ ๋๋ฌธ์ ๋์ด์ ๋์ด๋์ง ์๋ ๊ฒ๋ ํ์ธํ ์ ์๊ฒ ๋ค์.
Training Process
\[ \mathscr{L}_{aug} = \mathscr{L}(W_{base}) + \alpha \mathscr{L}([W_{base}, W_{aug}]) \]
- \(\mathscr{L}_{aug}\) = base supervision + \(\alpha \cdot\)auxiliary supervision
Learning Curve
Result
Result for Transfer Learning
์ง๊ธ๊น์ง Knowledge Distilation์ ๊ธฐ๋ฒ๋ค ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ด์ฉํ Appllcation์ ๋ํด์ ๋ค๋ค๋ดค์ต๋๋ค. ๋ค์ ์๊ฐ์๋ TinyEngine์ ์ํ ์ต์ ํ ๊ธฐ๋ฒ์ผ๋ก ๋ค์ ์ฐพ์์ฌ๊ฒ์ ๐