Table of Contents
1. Introduction
2. Grad-CAM
1. Introduction
Grad-CAM์ Gradient-weighted Class Activation Mapping์ ์ฝ์๋ก, CNN์ ํตํด ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ ๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋๋ค์ ๊ทธ ๊ณผ์ ์ ๋ณผ ์ ์์ง๋ง, Grad-CAM์ ํ์ฉํ๋ฉด CNN์ ํ๋ ๊ณผ์ ์ ๋์ฑ ๋ช ๋ฐฑํ๊ณ ์์ธํ๊ฒ ์ ์ ์๋ค. Grad-CAM์ ์ด์ ์ ๋ชจ๋ธ๋ค๊ณผ ๋ฌ๋ฆฌ ์๋ฌด๋ฐ ๊ตฌ์กฐ์ ๋ณํ์ ์ฌํ์ต ์์ด CNN์ ๋ค์ํ ๋ชจ๋ธ๋ค์ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค!!
์ด ๋ ผ๋ฌธ์์๋ Grad-CAM๊ณผ fine-grained visualization์ ๊ฒฐํฉํ์ฌ high-resolution class-discriminative visulaization์ ํ ์ ์์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฅผ ์ด์ฉํด ์ด๋ฏธ์ง ๋ถ๋ฅ, ์ด๋ฏธ์ง captioning๊ณผ VQA์ ๋ชจ๋ธ๋ค์ ์ ์ฉํ์๋ค.
CNN์ด ์ธ์์ ๋์ด์ผ๋ก์จ ์๋ง์ ์ฑ๊ณผ๋ค์ ์ด๋ฃฐ ์ ์์์ง๋ง, ์ด๋ค์ decomposability๋ CNN์ ํด์ํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ค์๋ค. ์์ผ๋ก์ ์ธ๊ณต์ง๋ฅ์ ๋ฐ์ ์ ์ํด ์ฌ๋๋ค์ ์ด๋ ํ ์ด์ ๋ก ๋จธ์ ์ด ์ด๋ฌํ ์์ธก์ ๋ด๋์๋์ง ํ์ ํ ์ ์๋ 'ํฌ๋ช ํ' ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋ค. CAM์ด fully-connected layer์ ํฌํจํ์ง ์๋ CNN์ ์ ํ๋ ๋ถ๋ถ๋ง์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ํน๋ณํ๋ ์์ญ์ ์ฐพ์ ์ ์์๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ด๋ฌํ CAM์ ์ผ๋ฐํ์ํจ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ์กฐ์ ์ธ ๋ณํ๋ฅผ ์ฃผ์ง ์์์ผ๋ก์จ ๊ฐ๋ ์ฑ๊ณผ ์ฑ๋ฅ์ trade-off๋ฅผ ํผํ ์ ์์๋ค.
๋ฌด์์ด ์ข์ image visualization์ ํ๊ฒ ๋ง๋ค์์๊น?
์ข์ visualiztion์ class-discriminativeํ๊ณ high-resolution์์ ์๋ฏธํ๋ค.
์์ ๊ทธ๋ฆผ1์์ Guided Backpropagation๊ณผ Deconvolution๊ณผ ๊ฐ์ pixel-space gradient visualizations๋ฅผ ์ ์ฉํ์ ๋์ ๊ฒฐ๊ณผ๋ b์ h์ด๋ค. (์ด ๋์ ๋น์ทํ ๋ชจ์ต์ ๋ณด์ฌ์ค๋ค) ์ด๋ค์ high-resolutionํ๊ณ fine-grained details๋ฅผ ๊ฐ์กฐํด์ฃผ์ง๋ง, class-discriminative ํ์ง๋ ์๋ค.
์ด์๋ ๋ฐ๋๋ก CAM๊ณผ Grad-CAM ๊ฐ์ localization approach๋ ์์ฃผ ์ ํํ class-discriminative ํ๋ค. (c๋ฅผ ๋ณด๋ฉด '๊ณ ์์ด'์ ๋ํด์๋ ์ ๊ฐ์กฐํ์ง๋ง, '๊ฐ์์ง'์ ๋ํด์๋ ๊ฐ์กฐํ์ง ์๋ ๋ชจ์ต์ ๋ณผ ์ ์๋ค. ์ด๋ i๋ ๋ง์ฐฌ๊ฐ์ง์ด๋ค)
์ด ๋ ผ๋ฌธ์์๋ pixel-space gradient visualization๊ณผ Grad-CAM์ ์ตํฉํ์ฌ high-resolution ํ๊ธฐ๋ ํ๊ณ , class-discriminative ํ๊ธฐ๋ ํ Guided Grad-CAM visualization์ ๋ง๋ค์๋ค. ์ด๊ฒ์ ํ๋์ ํน์ ์์ญ์ ์ฌ๋ฌ๊ฐ์ง detail์ด ์๋ค๊ณ ํด๋ ๋ชจ๋ ํ์ ํด๋ด๋ ๊ฒ์ d์ j๋ฅผ ํตํด ํ์ธํ ์ ์๋ค. 'tiger cat'์ ๋ํด Guided Grad-CAM์ ์ด์ฉํด ๊ฐ์กฐํ ๋, ๊ณ ์์ด์ ์์ญ์ ์ฐพ์๋ผ ๋ฟ๋ง ์๋๋ผ, ๊ณ ์์ ์ค๋ฌด๋ฌ ๋ํ ๊ฐ์กฐํ๋ ๊ฒ์ ์ ์ ์๋ค. ์ด๋ ๊ณ ์์ด์ ์ข ์ ๋ถ๋ฅํ ๋ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์๋ค.
2. Grad-CAM
์ด์ ์ ์๋ง์ ์ฐ๊ตฌ์์ CNN์ ๊น์ representation์์๋ ๋ ๋์ ์์ค์ visual constructs๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์๋ค. ๊ฒ๋ค๊ฐ, ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ์์ ์ป๋ ๊ณต๊ฐ์ ์ ๋ณด๋ fully-connected layer์ ์ง๋๋ฉด์ ๋ชจ๋ ์ฌ๋ผ์ง๊ฒ ๋๊ธฐ ๋๋ฌธ์ ์ด ๋ ผ๋ฌธ์์๋ ๋ง์ง๋ง ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ๊ฐ์ฅ ์ต์ ์ high-level semantics์ detailed spatial information์ด ์์ ๊ฒ์ด๋ผ๊ณ ์์ํ๋ค. Grad-CAM์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์์ ๋ง์ง๋ง์ผ๋ก ๋์ด์จ gradient information์ ์ฌ์ฉํด์ ๊ด์ฌ์ด ๊ฐ๋ ํน์ ํ ํ๋จ์ ๋ฐ๋ผ importance value๋ฅผ ๊ฐ๊ฐ์ ๋ด๋ฐ์ ํ ๋นํ๋ค.
์์ ๊ทธ๋ฆผ2์์ ์ ์ ์๋ฏ์ด, class-discriminative localization map์ ์ป๊ธฐ ์ํ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
convolutional network์ ๋ง์ง๋ง hidden layer์ size๊ฐ ํญ์ด u์ด๊ณ ๋์ด๊ฐ v์ธ ์ด๋ class c์ ๋ํด class c์ ๋ํ logit์ yc๋ผ ํ๊ณ , ์ด์ ๋ํ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ feature map activation์ Ak ๋ผ๊ณ ํ๋ค. ์ด ๊ณผ์ ์์ ํญ๊ณผ ๋์ด ์ฐจ์(๊ฐ๊ฐ i์ j๋ก ๋๋จ)์ ๋ํด global-average-pooled ๋ฅผ ํจ์ผ๋ก์จ ๋ค์์ neuron importance weights๋ฅผ ์ป์ ์ ์๋ค.
linear combination์ ๋ํด ReLUํจ์๋ฅผ ์ ์ฉํด์ positive influence๋ง ๊ฒ์ถํ๋ค. negative pixel์ ์ด๋ฏธ์ง์ ๋ค๋ฅธ ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋ ๋ถ๋ถ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ReLU๊ฐ ์๋ค๋ฉด, ๊ฐ๋์ ์ํ๋ class๋ณด๋ค ๋ค๋ฅธ class๋ฅผ ๋์ฑ ๊ฐ์กฐํ ์๋ ์๊ณ , ์ฑ๋ฅ์ด ์ ํ๋ ์๋ ์๋ค. ๊ทธ๋ฆผ1์ c์ f, i์ l์ ๋ณด๋ฉด ๊ฐ์์ง์ ๊ณ ์์ด๋ฅผ ๊ฐ๊ฐ ์ ๋ณด์ฌ์ฃผ๊ณ ์์์ ์ ์ ์๋ค.
์ผ๋ฐ์ ์ผ๋ก yc์ ๊ฐ์ CNN์ ์ด๋ฏธ์ง ๋ถ๋ฅ logit์ด ์๋์ด๋ ์๊ด ์๋ค. ๋ค๋ฅธ ์ด๋ ํ activation์ด ๋์ด๋ ๋๋๋ฐ ์๋ฅผ ๋ค์ด ์บก์ ์ ๋ํ ๋จ์ด๋ ์ง๋ฌธ์ ๋๋ต์ด์ด๋ ์๊ด ์๋ค.
Guided Grad-CAM
Grad-CAM์ด class-discriminativeํ๊ณ ๊ด๋ จ๋ ์ด๋ฏธ์ง ์์ญ์ ์ localize ํ์ง๋ง, fine-grained detail์ ์ ๊ฐ์กฐํ์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Grad-CAM๊ณผ Guided Backpropagation์ ์ตํฉํ์๋ค. ์ด ๊ณผ์ ์ด ๊ทธ๋ฆผ2์ ์ผ์ชฝ์ ๋ํ๋์๋ค.
Counterfactual Explanations
Grad-CAM์ ์ด์ง์ ๋ณํ์ ์ฃผ์์ ๋, ์กฐ๊ธ ๋ค๋ฅธ ๋ชจ๋ธ์ ์์ธก์ ์ป์ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก, ์ด๋ค ์์ญ์ ์ผ์ด๋๊ณ ์๋ concept์ ์์ ๋ฉด ๋ชจ๋ธ์ด ๋์ฑ ๊ทธ๋ค์ ์์ธก์ ์์ ์๊ฒ ๋๋ค. ์ด๊ฒ์ counterfactual explanations๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ํฉ์ฑ๊ณฑ ๊ณ์ธต์ feature map A์ ๊ดํ yc๋ฅผ negate ํ์๋ค. ๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ์ importance weights๋ฅผ ์ป์ ์ ์์๋ค.
์ ์์์ ์ด์ฉํด ๋ค์ ๊ทธ๋ฆผ3๊ณผ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
์ถ์ฒ: Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.