2022. 3. 16. 23:15ใ๐งช Data Science/Paper review
์ค๋ ๋ฆฌ๋ทฐํ paper๋ Yoon kim๋(Newyork University)์ ๋ ผ๋ฌธ 'Convolutional Neural Networkds for Sentece Classification' ์ด๋ค. ๊ฐ๋จํ ํํ์ CNN์ ์ด์ฉํ ๋ฌธ์ฅ ๋ถ๋ฅ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ด ์ฃผ๋ชฉ์ ๋ฐ์๋ค. LSTM์ ๊ณต๋ถํ๋ค๊ฐ Vision์ชฝ์์ ์ฐ์ด๋ CNN์ด ๋ถ๋ฅ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๊ธฐ์ ์ฝ๊ฒ๋์๋ค.
[Source url: https://arxiv.org/abs/1408.5882 , Cornell University]
[Github url: https://github.com/yoonkim/CNN_sentence]
1. Summary
NLP ๋ฌธ์ ( ๋ํ์ ์ผ๋ก ์์ธก, ๋จ์ด/๋ฌธ์ฅ ๋ถ๋ฅ )๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ง์ ML,DL ์ฐ๊ตฌ๊ฐ ์์๋ค. ๊ทธ๋ฌ๋ ์ค CNN ๋ชจ๋ธ์ด Static word vector๋ฅผ ์ํ๋ก ํ๋ ์์ด ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด์ด 'Pre-trained, task-specific' word vector์์๋ ๋์ํ๋ฉฐ, ๋์ ๋์์ ๋ค๋ฃฐ ์ ์๋๋ก modificaiton์ ํ์ฌ ์ฑ๋ฅ ํฅ์์ ์ด๋ค๋๋ค.
NLP ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ CNN์ผ๋ก ๋๋ฆฌ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
"The idea is to capture the most important feature—one
with the highest value—for each feature map.
This pooling scheme naturally deals with variable sentence lengths."
CNN์ ์๋ฆฌ๋ image์์ ํน์ง๋ค์ ๊ฐ์ถ๋ฆฐ ๋ค์, max-pooling๊ณผ soft-max ๊ณผ์ ์ ๊ฑฐ์ณ ํ๋ฅ ๋ก ๋ํ๋ด๋ ๊ฒ์ด์๋ค. ์ด ์๋ฆฌ๋ NLP์์๋ ๋๊ฐ์ด ์ ์ฉ๋์๋ค. word vector๋ฅผ layer์ ํต๊ณผ์์ผ word์ ํน์ง๋ค์ ๊ฐ์ถ๋ฆฐ๋ค. ๋ ผ๋ฌธ์ ์ ์๋ค์ "one feature is extracted from one filter" ํํ์ ์ฐ๋ฉฐ, Multiple filters๋ฅผ ํตํด Multiple features๋ฅผ ์ถ์ถํ๋ค๊ณ ๋งํ๋ค. layer๋ค์ ํตํด ํน์ง๋ค์ ์ถ์ถํ๊ณ , ๋ง์ง๋ง ํ์ฑํ ํจ์(Soft max)๋ฅผ ํตํด ๊ฐ์ฅ ์ค์ํ feature๋ฅผ ํ๋ฅ ๋ก ๋ํ๋๋ค.
Experiment
Conclusion
1) CNN ๋ชจ๋ธ์ ํ ๋๋ก ์คํํ ๊ฒฐ๊ณผ, One layer ๋ง์ผ๋ก๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
2) ๋น์ง๋ Pre-trained Word vector๊ฐ ์ ํ๋ จ๋์ด ์๋ ๊ฒ์ด NLP์์ ์ค์ํ๋ค๋ ์ ์ ์ด๋์ด๋๋ค.
2. ์์ฌ์ด ์
vision ์ชฝ์ ๊ณต๋ถ๋ฅผ ๊ฑฐ์ ์ํ๋ค ๋ณด๋, ํด์ํ๊ณ ์๋ฆฌ๋ฅผ ๋ฐ๋ผ๊ฐ๊ธฐ์ ๋ฐ๋นด๋ค. ๋ง์ฝ ๊ธฐ์กด์ CNN ์๋ฆฌ์ ๋ฐฐ๊ฒฝ์ง์์ ์์๋ค๋ฉด ํจ์ฌ ์๋ฏธ์๊ฒ ๋ ผ๋ฌธ์ ์ฝ๊ณ , ๋๋์๊ฐ ์ฝ๋ ๋ฆฌ๋ทฐ๊น์ง ์งํํด๋ณผ ์ ์์๊ฒ ๋ค๋ ์์ฌ์์ด ๋จ์๋ค.
๋ค์์๋ ์ข ๋ ์ต์ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฝ๊ณ , ์ฝ๋๊น์ง ๋ฆฌ๋ทฐํด๋ด์ผ๊ฒ ๋ค.