2022. 4. 6. 20:42ใ๐งช Data Science/Paper review
์ต๊ทผ Toy project๋ฅผ ์งํํ๋ ๋์ค, ๊ฐ์ ์ ๋ถ๋ฅํ๋ ํ๋ก์ธ์ค์ ๊ด์ฌ์ด ์๊ฒผ๋ค.
๊ฐ์ ๋ถ๋ฅ๋ ์ด๋ค ๋ชจ๋ธ๋ก ํ๊ณ ์์๊น?๋ผ๋ ๊ถ๊ธ์ฆ์ด ์๊ฒจ ๊ฐ๋ณ๊ฒ ์ฝ์ด๋ณด๊ฒ ๋์๋ค.
๋ด์ฉ์ ๊ฐ๋จํ๋ค.
[Source url: https://arxiv.org/pdf/1706.00188.pdf , Cornell University]
1. Summary
ํ์คํํ Detection์ AI์ฑ๋ด, ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ, ๊ฐ์ ๋ถ์์ ์ค์ํ๋ค. ํ์ง๋ง NLP ๊ตฌ์กฐ์ ๋ณต์ก์ฑ ๋๋ฌธ์ ์ฝ์ง ์๋ค. ์ ์๋ Deep learning Model์ ์จ์ Hate speech detection์ ์๋ํ์ผ๋ฉฐ, ์ฑ๊ณผ๊ฐ ์์๋ค.
* ๋ฅ๋ฌ๋์ ํ์ฑํ๋์ง ์ค๋๋์ง ์์๋ค. 2017๋
์ ๋
ผ๋ฌธ์ด ๋ฐ๊ฐ๋์์ผ๋ฉฐ, ๋น์์ DL๋ก ์๋ํ ๊ฒ๋ง์ผ๋ก ์๋ฏธ๊ฐ ์์๋ ๊ฒ์ผ๋ก ์๊ฐ๋๋ค.
We focus on classifying a tweet as racist, sexist or neither.
์ ์๋ Baseline, Proposed Approach๋ก ์ฐจ์ด๋ฅผ ๋์ด ์ฑ๋ฅ ๋น๊ต๋ฅผ ํ๋ค.
Baseline : (1) N-grams (2) TF-IDF (3) BoWV
Proposed Approach : (1) CNNs (2) LSTM (3) FastText
์์ํ๊ฒ ์ง๋ง, Deep Learning ๋ชจ๋ธ์ ์ฌ์ฉํ ํํธํํ ๋ถ๋ฅ๊ฐ ์ฑ๋ฅ์ด ๋ ์ข์๋ค.
Part B์์๋ CNN > LSTM > FastText ์์ผ๋ก ์ฑ๋ฅ์ด ์ข์๋ค.
์ ๋ฒ์ ๋ ผ๋ฌธ ์ฐพ๋ค๊ฐ ์ฝ์์ ๋(CNN for sentence classification, Yoon KIM, 2014)๋ ๊ทธ๋ ๊ณ , NLP ๋ถ๋ฅ ๋ฌธ์ ์ CNN์ด ์์ฃผ ๋ณด์ธ๋ค.
2. ๊ฒฐ๋ก
์ฌ์ค ๊ฒฐ๋ก ์ ๋ญ ์๋ค.
๊ทธ์ NLP์ Deep Learning์ด ์ฅ์ ํ ํ ์ํฉ์์ , ์ญ์ฌ๋ฅผ ์์๊ฐ๋ ์ ๋๋๊น.
๊ทผ๋ฐ ํ์คํ๊ฒ ์ดํดํ๊ฒ ๋ ๊ฒ์ด ์๋ค.
์์ง ๋๋ NLP ๋ฟ๋ง ์๋๋ผ, ๊ธฐ๋ณธ์ ์ธ ๋ชจ๋ธ๋ค์ ๋ํ ์ดํด๋๊ฐ ๋ฎ๋ค. ์ด๋ ดํ์ด ํ์๋ง ๋ ์ฌ๋ฆด ๋ฟ, ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ๋์๊ฐ๊ณ ๊ฐ ๋ชจ๋ธ์ ์ฅ๋จ์ ์ด ๋ฌด์์ธ์ง ์์ง ๋ชปํ๋ค. ์งง์ ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉด์๋ ๊ณ์ model๋ค์ ๊ฒ์ํ๊ณ ์ดํด๋์ง ์์์ ๊ฒช์ด์ผ ํ๋ค.
์ด๋ค ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ์ผ ํ ๊น. ๊ณ ๋ฏผ์ ํ๊ฒ ํ ๋ ผ๋ฌธ์ด์๋ค.