๐ซ๋ฉ์ฒญ๋ฐฉ์ง ๊ฐ๋ ์ ๋ฆฌ๊ธ๐ซ
in ETC
- ์ต๊ทผ ๋ ผ๋ฌธ์ ์ฝ์ผ๋ ค๊ณ ํ๋๋ฐ, ์ค๋๋ง์ ๊ณต๋ถ๋ผ ๊ทธ๋ฐ์ง ์ด๋ ค์ํ๋ ์ ๋ฅผ ๋ณด๋ฉฐ ์ถฉ๊ฒฉ์ ๋จน์์ต๋๋ค.
- ๊ธฐ๋ณธ ๊ฐ๋ ์กฐ์ฐจ ๊น๋จน๊ณ ์์ด์, ๋ค์ ๊ณต๋ถ ์์ํ๋ ๊ฒธ ์ ๋ฆฌํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
- ์ด๋ฒ ๊ธ์ ์ ๊ฐ ๋ค์ ๋ณด๊ธฐ ์ํด ์ฐ๋ ๊ธ์ด๋ค๋ณด๋ ๋ค์ ๋ฌํํ ์ ์์ต๋๋ค๐ข
๐ก ํต๊ณ๋ถ์ ๊ฐ๋
โฌ ๊ฐ์ค๊ฒ์
- ๋จ์ธก ๊ฒ์ (one-sided test)
- ํ๋ณธ ๋ถํฌ์ ํ์ชฝ์ ๊ด์ฌ์ ๊ฐ์ง๊ณ ์ํํ๋ ๊ฒ์ ๋ฐฉ๋ฒ
- ์ฆ, ๋๋ฆฝ๊ฐ์ค์ด ์ด๋ ํน์ ๋ชจ์ ์ด์์ด๊ฑฐ๋ ์ดํ์ผ ๋ ๊ฒ์ ํ๋ ๊ฒ
- ์์ธก ๊ฒ์ (two-sided test)
- ์ฐจ์ด๊ฐ ์๋ค, ๋ผ๋ ๊ฐ์ค์ ๋ํ ๊ฒ์
- ์ ์์์ค(significant level)
- ๊ฐ์ค ์์ธก์ 100% ์ณ๊ฒ ํ ์ ์์ผ๋ฏ๋ก ์ค์ฐจ๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ํ ๊ฒ
- *P(TypeI Error) = ์ 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ ํ๋ฅ
- ์๋ชปํด์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๋ ์ 1์ข ์ค๋ฅ๋ฅผ ๋ฒํ ํ๋ฅ ์ ์ํ
- 1์ข ์ค๋ฅ์ ์ํ์
- ๊ฒ์ ๊ฒฐ๊ณผ p-value๊ฐ ์ ์์์ค๋ณด๋ค ๋ฎ์ผ๋ฉด ์ํ์ ์ ๋ฒ์ด๋์ง ์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ , p-value๊ฐ ๋์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ์ฑํ * ์ ์์์ค์ ํตํด ๊ท๋ฌด๊ฐ์ค ์ฑํ์ฌ๋ถ๋ฅผ ๊ฒฐ์ (์ผ๋ฐ์ ์ผ๋ก 0.05๋ก ์ค์ ) * ๊ฒ์ ํต๊ณ๋ ๊ธฐ๋ฐ์ผ๋ก p-value๊ฐ ์ฐ์ถ๋๋ฉด, 0.05๋ณด๋ค ๋ฎ์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ๋๋ฆฝ๊ฐ์ค์ ์ฑํํจ
- ๊ฒ์ ํต๊ณ๋
- ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ด๋ผ๋ ๊ฐ์ ํ์, ํ๋ฅ ํ๋ณธ์ ์ด์ฉํ์ฌ ๊ตฌํ ๋ชจ์์ ๋ํ ์ถ์ ๋
- ๋ชจ์ ์ถ์ ์ ์ํด ๊ตฌํ๋ ํ๋ณธ ํต๊ณ๋๊ณผ ๊ฐ์ ์๋ฏธ
- ํ๋ณธ์ ํตํด ๊ฐ์ค ๊ฒ์ ์ ์ฌ์ฉํ๋ ํ๋ฅ ๋ณ์
- 1์ข
์ค๋ฅ/2์ข
์ค๋ฅ
- 1์ข ์ค๋ฅ(type 1 error, alpha) : ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ธ๋ฐ ๊ธฐ๊ฐํ ๊ฒฝ์ฐ
- p-value = 1์ข ์ค๋ฅ๋ฅผ ์ผ๋ง๋ ๋ฒํ ํ๋ฅ
- ์ฆ, p-value๊ฐ 5%๋ผ๋ฉด 100๋ฒ ๊ฒ์ ํ๋ฉด 5๋ฒ ์ ๋ 1์ข ์ค๋ฅ๊ฐ ๋ฐ์ํ๋ ๊ฒ
- ์ ์์์ค = 1์ข ์ค๋ฅ์ ์ํ์ * 2์ข ์ค๋ฅ(type 2 error, beta) : ๋๋ฆฝ๊ฐ์ค์ด ์ฌ์ค์์๋ ๋ถ๊ตฌํ๊ณ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ
- ๊ฒ์ ๋ ฅ(statistical power)
- 1- beta
- ๋๋ฆฝ๊ฐ์ค์ด ์ฌ์ค์ผ ๋ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ํ๋ฅ (1-beta) = ๋๋ฆฝ๊ฐ์ค์ ์ฑํํ ํ๋ฅ
- ๊ท๋ฌด๊ฐ์ค์ด ์ฌ์ค์ด ์๋ ๋ ์ด๋ฅผ ๊ธฐ๊ฐํ์ฌ ์ฌ๋ฐ๋ฅธ ๊ฒฐ์ ์ ํ ์ ์๋ ํ๋ฅ
- alpha๋ฅผ ๊ณ ์ ์ํค๊ณ , ์ด๋ฅผ ๋ง์กฑ์ํค๋ ๊ธฐ๊ฐ์ญ ์ค์ beta๋ฅผ ์ต์ํํ๋ ๊ธฐ๊ฐ์ญ์ ์ ํ
โฌ ์ค์ฌ๊ทนํ์ ๋ฆฌ
๋ฌด์์๋ก ์ถ์ถ๋ ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ๋ณธ ํ๊ท ์ ๋ถํฌ๋ ๋ชจ์ง๋จ์ ๋ถํฌ ๋ชจ์๊ณผ๋ ๊ด๊ณ์์ด ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง๋ค๋ ์ ๋ฆฌ
- ํ๋ณธ ํ๊ท ์ ํ๊ท ์ ๋ชจ์ง๋จ์ ๋ชจํ๊ท ๊ณผ ๊ฐ๊ณ , ํ๋ณธ ํ๊ท ์ ํ์ค ํธ์ฐจ๋ ๋ชจ์ง๋จ์ ๋ชจํ์ค ํธ์ฐจ๋ฅผ ํ๋ณธ ํฌ๊ธฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก ๋๋ ๊ฒ๊ณผ ๊ฐ์
- ์ค์ํ ์ด์
- ๊ฐ๊ฐ์ ํ๋ณธ์ ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ๋ด๊ธฐ์ ๋ถ์กฑํ์ง๋ง, ํ๋ณธ ํ๊ท ์ ๋ถํฌ๊ฐ n์ด ์ปค์ง๋ฉด ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ํ๋ผ ์ ์๊ฒ ๋จ
- ์ฆ, ํต๊ณ๋์ธ ํ๋ณธํ๊ท ์ ํตํด์ ๋ชจ์ง๋จ์ ๋ชจ์์ธ ๋ชจํ๊ท ๊ณผ ๋ชจํ์คํธ์ฐจ๋ฅผ ์ถ์ ํ ์ ์๋ ํ๋ฅ ์ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํด์ฃผ๋ ๊ฒ์
- ๋ง์ ํต๊ณ์ ๋ฐฉ๋ฒ์ด ์ ๊ท์ฑ ๊ฐ์ ์ ์์กดํ๊ธฐ ๋๋ฌธ
๐ก ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
โฌ Unbalanced Data
๋ถ๊ท ํ ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ ๋ด ๊ฐ๊ฐ์ ํด๋์ค๋ค์ด ์ฐจ์งํ๋ ๋ฐ์ดํฐ์ ๋น์จ์ด ๊ท ์ผํ์ง ์๊ณ ํ์ชฝ์ผ๋ก ์น์ฐ์น ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ถ๊ท ํ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ตํ ์์๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ์ ๊ฐ์ง๋ค.
- ์ ์ ์์ ์ด์์น์ ํธํฅ๋ ๋ถ๋ฅ ๊ฒฝ๊ณ์ ์ด ํ์ต๋จ์ ๋ฐ๋ผ ์์ธก ๋จ๊ณ์์์ ์ค๋ถ๋ฅ์จ์ด ๋์
- ๋์ ์ ํ๋์๋ ์ด์ ํด๋์ค์ ๋ํด์๋ ์ ๋ถ๋ฅํ์ง ๋ชปํด ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ํ ์๊ณก์ ๋ถ๋ฌ์ผ์ผํด
๋ฒ์ฃผํ/์ฐ์ํ ๋ถ๊ท ํ ๋ฐ์ดํฐ ์ค ๋ถ๊ท ํ ๋ฐ์ดํฐ์ ๋ํ ํด๊ฒฐ๋ฒ์ ๋ณดํต ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ํ ๊ฒ๋ค์ด ๋ง๋ค. (ํ์ค์ ๋ฐ์ดํฐ๋ค์ ๋์ฒด๋ก ์ฐ์ํ ๋ฐ์ดํฐ๊ฐ ๋ง์์๋ ๋ถ๊ตฌ)
๋ถ๊ท ํ ์ฐ์ํ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, ๊ธฐ์กด ๋ถ๊ท ํ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ค๋ฅธ ํน์ง์ ๋ณด์ธ๋ค.
- ํด๋์ค ๊ฒฝ๊ณ๊ฐ ์กด์ฌํ์ง ์์ : resampling, reweighting ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ธฐ ์ด๋ ค์
- ํ๊ฒ๊ฐ๋ผ๋ฆฌ ์ฐ์์ฑ ๋ฐ ์ ์ฌ์ฑ: ์ฃผ๋ณ๊ฐ์ ๋ถํฌ์ ๋ฐ๋ผ ๋ค๋ฅธ ์์ค์ ๋ถ๊ท ํ์ ๊ฒช์
- ์ด์ํ ๋ฒ์ ๋ด์ ๋ฐ์ดํฐ๊ฐ ๋ง๊ณ ์ ์์๋ก ๋ถ๊ท ํ์ ์ ๋๊ฐ ๋ค๋ฆ
- ํน์ ๋์๊ฐ์ ๋ํ ๋ฐ์ดํฐ๊ฐ ์์ ์์ ์ ์์
- ์ฃผ๋ณ ๋ฐ์ดํฐ๋ฅผ ํตํด interpolation ๋๋ extrapolation ๊ฐ๋ฅ
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ธ์ ๋ฐ์ดํฐ๊ฐ ์ ์ฌ์ฑ๊ณผ ์ปค๋ ํจ์๋ฅผ ํ์ฉํ์ฌ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด์ํ๊ณ ์ ํ๋ ๋ฐฉ๋ฒ๋ค์ด ๋ง์ด ๋ฐ์ํ๋ค. (๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ ํด๋์ค์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐ์ํด)
- ๋ํ ๋ฐฉ๋ฒ๋ก
- Label Distribution Smoothing(LDS): ๋ ์ด๋ธ ๊ณต๊ฐ ๊ด์
- Feature Distribution Smoothing(FDS): ํน์ง ๊ณต๊ฐ ๊ด์
- SMOGN(Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise)
- Gaussian Noise์ ๊ธฐ๋ณธ ์๋ฆฌ์ ๋ฐ๋ผ ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ํผ์์ํค์ง ์์ผ๋ฉด์, ๊ณผ๋ ์ถ์ ๋ ์ ์๋ ๋ฒ์์ ๋ฐ์ดํฐ๋ ์ถ์์ํค๊ณ , ๊ณผ์ ์ถ์ ๋ ์ ์๋ ์์ ๋ฐ์ดํฐ ๋ฒ์์ ๋ฐ์ดํฐ๋ ์ฆํญ์์ผ์ฃผ๋ ์ค๋ฒ์ํ๋ง ๊ธฐ๋ฒ
- python ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํํ : smoterํจ์์ advanced mode๋ฅผ ์ฌ์ฉํ์ฌ ์ํ๋ง ํด์ค ๊ฒ์ธ์ง์ ๋ํ ์ธ๋ถ์ธ์ ๊ฐ๋ค์ ์๋์ผ๋ก ์ค์ ํ ์ ์์
- ์ด๋ ์ธ๋ถ์ธ์ ์ค์ ๊ณผ์ ์์, ์ค๋ฒ์ํ๋ง ๋ฐ์ดํฐ์ ์๋ ๊ฐ์ ๋น๊ตํ๋ฉฐ ๋ฎ์ ์๋ ๊ฐ์ ๊ฐ์ง ๋์ ์ธ๋ถ์ธ์๋ฅผ ์ ์ ํ ์ ์์
๐ก ๋ชจ๋ธ๋ง ๊ฐ๋
โฌ ๋จธ์ ๋ฌ๋ ์ข ๋ฅ
- ์ง๋ํ์ต(supervised learning)
- ๋ฐ์ดํฐ์ ๋ํ ์ ๋ต(Y)์ ์ฃผ๊ณ ํ์ต์ํค๋ ๋ฐฉ๋ฒ
- ๋ถ๋ฅ, ํ๊ท
- ๋น์ง๋ํ์ต(unsupervised learning)
- ๋ฐ์ดํฐ์ ๋ํ ์ ๋ต(Y)์ ์ฃผ์ง ์๊ณ ํ์ต์ํค๋ ๋ฐฉ๋ฒ
- ํด๋ฌ์คํฐ๋ง, ์คํ ์ธ์ฝ๋
- ๊ฐํํ์ต(reinforcement learning)
- ์์ด์ ํธ(Agent)๊ฐ ์ฃผ์ด์ง ํ๊ฒฝ(State)์ ๋ํด ์ด๋ค ํ๋(Action)์ ์ทจํ๊ณ , ์ด๋ก๋ถํฐ ๋ณด์(Reward)์ ์ป์ผ๋ฉด์ ํ์ต์ ์งํํ๋ ๋ฐฉ์
- ์์ด์ ํธ๊ฐ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์งํ
โฌ Holdout method
๋ฐ์ดํฐ์
์ train, test, eval set์ผ๋ก ๋ถํ ํ์ฌ ์ฌ์ฉํ๋ ๋ชจ๋ธ ์ ํ ๋ฐฉ๋ฒ์ด๋ค.
train set์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํ๊ณ , eval set์ ๋ชจ๋ธ ์ ํ์ ์ฌ์ฉํ์ฌ, test set์ผ๋ก ๋ชจ๋ธ ํ๋ จ ๋ค ์ฑ๋ฅ ํ๊ฐ์ ์ฌ์ฉ๋๋ค.
โฌ 1D-CNN, 2D-CNN, 3D-CNN ์ฐจ์ด์
CNN ๋ชจ๋ธ์ 1D, 2D, 3D๋ก ๋๋๋๋ฐ, ์ผ๋ฐ์ ์ธ CNN์ ๋ณดํต ์ด๋ฏธ์ง ๋ถ๋ฅ์ ์ฌ์ฉ๋๋ 2D๋ฅผ ํต์นญํ๋ค.
์ฌ๊ธฐ์ D๋ ์ฐจ์์ ๋ปํ๋ dimensional์ ์ฝ์๋ก, ์ธํ ๋ฐ์ดํฐ ํํ์ ๋ฐ๋ผ 1D, 2D, 3D ํํ์ CNN ๋ชจ๋ธ์ด ์ฌ์ฉ๋๋ค.
- ์ฆ, ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ ๋ฐ๋ผ Conv1D, Conv2D, Conv3D๋ฅผ ์ฌ์ฉํจ
- ํฉ์ฑ๊ณฑ์ ์งํํ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ ์๋ฏธ โ ํฉ์ฑ๊ณฑ ์งํ ๋ฐฉํฅ์ ๊ณ ๋ คํด์ผํจ
- 1D, 2D, 3D ๊ธฐ์ค : ํฉ์ฑ๊ณฑ์ด ์งํ๋๋ ๋ฐฉํฅ + ํฉ์ฑ๊ณฑ์ ๊ฒฐ๊ณผ๋ก ๋์ค๋ ์ถ๋ ฅ๊ฐ
- Conv1D : ํฉ์ฑ๊ณฑ ์งํ ๋ฐฉํฅ์ด ํ ๋ฐฉํฅ(๊ฐ๋ก)
- ํฉ์ฑ๊ณฑ์ ์งํํ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ 1
- sequence ๋ชจ๋ธ๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์ ์ฃผ๋ก ์ฌ์ฉ
- NLP : ๊ฐ ๋จ์ด ๋ฒกํฐ์ ์ฐจ์ ์ ์ฒด์ ๋ํด ํํฐ๋ฅผ ์ ์ฉ์ํค๊ธฐ ์ํจ
- Conv2D : ํฉ์ฑ๊ณฑ ์งํ ๋ฐฉํฅ์ด ๋ ๋ฐฉํฅ(๊ฐ๋ก, ์ธ๋ก)
- ex.
tf.keras.layers.Conv2D(64, (3,3), activation='relu', input_shape=(150, 150, 3))
- ์ฐจ์์ด (150, 150, 3)์ธ image์ ๋ํด ๋ ๋ฐฉํฅ์ผ๋ก๋ง ํฉ์ฑ๊ณฑ์ ์งํํ๊ฒ ๋ค๋ ๋ป
- 150x150 ์ด๋ฏธ์ง์ 3์ฑ๋์ด๋ฏ๋ก, 150x150 matrix์ ๋ํด ํฉ์ฑ๊ณฑ์ ์ด 3๋ฒ(R, G, B) ์งํ
- ์ฆ, ํฉ์ฑ๊ณฑ์ ์งํํ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ 2์ด๋ค.
- ์ปดํจํฐ ๋น์ (Computer Vision, CV)์์ ์ฃผ๋ก ์ฌ์ฉ
- ex.
- Conv3D : ํฉ์ฑ๊ณฑ ์งํ ๋ฐฉํฅ์ด ์ธ ๋ฐฉํฅ(๊ฐ๋ก, ์ธ๋ก, ๋์ด)
- ์๋ฃ(CT ์์) ๋ถ์ผ์ ๋น๋์ค ํ๋ก์ธ์ฑ์์ ์ฃผ๋ก ์ฌ์ฉ
- Conv1D : ํฉ์ฑ๊ณฑ ์งํ ๋ฐฉํฅ์ด ํ ๋ฐฉํฅ(๊ฐ๋ก)
โฌ kernel, filter ์ฐจ์ด์
ํํฐ๋ ์ฌ๋ฌ๊ฐ์ kernel๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ๋ณ kernel์ ํํฐ๋ด์์ ์๋ก ๋ค๋ฅธ ๊ฐ์ ๊ฐ์ง ์ ์๋ค. kernel์ ๊ฐ์๊ฐ ๋ฐ๋ก channel์ ๊ฐ์์ด๋ค.
- kernel : sliding windowํ๋ ์์ญ์์์ ํฌ๊ธฐ (ex. 4x4)
- filter : ์ค์ ๋ก kernel์ด weighted sumํ๋ ์์ญ์ ํฌ๊ธฐ (ex. 4x4x3)
- D : kernel์ด slidingํ๋ dimension ํฌ๊ธฐ
- feature map : ์ ๋ ฅ ์ด๋ฏธ์ง์ ํํฐ ๊ฐ์ convolution ์ฐ์ฐ์ ์ถ๋ ฅ
Kernel size
Convolution Filter๋ฅผ Kernel๋ก๋ ์ง์นญ
- kernel size(ํฌ๊ธฐ)๋ผ๊ณ ํ๋ฉด ๋ฉด์ (๊ฐ๋กx์ธ๋ก)์ ์๋ฏธํ์ฌ ๊ฐ๋ก์ ์ธ๋ก๋ ์๋ก ๋ค๋ฅผ ์ ์์ง๋ง ๋ณดํต ์ผ์น์ํด
- kernel ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ํด์๋ก ์ ๋ ฅ feature map(๋๋ ์๋ณธ ์ด๋ฏธ์ง)์์ ๋ ํฐ(๋๋ ๋ ๋ง์) feature ์ ๋ณด๋ฅผ ๊ฐ์ ธ์ฌ ์ ์์
- ํฐ ์ฌ์ด์ฆ์ kernel๋ก convolution ์ฐ์ฐ์ ํ ๊ฒฝ์ฐ ํจ์ฌ ๋ ๋ง์ ์ฐ์ฐ๋๊ณผ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํจ
โฌ ๋ชจ๋ธ ์ต์ ํ
- Hyperparameter Tuning
- Hyperparameter : ๋ชจ๋ธ์ ์์ฑํ ๋, ์ค์ ํ ์ ์๋ ๋ชจ๋ธ ๋ณ์
- Grid Search : ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ๋ผ๋ฏธํฐ๋ค์ ์กฐํฉ์ ์ ํํ๋ ๋ฐฉ๋ฒ
- K-Fold Cross Validation
- ๊ณผ์ ํฉ์ ๋ง๊ธฐ ์ํ ๋ชจ๋ธ ์ ํ ๋ฐฉ๋ฒ
- ์ ์ฒด ๋ฐ์ดํฐ์ ์ k๊ฐ๋ก ๋๋๊ณ ํ๋ญ์น์ฉ ๋์๊ฐ๋ฉฐ ํ ์คํธ์ ์ผ๋ก ์ง์ ํ์ฌ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐฉ์
- ๋ฐ์ดํฐ๋ฅผ k๊ฐ์ ์๋ก ๋ค๋ฅธ ๋ถ๋ถ์ผ๋ก ๋๋๊ณ , ๊ฐ๊ฐ์ ๋ถ๋ถ์ ๊ต์ฐจ ๊ฒ์ฆ(cross-validation)์ ์ฌ์ฉ
- ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ k๊ฐ์ ํ์ต๊ณผ ๊ฒ์ฆ ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ ์ ๋ขฐ๋ ๋์ ๋ชจ๋ธ์ ๋ง๋ค์ด๋
- k-fold ensemble : k๊ฐ์ ์์ธก์ ํ๊ท ํ์ฌ ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ๋์ถํจ
โฌ Regularization
๊ณผ์ ํฉ์ ๋ง๊ธฐ ์ํด ํน์ ๊ฐ์ค์น๊ฐ ๋๋ฌด ์ปค์ง์ง ์๋๋ก ์ ํํ๋ ๋ฐฉ์์ผ๋ก ๋ชจ๋ธ ๋ณต์ก๋๋ฅผ ์ค์ด๋ฉฐ, L1 ๊ท์ ์ L2 ๊ท์ ๊ฐ ์๋ค.
L1์ ๋นํด L2๋ ์ด์์น๋ ๋
ธ์ด์ฆ๊ฐ ์๋ ๋ฐ์ดํฐ์ ๋ํ ํ์ต์ ์ข์ผ๋ฉฐ, ํนํ ์ ํ ๋ชจ๋ธ์ ์ผ๋ฐํ์ ์ข๋ค.
- L1 ๊ท์ : cost function ์์์ ๊ฐ์ค์น์ ์ ๋๊ฐ์ ๋ํด์ค
- L2 ๊ท์ : ๊ฐ์ค์น์ ์ ๊ณฑ๊ฐ์ ์ด์ฉ
โฌ Activation function
๋ฅ๋ฌ๋ ๋คํธ์ํฌ์์๋ ๋
ธ๋์ ๋ค์ด์ค๋ ๊ฐ๋ค์ ๋ํด ๊ณง๋ฐ๋ก ๋ค์ ๋ ์ด์ด๋ก ์ ๋ฌํ์ง ์๊ณ ์ฃผ๋ก ๋น์ ํ ํจ์๋ฅผ ํต๊ณผ์ํจ ํ ์ ๋ฌํ๋ค.
์ด๋์ ํจ์๊ฐ activation function์ด๋ฉฐ, ๋
ธ๋๋ก ๋ค์ด์ค๋ ์ ํธ์ ๋ํด ์ ํธ๋ฅผ ์ ๋ฌํ ๋งํผ ์๋ฏธ๊ฐ ์๋์ง ์๋์ง(๊ฐ์ค์น๊ฐ ํฐ์ง ์ํฐ์ง) ํ๋จํด์ฃผ๋ ํจ์์ด๋ค.
๋ํ์ ์ผ๋ก ์๊ทธ๋ชจ์ด๋ ํจ์, ReLU ํจ์, tanh ํจ์ ๋ฑ์ด ์๋ค.
- ReLU ํจ์ : ์์๋ 0์ผ๋ก ํต๊ณผ๋ฅผ ์ํค๊ณ ์์๋ ๊ทธ๋๋ก ํต๊ณผ
โฌ Pooling
pooling ๋ชฉ์ ์ ํน์ง์ ๊ฐํํ๋๋ฐ ์๋ค. ์ฌ์ฉ๋ฒ์ ์์ convolution layer๋ ๋น์ทํ์ง๋ง, ๊ฐ๋ค ์ค ํน์ ๊ฐ๋ง ์ ์งํ๊ณ ๋๋จธ์ง ๊ฐ์ ๋ฒ๋ฆฐ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
Pooling layer์ ์ข
๋ฅ์๋ max pooling, average pooling, overlapping Pooling์ด ์๋ค.
- max polling
- ๊ณ์ฐ์์ด ๊ฐ์ํ๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ๋ถํ๊ฐ ์ค์ด๋ฆ
- size๋ฅผ ์ค์ด๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ํ์ฐ์ ์ผ๋ก ์ค์ฐจ๊ฐ ๋ฐ์ํ๋ฏ๋ก ์ค๋ฒํผํ ์ ์ฝ๊ฐ ์ค์ฌ์ค
- back propagation ์ ๋ณต์์ด ํ๋ค์ด์ ๋๋ฌด ๋ง์ด ๋ฃ์ผ๋ฉด ์๋จ
Dropout
์ ๊ฒฝ๋ง ๋ชจ๋ธ์ ๋ง๋ค ๋ ์๊ธฐ๋ ๋ฌธ์ ์ ์ค์ ๋ํ์ ์ธ ๊ฒ์ด ๊ณผ์ ํฉ(Overfitting)์ด๋ค.
๋ณดํต ๊ณผ์ ํฉ ๋ฌธ์ ๋ ์ ๊ทํ(Regularization) ๋ฐฉ๋ฒ์ผ๋ก ๋ง์ด ํด๊ฒฐํ๊ณ ์ ๊ทํ ๋ฐฉ๋ฒ ์ค ๋ํ์ ์ธ ๊ฒ์ธ Dropout์ด๋ค.
โ ํ์ต ๋ฐ์ดํฐ์ ๊ณผ์ ํฉ๋๋ ์ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด ํ์ต ์ ํน์ ํ๋ฅ ๋ก ๋
ธ๋๋ค์ ๊ฐ์ 0์ผ๋ก ๋ณด๊ฒ ๋๋ค. [์ฃผ์] ์ด๋ฌํ ๊ณผ์ ์ ํ์ตํ ๋๋ง ์ ์ฉ๋๊ณ ์์ธก ํน์ ํ
์คํธํ ๋๋ ์ ์ฉ๋์ง ์์์ผ ํ๋ค.
โฌ Class Imbalance
๋๋ถ๋ถ์ ์ด๋ฏธ์ง๋ negative sample(background) ํฝ์ ์๊ฐ ๋ง๊ณ , positive sample(object)์ด ์ ๊ธฐ ๋๋ฌธ์ ๋ถ๊ท ํ์ด ์กด์ฌํ๋ค.
โฌ ์ฑ๋ฅํ๊ฐ์งํ
๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ ์งํ๋ก, ์ ํ๋/์ ๋ฐ๋/์ฌํ์จ/F-score ๋ฑ์ด ์๋ค.
- Accuracy
- True๋ฅผ True๋ผ๊ณ , False๋ฅผ False๋ผ๊ณ ์ณ๊ฒ ์์ธกํ ๋น์จ
- ๋ชจ๋ ๋ฐ์ดํฐ ์ค์์ ๋ชจ๋ โTrueโ๋ค์ ๋น์จ
- Precision
- ๋ชจ๋ธ์ด True๋ผ๊ณ ๋ถ๋ฅํ ๊ฒ ์ค์์ ์ค์ True์ธ ๊ฒ์ ๋น์จ
- Recall
- ์ค์ True์ธ ๊ฒ ์ค์์ ๋ชจ๋ธ์ด True๋ผ๊ณ ์์ธกํ ๊ฒ์ ๋น์จ
- F1-score
- precision๊ณผ recall์ ์กฐํํ๊ท
- label์ ์๊ฐ ๋ถ๊ท ํ์ ์ผ ๋, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ต์ ์ ํํ ํ๊ฐํ ์ ์์
โฌ AI๋ชจ๋ธ ์ ํ๋ vs. ์๋ vs. ๋น์ฉ
AI ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ๋์ด๋ค ๋ณด๋ฉด, ์ฐ์ฐ๋์ด ๋์ด๋ ์๋๊ฐ ๋๋ ค์ง๊ณ ๋น์ฉ๋ ์ฆ๊ฐํ์ฌ ์ฌ์ฉ์์๊ฒ ์์ข์ ๊ฒฝํ์ ์ ๊ณตํ ์ํ์ด ํฌ๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์๋/๋น์ฉ๋ ํจ๊ป ๊ณ ๋ คํ ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ์ค์ํ๋ค.
โฌ ์๋ ์ฌํ์ต ํ์ดํ๋ผ์ธ
๋ชจ๋ธ์ ์ฑ๋ฅ ์ ํ๋ ํ์ต ๋ฐ์ดํฐ์ ์ค์ ์ถ๋ก ๋ฐ์ดํฐ์ ๋ถํฌ ์ฐจ์ด์ ์ํด ๋ฐ์ํ๋ค.(Data Drift)
๊ทธ๋ ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ ํ์ต๊ณผ ํ๊ฐ ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์ธํธ๊ณผ ์ต์ ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ์์ดํ๋ค๋ฉด ์ ํํ ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
์ค์ ์ถ๋ก ํ๊ฒฝ์์ ์ฑ๋ฅ ์ ํ ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํด์๋ ์ต์ ๋ฐ์ดํฐ ํ์ต์ด ํ์ํ๋ค. ์ด๋ฅผ ๋์ํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์์ง, ์ ์ , ํ์ต, ๋ฐฐํฌ ๊ณผ์ ์ ์๋์ ์คํํ๋ ํ์ดํ๋ผ์ธ์ด ์ค์ํ๋ค.
- ๋ชจ๋ธ๋ณ ํน์ฑ์ ๋ฐ๋ผ ์ฃผ๊ธฐ์ ๋ฐ์ดํฐ ํ์ต window ๊ธฐ์ค, ํ์ต ๋ฐ์ดํฐ ์ ์ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ ๋ณ๋์ ํ์ต ํ์ดํ๋ผ์ธ ๋์ ํ์
- ๋ชจ๋ธ ๋ฐฐํฌ ์ด์ ์ ํ๊ฐ ๊ณผ์ ์ ํ์ดํ๋ผ์ธ ๋ด์์ ์ํํ์ฌ, ์๋์ผ๋ก ์ต์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ํ๋ฉด์ ์ ๋ฅ ์ ์งํ๋ ๊ฒ์ด ๊ฐ๋ฅํ๋๋ก ํด์ผํจ
๐ก ๋ชจ๋ธ ์ค๋ช
โฌ XGBoost ์๊ณ ๋ฆฌ์ฆ
gradient boosting ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ ML ๋ชจํ์ด๋ค.
- gradient tree bosting : ๊ฐ๋จํ์ง๋ง ์ ํ๋๊ฐ ๋ฎ์ ๋ชจ๋ธ์ ๊ฒฐ๊ณผ๊ฐ์ ๊ฒฐํฉํ์ฌ ๋น ๋ฅธ ์๋๋ก ๋์ ์ ํ๋์ ๋๋ฌํ๋ ์๊ณ ๋ฆฌ์ฆ
๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ํตํด ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ ๊ณผ์ ํฉ์ ๋ํ ๊ท์ (regularization) ๊ธฐ๋ฅ์ ๊ฐ์๊ณผ ๋์์ ML ๋ชจํ ์ค์์๋ ๋น๊ต์ ๋์ ์์ธก ์ฑ๋ฅ์ ๋ฐํํ๋ค.
- ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ๊ณ ๋ฅด์ง ์์ ๋ฐ์ดํฐ ์์ด ์ ์ ๋ถ๋ถ์ ๋ํ ๊ณผ์ ํฉ์ ๋ฐฉ์ง
- ๋น ๋ฅธ ํ์ต์ ํตํด ์ต์ ๋ฐ์ดํฐ ํ์ต ์ฃผ๊ธฐ๊ฐ ์ ์ฐํ๊ฒ ๋ณ๋ ๊ฐ๋ฅ
- CatBoost, LightGBM ๋๋น ๋ณตํฉ์ ์ธ ์กฐ๊ฑด์์ ๋ฐ์ํ๋ ๋ถ์ ์กฐ๊ฑด์์์ ์์ธก๋ ฅ์ด ์๋์ ์ผ๋ก ๋์ ์ ํ๋๋ฅผ ๋ํ๋
์ฃผ๋ก Y๊ฐ์ ์ํฅ์ ๋ฏธ์น๋ ๋ณ์์ ์ค๋ช ๋ ฅ๊ณผ ํ๋ซํผ ์ด๊ธฐ ๊ตฌ์ถ ์ฉ์ด์ฑ์ ์ํด ์ต์ ์ ๋ชจํ์ผ๋ก ์ฌ์ฉ๋๊ธฐ๋ ํ๋ค.
โฌ LSTM + Autoencoder (LSTM-AE)
AutoEncoder๋ ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ํน์ง๋ฐฑํฐ(feature)๋ก ์์ถํ๊ณ ์๋ฏธ ์๋ ํํ์ผ๋ก ์ธ์ฝ๋ฉํ ๋ค์ ๋ณต์(reconstruction)์์ผ ๋ณต์๋ ๋ฐ์ดํฐ๊ฐ ์๋ณธ ๋ฐ์ดํฐ์ ์ต๋ํ ์ ์ฌํ๋๋ก ๋ง๋ ์ ๊ฒฝ๋ง์ด๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ labeled ๋ฐ์ดํฐ ์์ด ํ์ต์ด ๊ฐ๋ฅํ unsupervised ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ AutoEncoder์ LSTM ๊ตฌ์กฐ๋ฅผ ์ถ๊ฐํ์ฌ sequence ๋๋ time-series ๋ฐ์ดํฐ๋ฅผ Self-Supervised ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ ๊ฒ์ LSTM AutoEncoder๋ผ๊ณ ๋ถ๋ฅธ๋ค.
โ ์ธ์ฝ๋์ ๋์ฝ๋์ LSTM ์ ๊ฒฝ๋ง์ ์ ์ฉํ Autoencoder
- Encoder : sequence ๋ฐ์ดํฐ๋ฅผ ์์ถํ๋ LSTM ๋ชจ๋
- sequence ๋ฐ์ดํฐ๋ ์ฐจ๋ก๋๋ก LSTM ๋ชจ๋์ input์ผ๋ก ์ฌ์ฉ๋์ด feature ๋ฒกํฐ๋ก ๋ณํ๋จ
- feature ๋ฒกํฐ๋ sequence ๋ฐ์ดํฐ๋ฅผ ์์ถํ ํํ๋ก ์ด๋ฏธ์ง์ ๋ชจ์ต๊ณผ ์ด๋ฏธ์ง์ ์ด๋๋ฐฉํฅ ๋ฑ์ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์
- Reconstruction Decoder : Encoder์์ ์์ฑ๋ feature ๋ฒกํฐ๋ฅผ ์ด์ฉํ์ฌ input sequence ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ๋ LSTM ๋ชจ๋
- input sequence์ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ์งํ
- Prediction Decoder : Encoder์์ ์์ฑ๋ feature ๋ฒกํฐ๋ฅผ ์ด์ฉํ์ฌ input sequence ์ดํ ๋์ฌ ๋ฏธ๋์ ์ด๋ฏธ์ง sequence๋ฅผ ์์ฑํ๋ LSTM ๋ชจ๋
Autoencoder๋ ์ผ๋ฐ์ ์ธ ์ฉ๋์ธ ์ฐจ์์ถ์(dimension reduction) ๋ฟ๋ง ์๋๋ผ ์ด์ ํ์ง(anomaly detection) ๋ถ์ผ์๋ ์ฌ์ฉ๋๋ค.
- ๋ง์ฝ ์ ์ ๋ฐ์ดํฐ๋ก๋ง Autoencoder๋ฅผ ํ์ตํ๋ฉด ์๋ณธ ๋ฐ์ดํฐ์ ๋ณต์ ๋ฐ์ดํฐ์ ์ฐจ์ด์ธ ๋ณต์์์ค ๋๋ ๋ณต์์ค์ฐจ๋ ๋งค์ฐ ์์ ๊ฒ์
- ํ์ง๋ง ํ์ต๋ ๋ชจ๋ธ์ ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์์ดํ ํน์ฑ์ ๊ฐ๋ ๋ฐ์ดํฐ๊ฐ ์
๋ ฅ๋๋ค๋ฉด ์ด ๋ฐ์ดํฐ๋ ํ์ต๋์ง ์์๊ธฐ ๋๋ฌธ์ ๋ณต์๋ ๋ฐ์ดํฐ๋ ์๋ณธ ๋ฐ์ดํฐ์ ๋ง์ ์ฐจ์ด๊ฐ ๋ฐ์ํ ๊ฒ
- LSTM-AE์ ์ฑ๋ฅ์ ์๋ณธ ์ ๋ ฅ ์ํ์ค์ ๋ณต์๋ ์ํ์ค๊ฐ์ ์ฐจ์ด๋ก ํ๊ฐ๋จ
- ๋ณต์์ค์ฐจ๊ฐ ์ ํด์ง ์๊ณ์น(threshold)๋ฅผ ๋๊ฒ ๋๋ฉด ์ด์์ผ๋ก ํ์
LSTM AutoEncoder๋ reconstruction task์ prediction task๋ฅผ ํจ๊ป ํ์ตํจ์ผ๋ก์จ ๊ฐ๊ฐ์ task๋ง์ ํ์ตํ ๊ฒฝ์ฐ ๋ฐ์ํ๋ ๋จ์ ์ ๊ทน๋ณตํ ์ ์๋ค. ๋๊ฐ์ง task๋ฅผ ํจ๊ป ํ์ตํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ๋ชจ๋ ์ ๋ณด๋ฅผ ์ ์ฅํ์ง ์๊ณ ์ค์์ ๋ณด(์ด๋ฏธ์ง ๋ชจ์ต, ์ด๋๋ฐฉํฅ ๋ฑ)๋ฅผ feature์ ์ ์ฅํ๋๋ก ์ ๋ํ ์ ์๋ค. ๋ํ Sequence ๋ฐ์ดํฐ์ ๋ชจ๋ ์์ ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ํ์ตํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ์ฝ๊ฒ ํ์ตํ ์ ์๋๋ก ๋๋ ์ญํ ์ ํ๋ค.
- reconstruction task๋ง์ ์ํํ์ฌ ๋ชจ๋ธ์ ํ์ตํ ๊ฒฝ์ฐ
- ๋ชจ๋ธ์ input์ ์ฌ์ํ ์ ๋ณด๊น์ง ๋ณด์กดํ์ฌ Feature ๋ฒกํฐ๋ฅผ ์์ฑํจ
- ์ฆ ์ฌ์ํ ์ ๋ณด๊ฐ ์ ์ฅ๋ ์ ์๊ฒ Feature ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ์๊ฒ ์ค์ ํ์ง ์์ผ๋ฉด ๊ณผ์ ํฉ(overfitting)์ด ๋ฐ์ํ๋ ๋จ์ ์ด ์กด์ฌํจ
- prediction task๋ง์ ์ํํ์ฌ ๋ชจ๋ธ์ ํ์ตํ ๊ฒฝ์ฐ
- ๋ชจ๋ธ์ input์ ์ต๊ทผ sequence ์ ๋ณด๋ง์ ์ด์ฉํ์ฌ ํ์ตํจ
- ์ผ๋ฐ์ ์ผ๋ก prediction์ ํ์ํ ์ ๋ณด๋ ์์ธกํ๊ธฐ ์ ์์ ์ ๊ฐ๊น์ธ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋๊ธฐ ๋๋ฌธ์
- ๋ฐ๋ผ์ ๊ณผ๊ฑฐ ์์ ์ ์ ๋ณด๋ฅผ ํ์ฉํ์ง ๋ชปํ๋ ๋จ์ ์ด ์กด์ฌํจ
โฌ DNN
๋ค์ธต ํผ์ ํธ๋ก (Multi-Layer Perceptron)์ผ๋ก, ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ์ด๋ค.
- ์ ๊ฒฝ๋ง ๋ชจํ ์ค ์ ํ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ ํฉ
- ์ฌ๋์ ์ ๊ฒฝ๋ง๊ณผ ๋น์ทํ ํํ๋ก ์
๋ ฅ์ธต, ์๋์ธต, ์ถ๋ ฅ์ธต์ผ๋ก ๊ตฌ์ฑ๋จ
- input layer : X๊ฐ / hidden layer : X๊ฐ ๋ฐ์ดํฐ ํน์ง ์ถ์ถ / output layer : Y๊ฐ
- ex) 1๊ฐ์ input layer & ๊ฐ 5๊ฐ, 5๊ฐ ๋ด๋ฐ์ผ๋ก ์ด๋ฃจ์ด์ง 2๊ฐ์ hidden layer & 1๊ฐ์ output layer
- ๊ฐ ์ธต์ ๋ ธ๋๋ค์ ๊ฐ์ค์น์ ํ์ฑํ ํจ์๋ฅผ ํตํด ์ ๋ ฅ ์ ํธ๋ฅผ ๋ณํํ๊ณ ์ฒ๋ฆฌํจ
- ํ๋ผ๋ฏธํฐ
- ํ๋ผ๋ฏธํฐ ์ ํ ๋ฐฉ๋ฒ : ๊ฐ ํ๋ผ๋ฏธํฐ๋ MAE ๊ฐ์ด ๊ฐ์ฅ ๋ฎ์ ์ง์ ์ ํํ ์ ํ
- ex) activation function : relu, linear / Loss function : MAE / Optimizer : Adam / Learning Rate : 0.001 / Epoch : 500 / Batch size : 6
โฌ CNN
CNN์ 2๊ฐ์ง ํน์ง์ด ์๋ค.
โ ํน์ง์ ์ถ์ถํ๋ feature extraction & feature extraction๋ฅผ ํต๊ณผํ ์ดํ์ ๊ฒฐ๊ณผ๊ฐ์ ๋์ถํด ์ฃผ๋ Classification
- Feature extraction : Convolution layer์ Pooling layer๊ฐ ์์ฌ ์๋ ๊ฒ
- Classification : fully-connected layer๋ก ์ด๋ฃจ์ด์ง ๊ฒ
โฌ 1D-CNN (1 Dimensional Convolution Neural Network)
- ์๊ฐ์ ๋ฐ๋ผ ๋ฐ์ดํฐ๊ฐ ๊ตฌ์ฑ๋๋ ์๊ณ์ด ๋ฐ์ดํฐ์ ์ ํฉํจ
- 1์ฐจ์ Convolutional Neural Network์ผ๋ก, ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ ์ข ๋ฅ
- ์ฃผ๋ก ์๊ณ์ด ๋ฐ์ดํฐ๋ ์์ฐจ์ ์ธ ๋ฐ์ดํฐ์์ ํจํด์ ๊ฐ์งํ๊ณ ํ์ตํ๋๋ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ (๋ณ์ ๊ฐ์ ์ง์ฝ์ ์ธ ํน์ง์ ์ถ์ถ)
- ๊ฐ๊ฐ์ ์ธต์์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ถ๋ถ์ ์ธ ํจํด์ ํ์ ํ๋ ์ผ์ข ์ filter ์์ฉ์ ๊ฑฐ์นจ
- Layer
- Convolution layer(Conv1D) : ํํฐ๋ฅผ ํตํด ์ด๋ฏธ์ง ๋ฐ์ดํฐ ํน์ฑ์ ์ถ์ถํ๊ณ ํจํด์ ํ์ (ํํฐ : ์ด๋ฏธ์ง์์ ์์ ์์ญ์ ์ ํํ์ฌ ํด๋น ์์ญ์ ์ ๋ณด ์ถ์ถ)
- Pooling layer : ํน์ง ๊ฐํ + ์ด๋ฏธ์ง ํฌ๊ธฐ ์ค์
- Fully Connected layer(FCN) : ์ถ์ถ๋ ํน์ง์ ์ด์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅ
- dropcout layer : ๊ณผ์ ํฉ ๋ฐฉ์ง
- ex) conv1d : filters=32, kernel_size=100 / Maxpooling1D : pool_size : 2 / Dense : units : 10 / Dropout : 0.1
โฌ EfficientNet
๋ชจ๋ธ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ์ฌ, network์ depth(๊น์ด), width(ํํฐ ์), ์ด๋ฏธ์ง resolution ํฌ๊ธฐ๋ฅผ ์ต์ ์ผ๋ก ์กฐํฉํ๋ค.
์ด๋ EfficientNet์ Compound Scaling์ ํ์ฉํ์ฌ ํ ๋ชจ๋ธ(vgg16, resnet50)๋ณด๋ค ๋ ์ ์ ์ฐ์ฐ๋์ผ๋ก ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
- Model Scaling ๋ฐฉ๋ฒ
- Width Scaling : layer ๋๋น ๋ํ๊ธฐ โ channel ์ฆ๊ฐ
- Depth Scaling : layer์ ๋๋ฆฌ๊ธฐ
- Resolution Scaling : input์ ํด์๋๋ฅผ ๋์ด๊ธฐ
- Compound Scaling : width, depth, resolution์ ๋์์ ๊ณ ๋ ค EfficientNet B0~B7๊ฐ ์กด์ฌํ๋ฉฐ, B1~B7์ B0์์ depth, width๋ฅผ ์ฆ๊ฐ์์ผ์ ๋ชจ๋ธ์ ์์ฑํ๋ค.
โฌ SSD(Single Shot Multibox Detector)
์ฅ์ ๊ณผ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ฅ์ 1) ์คํ ์๋ fast : ๋จ์ผ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ฌ, ํ๋ฒ์ ์์ ํ๋ก ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๋ฏ๋ก ๋น ๋ฅธ ์คํ์๋ ๊ฐ๋ฅ
- ์ฅ์ 2) ๋ค์ํ ํฌ๊ธฐ์ ๋ฐ์ค ์์ฑ : ๋ค์ํ ํฌ๊ธฐ์ ๋ฐ์ค๋ฅผ ๋์์ ์์ธกํ์ฌ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ์ฒ๋ฆฌ ๊ฐ๋ฅ
- ๋จ์ 1) imbalanced ๋ฎ์ ์์ธก : ์์ ๋ฌผ์ฒด์ ๋ํ ์ ํ๋๊ฐ ๋จ์ด์ง๋ฉฐ, class imbalance ์ทจ์ฝ
โฌ Faster R-CNN
์ฅ์ ๊ณผ ๋จ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ฅ์ 1) ์ ํํ ๊ฐ์ฒด ์์น ์์ธก : RPN(Region Proposal Network)์ ํตํด ์ ํํ ๊ฐ์ฒด ์์น๋ฅผ ์์ธก
- ์ฅ์ 2) ๋์ ์ ํ๋ : ์ ํํ ๊ฐ์ฒด ๊ฐ์ง์ ์ ํฉ
- ๋จ์ 1) ๋น๊ต์ ๋๋ฆฐ ์คํ ์๋ : ์ฌ๋ฌ ๋จ๊ณ์ network๋ฅผ ๊ฑฐ์ณ์ ๊ฐ์ฒด๋ฅผ ๊ฐ์งํ๊ธฐ ๋๋ฌธ์, ์คํ ์๋๊ฐ ์๋์ ์ผ๋ก ๋๋ฆผ
- ๋จ์ 2) ๋์ ๊ณ์ฐ ๋น์ฉ : ์ค์๊ฐ ์์ฉ์ ์ ํฉํ์ง ์์
โฌ RetinaNet
One Stage Detector์ ๋น ๋ฅธ detection ์๊ฐ์ ์ฅ์ ์ ๊ฐ์ง๋ฉด์ One Stage Detector์ detection ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ ๋ชจ๋ธ์ด๋ค.
- ์ํ์๊ฐ์ YOLO๋ SSD๋ณด๋ค ๋๋ฆฌ์ง๋ง, Faster R-CNN๋ณด๋ค ๋น ๋ฆ
- ์ํ์ฑ๋ฅ์ ํ dectection ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋๋ฉฐ, ํนํ one stage detector๋ณด๋ค ์์ object์ ๋ํ detection ๋ฅ๋ ฅ์ด ๋ฐ์ด๋จ Focal Loss์ Feature Pyramid Network ํน์ง์ด ์๋ค.
- Focal Loss : Cross Entropy๋ฅผ ๋์ฒดํ Loss Function
- ์ด๋ ค์ด ์ํ or ์ค๋ถ๋ฅํ๋ ํฝ์ ๊ฐ์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด, ๋ชจ๋ธ์ด ๊ฐ์ฒด์ ๋ ์ง์คํ๋๋ก ํ์ฌ class imbalance ํด๊ฒฐ
- FPN(Feature Pyramid Network) : backbone์ ์ ์ฉ
- ๋ค์ํ ํฌ๊ธฐ ๋ฐ ํด์๋๋ฅผ ๊ฐ์ง ๋ฌผ์ฒด์ ๊ฐ๊ฑดํ ํน์ง ์ถ์ถ
๐ก ๋ถ์ ์ผ์ด์ค ์ ๊ทผ
โฌ ๋ถ์ ์ ์
- ๋ถ์ํ๊ณ ์ ํ๋ Y์ ๋ํ ์ ํํ ์ ์ ํ์ + Y์ ์ํฅ์ ์ฃผ๋ X ์ธ์ ๋ํ ํ์
- ์ด์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ ์์ง ์ฃผ๊ธฐ์ ์ธก์ ๋ฐฉ์์ ๋ํ ์ค๋ช ์์ฒญ
- ๋ถ์ ์๋๋ฆฌ์ค ๊ธฐ๋ฐ, ํ์ฅ์์ ์๊ฐํ๋ ๊ฐ์ค์ ๋ฐ์ดํฐ๋ก ํ๋์ฉ ๊ฒ์ฆํ๋ ๋ฐฉ์
โฌ ์์ธก ๋ชจ๋ธ๋ง
- ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ฉํ ์ ํ ๋ฌผ์ฑ ์์ธก
- ๋ชฉํ KPI ์ก๊ธฐ (ex. ์ ํ ์คํ ๋ฒ์์ 20%)
- For ์ ๋ขฐ์ฑ ๋์ ๋ชจ๋ธ ํ๋ณด, ๋ค์ํ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ํ๊ฐ ํ์
โฌ ์ด๋ฏธ์ง ๋ถ๋ฅ
- ํ๋ก์ธ์ค : ๊ฒฐ์ ๋ฐ์ ์ด๋ฏธ์ง ๋ผ๋ฒจ๋ง โ ์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ ๋ฐ ๋ถํ โ Train Set ์ด๋ฏธ์ง๋ก ๋ชจ๋ธ ํ์ต โ Valid Set ์ด๋ฏธ์ง๋ก ๋ชจ๋ธ ์ต์ข ์ฑ๋ฅ ํ๊ฐ
- 3๊ฐ์ง ๋ฐฉ์ ์กด์ฌ
- Image Classification : ์ด๋ฏธ์ง์ ์๋ ๋ฌผ์ฒด๊ฐ ์ด๋ค class(category)์ธ์ง class๋ฅผ ๋ถ๋ฅ
- ์ฃผ๋ก CNN ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉ
- Object Detection : ์ด๋ฏธ์ง์ ์๋ ๋ชจ๋ ๋ฌผ์ฒด์ Bounding Box๋ก ํ์ง ํ, ๋ถ๋ฅ
- Localization : ์ด๋ฏธ์ง ๋ด object์ bounding box๋ฅผ ์์ฑํ ํ, ์์น ์ ๋ณด ์ถ๋ ฅ ๋ฐ ๋ถ๋ฅ
- Detection : ์ด๋ฏธ์ง ๋ด multi-object์ ์์น ์ ๋ณด ์ถ๋ ฅ ๋ฐ ๋ถ๋ฅ
- Image Segmentation : ์ด๋ฏธ์ง์ ์๋ ๋ชจ๋ ๋ฌผ์ฒด์ edge๋ฅผ ์ฐพ์ ํ, ๋ถ๋ฅ
- Image Classification : ์ด๋ฏธ์ง์ ์๋ ๋ฌผ์ฒด๊ฐ ์ด๋ค class(category)์ธ์ง class๋ฅผ ๋ถ๋ฅ
- ๊ฒฐ์ ์ด๋ฏธ์ง ํน์ง : gray-scale ์ด๋ฏธ์ง
โฌ ์ต์ ์กฐ๊ฑด ๋์ถ
- ๋ชฉํ : ์๋ช ์ ์ํฅ์ ์ฃผ๋ ์์ธ์ ์ฐพ๊ณ , ์๋ช ์ ์์ธกํ์ฌ ์์ฐ ์์จ ํฅ์์ ํ๊ณ ์ ํจ
โฌ ํ๋ก๋ํธ ๋ถ์
๋ฐ์ดํฐ๋ฅผ ๋ญ๋ฑ๊ทธ๋ ค์ ๋ดค์ ๋์ ์ชผ๊ฐ์ ๋ดค์ ๋์ ๊ฒฐ๊ณผ๊ฐ ๋ค๋ฅผ ์ ์๊ณ , ๊ธฐ๊ฐ์ ์ด๋ป๊ฒ ๋ณด๋๋์ ๋ฐ๋ผ ํด์์ด ๋ฌ๋ผ์ง๊ธฐ๋ ํด์ ํญ์ ์ฌ๋ฌ ๋ฐฉ๋ฉด์์ ์ข
ํฉ์ ์ผ๋ก ๋ถ์ํด์ ๊ฒฐ๋ก ์ ๋ด์ผํ๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๋ถ์ ๊ฒฐ๊ณผ์ ๋ํ ์ฝ๋ฉํธ๋ฅผ ๋จ๊ธฐ๋ฉด์, ์ต๋ํ ํธํฅ์ด ์๋ ๊ฒฐ๊ณผ๊ฐ ๊ณต์ ๋ ์ ์๋๋ก ๋
ธ๋ ฅํด์ผํ๋ค.
- ์๋น์ค ๋ถ์ ๊ด์
- ์๋น์ค๋จ์์ ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ ๊ฐ์ค์ ์ธ์ด ํ, ๊ทธ ๊ฐ์ค์ ์๋น์ค ๋ฐ์ดํฐ๋ก ๊ฒ์ฆ
- ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํ ๋๋ก ์๋น์ค๊ฐ ๊ฐ์ ๋๋ ๋ฐฉํฅ์ผ๋ก ์์ฌ๊ฒฐ์ ์ ํ ์ ์๋๋ก ๋์
- ๋ชจ๋ธ๋ง ๊ด์
- ๋ชจ๋ธ์ด ์์ฅ์ ์์ ๊ณต๊ธ์ ๋ฐ๋ผ ํ๋ ฅ์ ์ผ๋ก ์์ง์ด๊ณ ์๋์ง ํธ๋ํน ํ๊ธฐ ์ํ ์งํ ๊ฐ๋ฐ
- ๋ชจ๋ธ์ pain-point๋ฅผ ์ฐพ์ ๊ฐ์ ์์ ์ ์ํ์ฌ ๋ชจ๋ธ์ ๊ณ ๋ํ
- ๋ฐ์ดํฐ ๊ด๋ฆฌ ์ด์ ์
๋ฌด
- ๊ธฐํ์ด๋ ์ฌ์ ๋ถ์์์ ์๋น์ค ๋ฐ์ดํฐ๋ฅผ ํธํ๊ฒ ๋ณผ ์ ์๋๋ก ๋์๋ณด๋ ์์ฑ
- ๊ทธ์ ํ์ํ ๋งํธ ํ ์ด๋ธ๋ ๋ง๋ค์ด ์ ๊ณต
- ์์ฒ ๋ฐ์ดํฐ์ ๋ณํ๊ฐ ์์ ๋ ๋งํธํ ์ด๋ธ์ ์ด๋ฅผ ๋ฐ์ํ๊ฑฐ๋ ์์ ํ๋ ์ด์์ฑ ์ ๋ฌด ์งํ
โฌ ๊ณ ๊ฐ ์ธ๊ทธ๋ฉํ ์ด์ ๋ฐฉ๋ฒ
1๋จ๊ณ. ํน์ฑ๊ธฐ๋ฐ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์
๋น ๋ฅด๊ฒ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ ์ ํ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ฉฐ, ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ ์ ํ ๋ ๊ธฐ์ค์ด ํ์ํจ
- ์ธ๊ตฌํต๊ณํ์ ์ธ๊ทธ๋จผํ
์ด์
: ์ฌ์ฉ ๊ธฐ๊ธฐ(e.g. ์๋๋ก์ด๋, IOS, ํ๋ธ๋ฆฟ ๋ฑ), ๋์ด, ์ฑ๋ณ๊ณผ ๊ฐ์ ๊ณตํต๋ ๊ฐ๋จํ ํน์ฑ์ ๋ฐํ์ผ๋ก ๊ณ ๊ฐ์ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋
- ๋น ๋ฅด๊ฒ ์ธ๊ทธ๋จผํ ์ด์ ์ ์งํํ ์ ์๋ ๊ฐ์ฅ ์์ด์ ์ด๊ณ ๋๋ฆฌ ์๋ ค์ง ๊ฐ๋จํ ๋ฐฉ๋ฒ
- ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ๊ฐ์ธ์ ๋ณด๊ฐ ๋ถ์ถฉ๋ถํ๊ฑฐ๋ ๋ฒ์ ์ธ ์ฌ์ฉ ์ ํ ๋๋ ๊ณ ๊ฐ์ฌ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ ์ฉ์ด
- ๋ฐ์ดํฐ๊ฐ ๋ง์คํน ๋์ด์์ ๊ฒฝ์ฐ, ์ ํ์ ์ธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด์ผํ ์ํฉ์ ์ฌํํ๊ฒ ํ์ฉํ ์ ์์
- ์์น์ ์ธ๊ทธ๋จผํ
์ด์
: ๊ณ ๊ฐ์ ๊ตญ๊ฐ, ์ง์ญ, ๋์์ ๊ฐ์ ์์น ๋ฐ ์ฅ์์ ๋ฐ๋ผ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋
- ๊ธ๋ก๋ฒ ์ง์ญ ๋จ์์ผ ๊ฒฝ์ฐ, ์ง์ญ ๋ฐ ๋์๋ณ๋ก ๊ณ ๊ฐ์ ํน์ฑ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ ํ์ฉํ ์ ์์
- ๋๋ฉ์ธ : ๋ชจ๋น๋ฆฌํฐ, ๋ฐฐ๋ฌ ์ฐ์ ๊ณผ ๊ฐ์ GIS๊ธฐ๋ฐ ์์น๊ฐ ์ค์ํ ์ธ๋ถ ์์ธ์ธ O2O ์ฐ์ ์์ ํ์ฉ ๊ฐ๋ฅ
- ํ์ฉ ๋ฐฉ๋ฒ: ์์ธ ํน๋ณ์ ๊ธฐ์ค์ผ๋ก Q-GIS ๋๋ Uber H3 ํ์ฉํด์ ๋๋์ด๋ณผ ์ ์์
- ์ฌ๋ฆฌ์ ์ธ๊ทธ๋จผํ ์ด์ : ๊ณ ๊ฐ์ ๋ผ์ดํ์คํ์ผ, ๊ด์ฌ์ฌ, ๊ฐ์น ๋ฐ ํ๋์ ๋ฐ๋ผ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋๋ฉฐ, ์ด์ปค๋จธ์ค ์ฐ์ ์์ ๋ง์ด ํ์ฉ๋ ์ ์์
- ๊ณ ๊ฐ ํ๋ ์ธ๊ทธ๋จผํ
์ด์
: ํ๋ก๋ํธ ๊ด์ ์์ ๊ณ ๊ฐ์ ์น/์ฑ ๋ก๊ทธ, ์ฌ์ฉ ํจํด, ๋ธ๋๋ ๋ก์ดํฐ ๋ฐ ์ถฉ์ฑ๋, ๋ง์ผํ
์ฑ๋์ ๋ํ ๋ฐ์๋ฅ ์ ๊ธฐ์ค์ผ๋ก ๊ณ ๊ฐ์ ์ฌ๋ฌ ๊ทธ๋ฃน์ผ๋ก ๋๋
- ๊ณ ๊ฐ์ด ์ฃผ๋ก ์ฌ์ฉํ๋ ๋ง์ผํ ์ฑ๋๋ณ(์ด๋ฉ์ผ, ์ฑํธ์, ๋ฌธ์ ๋ฑ) ์ด์ฉ์ ๋ฐ๋ผ ๊ทธ๋ฃน์ ๋๋ ์๋ ์์
2๋จ๊ณ. ๋ง์ผํ ๊ธฐ๋ฒ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์
- RFM ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ
์ด์
- ๊ณ ๊ฐ๋ณ๋ก ์ผ๋ง๋ ์ต๊ทผ์, ์ผ๋ง๋ ์์ฃผ, ์ผ๋ง๋ ๋ง์ ๊ธ์ก์ ์ง์ถํ๋์ง์ ๋ฐ๋ผ ๊ณ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋ ์ ์๋ ๋ง์ผํ
RFM(Recency, Frequency, Monetary)๊ธฐ๋ฒ
- R(Recency) ๊ตฌ๋งค์ ์ต๊ทผ์ฑ: ๊ณ ๊ฐ์ด ์ผ๋ง๋ ์ต๊ทผ์ ์ํ์ ๊ตฌ์ ํ๋๊ฐ?
- F(Frequency) ๊ตฌ๋งค ๋น๋: ๊ณ ๊ฐ์ด ์ผ๋ง๋ ์์ฃผ ์ํ์ ๊ตฌ์ ํ๋?
- M(Monetary) ๊ตฌ๋งค ๊ท๋ชจ: ๊ณ ๊ฐ์ด ๊ตฌ์ ํ๋ ์ด ์ํ ๊ธ์ก์ ์ผ๋ง์ธ๊ฐ?
- ์ฅ๊ธฐ์ ์ผ๋ก ๊ณ ๊ฐ์ ๊ณ ์ ํด์ ํ์ฉํด์ผํ ๊ฒฝ์ฐ ์ฉ์ดํจ
- ๊ณ ๊ฐ๋ณ๋ก ์ผ๋ง๋ ์ต๊ทผ์, ์ผ๋ง๋ ์์ฃผ, ์ผ๋ง๋ ๋ง์ ๊ธ์ก์ ์ง์ถํ๋์ง์ ๋ฐ๋ผ ๊ณ ๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋ ์ ์๋ ๋ง์ผํ
RFM(Recency, Frequency, Monetary)๊ธฐ๋ฒ
3๋จ๊ณ. ์์ธก ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ : ML ๋ชจ๋ธ ํ์ฉ
- ๋น์ง๋ ํ์ต
- ํด๋ฌ์คํฐ๋ง ๊ธฐ๋ฒ(k-means clustering, k-medoids clustering ๋ฑ) : ๋๋ฉ์ธ์ ๋ง๊ฒ ๊ตฐ์ง ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉ
- ์ง๋ ํ์ต
- ๊ณ ๊ฐ ํ๋ ์์ธก labelingํ๊ฑฐ๋ ๊ณ ๊ฐ ํ๋ ๋ฐ์ดํฐ ์์ธก์ ๋ฐํ์ผ๋ก ๊ณ ๊ฐ์ด ์ด๋ค ํ๋์ ํ ์ง ์์ธก์ ํ์ฌ ๋ถ๋ฅ
4๋จ๊ณ. ๊ฐ์ธํ ์ถ์ฒ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ : ์ถ์ฒ์์คํ ํ์ฉ
๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ์์๊ณ ํ๋ก๋ํธ์ ์ ์ ๊ฐ ๋ง์ ๋จ๊ณ์ ๊ณ ๊ฐ์ ์ธ๋ถํํ๊ณ ๊ฐ์ธํ ์ถ์ฒ ํ๊นํ ์ด ์ฉ์ดํ๋ค. ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์๋ ์ฌ๊ฑด์ ๋ฐ๋ผ ์ปจํ ์ธ ๊ธฐ๋ฐ ํํฐ๋ง, ํ์ ํํฐ๋ง ๋ฑ ์ถ์ฒ์์คํ ์ ํ์ฉํด์ ๋ง๋ค ์ ์์ต๋๋ค.
- ๋๋ฉ์ธ : ์ปจํ ์ธ ์ฐ์ (์ํ, ์์ , ์นํฐ) ๋๋ ์ด์ปค๋จธ์ค ์ฐ์ ์์ ์ปจํ ์ธ , ์ด๋ฏธ์ง๋ฅผ ํ์ฉํ์ฌ ๋๋์ด๋ณผ ์ ์์
- ์ฐธ๊ณ ์์ ์๋ฃ
5๋จ๊ณ. ํผํฉ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์
๋ก์ง ํธ๋ฆฌ์ฒ๋ผ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ ๋ถ์ ๋ชฉ์ ์ ๋ง๊ฒ ์ 4๋จ๊ณ ๋ฐฉ๋ฒ ์ค ๋ค์๊ณผ ๊ฐ์ด ๋ช๊ฐ์ง ๋ฐฉ๋ฒ๋ค์ ํผํฉํด์ ํ์ฉํ ์ ์๋ค.
- ์์น์ ์ธ๊ทธ๋จผํ ์ด์ (์ง์ญ) + ์ถ์ฒ์์คํ
- RFM + ๋น์ง๋ ํ์ต ๊ณ ๊ฐ ์ธ๊ทธ๋จผํธ ํ๋ก์ ํธ๋ฅผ ๋ง์น๋ฉด ๊ณ ๊ฐ์ ๊ธฐ์ค์ ๋ง๊ฒ ๊ทธ๋ฃน๋ณ๋ก ์ ๋๋์๋์ง๋ฅผ ๋ถ์ํ๋ ๋จ๊ณ๋ ์ค์ํ๋ค. ์์์น ๋ชปํ ์์๋ผ์ด์ด๊ฐ ์์ ์๋ ์๊ณ , ๋น์ค์ด ์ ์ง๋ง ๋ฆฌํ
์
๋๋ ๋งค์ถ์ด ํฐ ๊ทธ๋ฃน์ด ์กด์ฌํ ์๋ ์๋ค.
์ธ๊ทธ๋จผํธ๋ณ๋ก ๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฑ์ ์ธ ๋ถ๋ถ ๋๋ ๋๋ฉ์ธ์ ๊ณ ๋ คํ์ฌ ์ ์ฉํด๋ณผ ์ ์์ผ๋ฉฐ, A/B ํ ์คํธ๋ฅผ ํตํด ์ฌํ ํจ๊ณผ๋ฅผ ํ์ธํด๋ณผ ์ ์๋ค.
โฌ A/B Test
A/B Test๋ ์น ์ฌ์ดํธ ๋ฐฉ๋ฌธ์๋ฅผ ์์๋ก ๋ ์ง๋จ์ผ๋ก ๋๋๊ณ , ํ ์ง๋จ์๊ฒ๋ ๊ธฐ์กด ์ฌ์ดํธ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ๋ค๋ฅธ ์ง๋จ์๊ฒ๋ ์๋ก์ด ์ฌ์ดํธ๋ฅผ ๋ณด์ฌ์ค ๋ค์, ๋ ์ง๋จ ์ค ์ด๋ค ์ง๋จ์ด ๋ ๋์ ์ฑ๊ณผ๋ฅผ ๋ณด์ด๋์ง ์ธก์ ํ์ฌ, ์ ์ฌ์ดํธ๊ฐ ๊ธฐ์กด ์ฌ์ดํธ์ ๋นํด ์ข์์ง๋ฅผ ์ ๋์ ์ผ๋ก ํ๊ฐํ๋ ๋ฐฉ์์ ๋งํ๋ค.
์ฌ๊ธฐ์์ ์ฑ๊ณผ๋ ์ ์ฌ์ดํธ๊ฐ ๋ชฉํ๋ก ํ๋ ๋ฐ์ ๋ฐ๋ผ ๋ค๋ฅธ๋ฐ, ๋ณดํต์ ํ์ ๊ฐ์
์จ, ์ฌ๋ฐฉ๋ฌธ์จ, ๊ตฌ๋งค์ ํ์จ ๋ฑ์ ์งํ๋ฅผ ๋ณธ๋ค.
๊ณผํ ํน์ ์ํ์์ ๋ฌด์์๋น๊ต์ฐ๊ตฌ(RCT; Randomized-controlled trial)๋ผ ๋ถ๋ฆฌ๋ ๋ฐฉ๋ฒ์ ์ธํฐ๋ท ๋ง์ผํ
์ ์ ์ฉํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์ฃผ๋ก ์น์ฌ์ดํธ์ ๋ง์ผํ
๊ณผ ๊ด๋ จํ์ฌ ๋ง์ด ์ฐ์ด์ง๋ง ๋์์ธ, ์ธํฐํ์ด์ค, ์ํ ๋ฐฐ์น ๋ฑ์ ๊ฐ์ ํ๊ธฐ ์ํด์ ์ฌ์ฉํ๊ธฐ๋ ํ๋ฉฐ, ์น์ฌ์ดํธ๊ฐ ์๋ ๋ชจ๋ฐ์ผ ์ฑ, ๊ฒ์ ๋ฑ์ ๋ถ์ผ์์๋ ํ์ฉ๋๋ค.
RCT vs. A/B Test ์ฐจ์ด์
- RCT
- ์คํ๋ผ์ธ ํ๊ฒฝ
- ํ๋ณธ ํ๋ณด๊ฐ ์ด๋ ต๊ณ ๋น์ฉ์ด ํผ
- ๋ฐ๋ณต ์คํ์ด ์ด๋ ค์
- ์คํ ์ค๊ณ๊ฐ ๋ณต์ก
- ๋ฐ๋ณต์ธก์ ๋ถ์ฐ๋ถ์, ์์ธ ์ค๊ณ, ๋ถํ ๊ตฌ ์ค๊ณ
- A/B Test
- ์จ๋ผ์ธ ํ๊ฒฝ
- ํ๋ณธ ํ๋ณด๊ฐ ์ฝ๊ณ ๋น์ฉ์ด ์์
- ๋ฐ๋ณต ์คํ์ด ์ฉ์ด
- ์คํ ์ค๊ณ๊ฐ ๋งค์ฐ ๊ฐ๋จ
A/B Test ์ค๊ณ ๊ณผ์
A/B test์์๋ A์ B ๋์์ธ์ ๋ ธ์ถ๋๋ ์ฌ๋๋ค์ ๋ฌด์์๋ก ๋๋์ด ์ต๋ํ ์คํ ํ๊ฒฝ๊ณผ ๋น์ทํ๋๋ก ์ ์ฌ ์คํ ํ๊ฒฝ์ ๊ตฌ์ถํ๋ค.
- ์ฌ์ฉ์ ๋ฐ ์งํ ์ ์
- ์ค์ ํ๊ฒฝ ์ ์
- ์ฌ์ฉ์ ๋ฌด์์ ์ ์
- ์ฌ์ฉ์์๊ฒ ๋ฌด์์๋ก A์ B ๋ ธ์ถ
- ๊ฒฐ๊ณผ ๋ถ์ ๋ฐ ๊ฒ์ฆ
A/B ํ ์คํธ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ถ์ํ๊ธฐ ์ํด์ ๊ณ ๋ คํด์ผํ ์
์ํ ์ฌ์ด์ฆ์ ๊ฒ์ ๋ ฅ(Power), ํจ๊ณผ ํฌ๊ธฐ(Effect size)๋ฅผ ์ดํดํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๋ค. ์ด๋ฅผ ์ ๋๋ก ์์์ผ ๋งน๋ชฉ์ ์ผ๋ก p-value์๋ง ์์งํ๋ ๊ฒฐ๊ณผ ํด์์ ํผํ ์ ์๋ค.
๊ฐ์ค ๊ฒ์ ๊ณผ ๋๋ถ์ด์ A/B ํ
์คํธ๋ ๋ณํ๋ ์ธ์์ ๋์ํ๊ธฐ ์ํ ๋
ธ๋ ฅ์ด ์๋ฐ๋์ด์ผ ํ๋ค. ๊ธฐ์กด์ ์คํ ํ๊ฒฝ๊ณผ๋ ๋ค๋ฅด๊ฒ ์์๊ฐ๊ฐ ๋ณํ๋ ํ๊ฒฝ์์ ์คํ์ ์ํํ๊ธฐ ๋๋ฌธ์ ์ด์ ๋๋นํ ์ฅ์น๊ฐ ํ์ํ๋ค. MAB๋ Bayesian A/B test๊ฐ ์ข์ ๋์์ด๋ค.
์ ๋ขฐ๊ตฌ๊ฐ์ ์ด์ฉํ A/B ํ ์คํธ
๋ง์ฝ ๋ค์๊ณผ ๊ฐ์ Test๋ฅผ 1์ฃผ์ผ ๊ฐ ์งํํ์๋ค๊ณ ๊ฐ์ ํ๋ค.
๋ฐฉ๋ฌธ๊ฐ์ ๋ฌด์์๋ก Variation A ๋๋ Variation B์ ํ ๋น๋จ Variation A์ ํ ๋น๋ ๋ฐฉ๋ฌธ๊ฐ์ ํน์ ํ๋ฉด์ ๋ ธ์ถ๋๊ณ , Variation B์ ํ ๋น๋ ๋ฐฉ๋ฌธ๊ฐ์ ๋ ๋ค๋ฅธ ํน์ ํ๋ฉด์ ๋ ธ์ถ๋จ ์คํ์ ๋ชฉํ : ๊ณผ์ฐ ์ด๋ค ํ๋ฉด์ ๋ ธ์ถ๋์์ ๋ ๋ฐฉ๋ฌธ๊ฐ์ด ๋ ๋ง์ ๊ตฌ๋งค๋ฅผ ํ๋์ง ์์๋ณด๋ ๊ฒ ๋น๊ต : ๋ฐฉ๋ฌธ๊ฐ ๋น ํ๊ท ๊ตฌ๋งค์ก(Average Purchase Per Visitor)์ ๊ณ์ฐ
์ด๋ ์กฐ์ฌํด์ผํ ์ ์ ํ๊ท ๊ตฌ๋งค์ก์ ์ ์ถ์ (point estimation)๋ง์ผ๋ก ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋ ๊ฒ์ด๋ค.
- ์ถ์ : ๋ถํ์คํ ๋ฌด์ธ๊ฐ๋ฅผ ์๊ธฐ ์ํ ๊ณผ์ โ ์ฌ๊ธฐ์๋ ๋ชจ์ง๋จ์ ํ๊ท ๊ตฌ๋งค์ก์ ํด๋น
- ์๊ณ ์ถ์ ๊ฒ : ์์ผ๋ก ๋ฐฉ๋ฌธํ ๋ชจ๋ ๋ฐฉ๋ฌธ๊ฐ์ ํ๊ท ๊ตฌ๋งค์ก
- ํ๋ณธ ์ง๋จ : 1์ฃผ์ผ ๋์ ์คํ์ ์ฐธ์ฌํ ๋ฐฉ๋ฌธ๊ฐ๋ค
- ํ๋ณธ ํ๊ท : ๋ฐฉ๋ฌธํ ๋ฐฉ๋ฌธ๊ฐ๋ค์ ํ๊ท ๊ตฌ๋งค์ก
- ์ ์ถ์ : ๋ชจ์ง๋จ์ ํ๊ท (๋ชจํ๊ท ) ๊ฐ์ ์๊ธฐ ์ํด์ ํ๋ณธ ํ๊ท ์ ํ์ฉํ๋๋ฐ, ๋จ ํ๋์ ๊ฐ์ผ๋ก ์ด๋ฅผ ์ถ์ ํ๋ ๊ณผ์ โ ํ๊ท ํ๋ณธ = ๋ชจํ๊ท ์ ์ ์ถ์ ๊ฐ
์คํ์์ ์ป์ ๋ฐ์ดํฐ๋ฅผ ์ต๋ํ ํ์ฉํด์ ํ์ฌ ์ ํํ ์ ์๋ ๊ฐ์ฅ ์ข์ ์์ฌ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๊ฒ์ด ์ค์ํ๋ค. ์คํ ๋ฐ์ดํฐ์ ๋ถ์ฐ ๊ฐ์ ํ์ฉํ์ฌ ํ๊ท ๊ตฌ๋งค์ก์ ์ ์ถ์ ๊ฐ์ด ์๋ ๊ตฌ๊ฐ ์ถ์ ๊ฐ์ ๊ณ์ฐํ๋ค.
- ๋ฌธ์ ํด๊ฒฐ ํต์ฌ : ๋งค๋ฒ ์์ง์ด๋ ํ๋ณธ ํ๊ท ์ ํํ ๊ฒ์ด ์๋, ์ผ๋ง๋ ๋ง์ด ์์ง์ด๋์ง๋ฅผ ํ๊ฐํ๋ ๊ฒ
- ํ์ค ์ค์ฐจ(standard error) : ํ๋ณธ ํ๊ท ์ ๋ณ๋์ฑ โ ํ๋ณธ ๋ถ์ฐ๊ณผ ํ๋ณธ ์ง๋จ์ ํฌ๊ธฐ๋ก ์ ์ ์์
ํ๋ณธ ํ๊ท ์ ํ๋ฅ ๋ถํฌ๋ ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ถฉ๋ถํ ํฐ ๊ฒฝ์ฐ์ ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋๋๋ฐ, ์ด๋ ์ค์ฌ ๊ทนํ ์ ๋ฆฌ(central limit theorem)์ ์ํด ์ฆ๋ช ๋๋ค. ์ด๋ ํ๋ณธ ํ๊ท ์ ๊ฐ๊ณผ ํ์ค ์ค์ฐจ๋ฅผ ์๋ฉด ์ ๊ท ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ํ๋ณธ ํ๊ท ์ ๋ฒ์๋ฅผ ๊ตฌํ ์ ์๋ค.
- ex. Variation A์ ํ๊ท ๊ตฌ๋งค์ก์ ๋ํ 95% ์ ๋ขฐ ๊ตฌ๊ฐ์ด (121.75,160.17)
- 95% ์ ๋ขฐ๊ตฌ๊ฐ = ์ฌ๋ฌ ๊ฐ์ ๋ค๋ฅธ ํ๋ณธ์์ ์ ๋ขฐ ๊ตฌ๊ฐ์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌํ ๊ฒฝ์ฐ 95%์ ๊ตฌ๊ฐ๋ค์ด ๋ชจํ๊ท ์ ํฌํจํ๋ค๋ ์๋ฏธ
- ํด๋น ๋ฒ์๋ฅผ ํตํ์ฌ ํ๋ณธ ํ๊ท ์ ๋ฒ์๊ฐ ๋๋ต ์ด๋ ์ ๋์ธ์ง ์ ์ ์์ โ ํ๋ณธ ํ๊ท ์ ๋ณ๋์ฑ์ ์ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ํ๋ณธ๊ณผ์ ๋น๊ต๊ฐ ์ฉ์ด
๋ ๊ฐ์ ํ๋ณธ ํ๊ท ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๋น๊ตํ๋ฉด ์๋์ ๊ฐ์ผ๋ฉฐ, ๊ฐ Variation์ ์ ๋ขฐ ๊ตฌ๊ฐ์ด ๊ฒน์น์ง ์๋ ๊ฒ์ ์ ์ ์๋ค.
- ๊ฐ ์ ๋ขฐ ๊ตฌ๊ฐ์ด ๊ฒน์น์ง ์๋ ๊ฒฝ์ฐ, ๋ ํ๋ณธ ํ๊ท ์ ์ ์ํ๊ฒ ๋ค๋ฆ(significantly different)
- A/B ํ ์คํธ ๊ฒฐ๊ณผ๋ก ์ด์ผ๊ธฐํ๋ฉด, B์ ํ๊ท ๊ตฌ๋งค์ก์ด A์ ํ๊ท ๊ตฌ๋งค์ก๋ณด๋ค ํผ
์ด๋ ์ฃผ์ํ ๊ฒ์ ๊ทธ ์ญ์ ์ฑ๋ฆฝํ์ง ์๋๋ค๋ ์ ์ด๋ค. ์ ๋ขฐ ๊ตฌ๊ฐ์ด ๊ฒน์น์ง ์๋๋ค๋ฉด ๋ ํ๋ณธ ํ๊ท ์ ์ ์ํ๊ฒ ๋ค๋ฅด๋ค๊ณ ํ ์ ์์ง๋ง, ์ ๋ขฐ ๊ตฌ๊ฐ์ด ๊ฒน์น๋ ๊ฒฝ์ฐ์๋ ๊ทธ ์ ๋์ ๋ฐ๋ผ์ ํ๋ณธ ํ๊ท ์ด ์ ์ํ๊ฒ ๋ค๋ฅด๊ฑฐ๋ ๋ค๋ฅด์ง ์์ ์ ์๋ค.
์ด๋ด ๋๋ ๊ฐ์ค ๊ฒ์ ์ ์ ๋๋ก ํ ํ์๊ฐ ์์ผ๋ฉฐ, ์ ๋ขฐ ๊ตฌ๊ฐ์ ์ด์ฉํ ํต๊ณ์ ์ ์์ฑ ๊ฒํ ๋ ๋น ๋ฅด์ง๋ง ์ ํํ์ง ์์ ๋ฐฉ๋ฒ์์ ๋ช
์ฌํด์ผ ํ๋ค.
- A/B ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๋น ๋ฅด๊ฒ ๋น๊ตํ ์ ์๋ ๋ฐฉ๋ฒ์ผ๋ก ์ ๋ขฐ ๊ตฌ๊ฐ์ ํ์ฉํ ์ ์์
- ํนํ, ํ๋ณธ ํ๊ท ์ ์ ๋ขฐ ๊ตฌ๊ฐ์ด ๊ฒน์น์ง ์๋๋ค๋ฉด ํต๊ณ์ ์ผ๋ก ์ ์ํ ์ฐจ์ด๊ฐ ์๋ค๊ณ ๋ด
- ๊ทธ๋ฌ๋ ์ด๋ ๋น ๋ฅด๊ฒ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๋ ์ฉ๋์ด์ง ๊ฒฐ์ฝ ๊ฐ์ค ๊ฒ์ ์ ๋์ฒดํ ์๋ ์๊ธฐ ๋๋ฌธ์, ์ค๋ฌด์์ ์ ์ฉํ๋ฏ๋ก ์ ์ดํดํ๊ณ ์ฐ๋ ๊ฒ์ด ์ค์ํจ
Bayesian A/B test
- ์ ํ์จ ๊ฒ์ (Conversion Testing)
- ๊ด์ธก ๋ฐ์ดํฐ : ๊ฐ ๋ฐฉ๋ฌธ์๋ง๋ค A๋ B๋ฅผ ํตํด ๊ตฌ๋งคํ๋์ง ์ฌ๋ถ
- ๊ฐ์ค : A๋ณด๋ค B๊ฐ ๊ตฌ๋งค๋ก์ ์ ํ์จ์ด ๋์ ๊ฒ์ด๋ค
- ๊ฐ๋ฅ๋(Likelihood) = ์ฐ๋ฆฌ๊ฐ ๊ด์ธกํ๋ ๋ฐ์ดํฐ์ ํจ์ : ์ดํญ ๋ถํฌ(Binomial Distribution)
- ์ดํญ๋ถํฌ ํ๋ฅ ๋ณ์ : n๋ช ์ ์ฌ๋ ์ค ์ด๋ค event๋ฅผ ์ฑ๊ณตํ ์ฌ๋์ * ์ฌ์ ๋ถํฌ(Prior) : ๋ฒ ํ ๋ถํฌ(Beta Distribution)
- ๋ฒ ์ด์ง์์ ๋ชจ์์ ์ฌ์ ๋ถํฌ๋ฅผ ๊ฐ์ ํด ๋ชจ์์ ์ค์ ๊ฐ์ด ํ๋๊ฐ ์๋๋ผ, ์ฌ๋๋ค์ ๋ฏฟ์(belief)์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ๋ถํฌ ํํ๋ฅผ ๋ ๊ณ ์๋ค๊ณ ์๊ฐํจ
- ์ฌ๊ธฐ์ ๊ด์ฌ ๋ชจ์๋ Pa, Pb์ธ ์ ํ์จ์ด๊ธฐ ๋๋ฌธ์, ์ด์ ๋ง๋ ์ฌ์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ๋ ๊ฒ์ด ์ค์ํจ
- ๋ฒ ํ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ํ๋ฅ ๋ณ์๋ ํญ์ (0,1) ์ฌ์ด์ ๊ฐ์ด๊ธฐ ๋๋ฌธ์, ์ฑ๊ณต ํ๋ฅ ์ ๋ถํฌ์ ์์ฐ์ค๋ฌ์ด ๊ฐ์ ์ด ๋จ
- ํน๋ณํ ์ฌ์ ์ง์์ด ์์ ๊ฒฝ์ฐ ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ(Non-informative prior)๋ฅผ ์ฃผ๋ ๊ฒ์ด ์ผ๋ฐ์ ์
- ๋ฌด์ ๋ณด ์ฌ์ ๋ถํฌ๋ ๋ง ๊ทธ๋๋ก ์ ๋ณด๊ฐ ์๋ ์ฌ์ ๋ถํฌ๋ก, ๋ฒ ํ ๋ถํฌ์ ๊ฒฝ์ฐ Beta(1,1)์ ํด๋นํจ * ์ฌํ ๋ถํฌ(Posterior) : ๋ฒ ํ ๋ถํฌ
- ์ฌ์ ๋ถํฌ์ ๊ฐ๋ฅ๋๋ฅผ ๊ฐ๊ฐ ๋ฒ ํ์ ์ดํญ๋ถํฌ๋ก ์ค์ ํ๋ ๊ฒ์ ์ฅ์ : ์ผค๋ ์ฑ(Conjugacy) ์ด์ฉ โ ์ฌํ ๋ถํฌ(Posterior Distribution)๋ฅผ ๊ตฌํ์ ๋, ๊ทธ ํํ๊ฐ ์ฌ์ ๋ถํฌ์ ๊ฐ์ ๋ถํฌ์ผ ๋ ์ผค๋ ์ฑ์ ๋ค๋ค๊ณ ๋งํจ
- ๊ฐ๋ฅ๋๊ฐ ์ดํญ ๋ถํฌ Binomial(n,p)๊ณ ์ฌ์ ๋ถํฌ๊ฐ Beta(ฮฑ,ฮฒ)์ผ ๊ฒฝ์ฐ : ์ฌํ ๋ถํฌ๋ Beta(ฮฑ+x,ฮฒ+n-x)๋ฅผ ๋ฐ๋ฅด๊ฒ ๋จ
- ์ฌํ ๋ถํฌ์์ ๋์๋ฅผ ์์ฑํ ํ ํ๊ท ์ ๊ตฌํ๋ฉด ๊ฐ ์ ํ์จ์ ์ถ์ ์น๋ฅผ ๊ตฌํ ์ ์์ * ์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ
print((posterior_samples_A > posterior_samples_B).mean())
: posterior mean ๊ฒฐ๊ณผ๊ฐ = 0.31355- A ๋์์ธ์ ์ ํ์จ์ด B ๋์์ธ์ ์ ํ์จ๋ณด๋ค ๋์ ํ๋ฅ ์ด 31.36% = B ๋์์ธ ์ ํ์จ์ด A์ ์ ํ์จ๋ณด๋ค ๋์ ํ๋ฅ ์ด 68.64%
- ๊ธฐ๋ ์์ต ๋ถ์ (Expected Revenue Analysis)
- ๊ฐ์ : ์ด๋ค ์น์ฌ์ดํธ์ ๊ธฐ๋ ์์ต : E[R] = 79p1 + 49p2 + 25p3 + 0p4
- ๊ฐ์ : p1, p2, p3, p4 = ๊ฐ๊ฐ $79, $49, $25 ๊ฐ๊ฒฉ ํ๋์ ์ ํํ ํ๋ฅ & ์๋ฌด ํ๋์ ์ ํํ์ง ์์ ํ๋ฅ
- ๊ฐ๋ฅ๋ : ๋คํญ ๋ถํฌ((Multinomial Distribution) โ ์ดํญ ๋ถํฌ ํ์ฅํ
- ์ฌ์ ๋ถํฌ : ๋๋ฆฌํด๋ ๋ถํฌ (Dirichlet Distribution) โ ๋ฒ ํ ๋ถํฌ ํ์ฅํ
- ์ฌํ ๋ถํฌ : ๋๋ฆฌํด๋ ๋ถํฌ
- ๊ฐ๋ฅ๋๊ฐ ๋คํญ๋ถํฌ (x1,x2,x3,x4)์ด๊ณ ์ฌ์ ๋ถํฌ๊ฐ Dirichlet(1,1,1,1)์ผ ๊ฒฝ์ฐ : Dirichlet(1+x1,1+x2,1+x3,1+x4)
MAB (Multi-Armed Bandits)
ํ ์คํธ์๋ ํ์-ํ์ฉ ๊ตํ(Exploration-Exploitation tradeoff)์ด ์กด์ฌํ๋ค.
- ํ์(Exploration) : ๊ฐ์ฅ ๋์ ๋์์ ์ฐพ๊ธฐ ์ํด ํ ์คํธํ๋ ๊ณผ์
- ํ์ฉ(Exploitation) : ํ ์คํธ๋ฅผ ์ค๋จํ๊ณ ๊ฒฐ์ ๋ ๋์์ ์ ํํ๋ ๊ฒ
- ํ ์คํธ๋ฅผ ๋ง์ด ํ๋ฉด ๋ง์ด ํ๋๋๋ก ๊ธฐํ ๋น์ฉ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ณ , ์ํ๋ฉด ์ํ๋๋๋ก ์ ๋ขฐ์ฑ์ ๋ฌธ์ ๊ฐ ๋ฐ์
์์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณํํ ๊ฒ์ด MAB(Multi Armed Bandit) ์ด๋ค. MAB๊ฐ ๋๋ํ ์ด์ ๋ ํ์๊ณผ ํ์ฉ์ ์ต์ ํํ์ฌ, ์์ต๋ฅ ์ ๊ทน๋ํํ๊ธฐ ๋๋ฌธ**์ด๋ค.
MAB์์ ์์ฃผ ์ฐ์ด๋ ์ฉ์ด๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ํ๋(Action): MAB์์ ์ ํ๋ ๋์ (ex. A/B ํ ์คํธ์์ A์, B์)
- ๋ณด์(Reward): ํ ๋ฒ์ ํ๋์ ๋ฐ๋ฅธ ์์นํ๋ ๊ฒฐ๊ณผ (ex. ํด๋ฆญ, ๊ตฌ๋งค)
- ๊ฐ์น(Value): ํ๋์ผ๋ก ์ธํ ๊ธฐ๋ ๋ณด์ MAB์์๋ ๋ชจ๋ ํ๋์ด ์์๋๋ก ๋ฐ์ํ๋ค๊ณ ๊ฐ์ ํ๋ค. ๊ทธ ์์์ ๋ฐ๋ผ ์์ t์ ํ๋์ At๋ผ ํ๊ณ , ํ๋์ ๋ฐ๋ฅธ ๋ณด์์ Rt๋ก ํ๊ธฐํ๋ค. ๋ํ, ํ๋ a์ ๊ฐ์น๋ q*(a), ์์ t์ ์ถ์ ๋ ๊ฐ์น๋ Qt(a)๋ผ ํ๋ค.
MAB์์ ๋ด์ผํ ์๊ณ ๋ฆฌ์ฆ์ ์ด 4๊ฐ๊ฐ ์๋ค.
- ๊ทธ๋ฆฌ๋(Greedy)
- ํ์ฌ ์์ t๊น์ง ๊ธฐ๋๋ณด์ Qt(a)๋ฅผ ์ต๋ํํ๋ ํ๋ At๋ฅผ ์ ํ โ ์ํ์ฑ โ
- ํ์(exloration)์ ์ถฉ๋ถํ ํ์ง ์๊ณ , ํ์ฉ(exploitation)์ ๋๋ฌด ๋ง์ด ํ๋ ์๊ณ ๋ฆฌ์ฆ
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ข์ ์๊ณ ๋ฆฌ์ฆ์ ์๋
- ์
์ค๋ก -๊ทธ๋ฆฌ๋(Epsilon-Greedy)
- ๊ทธ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ์์ ํ์์ ์ด์งํ๊ธฐ ์ํด ๋ณด์๋ ์๊ณ ๋ฆฌ์ฆ
- 1-ฯต์ ํ๋ฅ ๋ก๋ ๊ทธ๋ฆฌ๋ ์๊ณ ๋ฆฌ์ฆ & ฯต์ ํ๋ฅ ๋ก ๋๋คํ๊ฒ ์ ํ
- ฯต์ ํ๋ฅ ๋งํผ ํญ์ ๋ฌด์์ ํ์(Exploration)์ ํด์ผ ํ๊ธฐ ๋๋ฌธ์, ์ต์ ์ object๋ฅผ ์ฐพ์๋๋ผ๋ ์๊ฐ์ด ์ง๋๋ฉด ์ต์ ๊ฐ๊ณผ ๋ฉ์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ ์๋ ์์
- ๋จ์ : ๋๋ค์ฑ์ผ๋ก ์ธํด์ ์ต์ ๊ฐ๊ณผ๋ ๋ฉ์ด์ง๊ธฐ๋ ํ๊ณ ํ์์ ๊ณผ๋ํ๊ฒ ํ๋ ๊ฒฝํฅ ๆ
- UCB(Upper Confidence Bound)
- ์ด ์๊ณ ๋ฆฌ์ฆ์ ์์ด๋์ด๋ ์ถ์ ๋ ๊ฐ์น Qt(a)์์ ์ผ์ข ์ ์ ๋ขฐ ๊ตฌ๊ฐ์ ๊ตฌํด์ ๊ทธ ๊ตฌ๊ฐ์ ์์ชฝ ์ ๋ขฐ ๊ตฌ๊ฐ์ ํ๋์ ์ ํํ๋ ๊ฒ์
- ํ์ฉ๊ณผ ํ์์ ์ ์ ํ ๊ณ ๋ คํด์ ์ ํํ๋ ์๊ณ ๋ฆฌ์ฆ
- ํฐ์จ ์ํ๋ง(Thompson Sampling)
- ๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ์ผ๋ก, ๊ด์ฌ ์๋ ๋ชจ์์ ๋ํด ์ฌ์ ๋ถํฌ๋ฅผ ์ ์ํ๊ณ , ๊ด์ธก๋ ๊ฐ์ผ๋ก๋ถํฐ ์ฌํ ๋ถํฌ๋ฅผ ์ด๋์ด๋
- ๋ชจํ๊ท ๊ณผ ๋ชจํ์คํธ์ฐจ๊ฐ ํ๋์ ๋ถํฌ(=์ฌ์ ๋ถํฌ)๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ๊ฐ์ ํ๊ณ ์ด๋ฅผ ๋ฐ์ดํฐ(= ๊ฐ๋ฅ๋)์ ๋ฐ๋ผ ๋ชจํ๊ท ๊ณผ ๋ชจํ์คํธ์ฐจ์ ๋ํ ๋ถํฌ๋ฅผ ์ ๋ฐ์ดํธ(=์ฌํ ๋ถํฌ)ํ๋ ๋ฐฉ์
A/B Test๋ฅผ ์ ๋ขฐํ๊ธฐ ์ด๋ ค์ด ์ผ์ด์ค
- ์ด์ ์คํ์ ์ฌ์ฉํ ์คํ ๋ชจ์ง๋จ์ ์ฌ์ฌ์ฉํ๊ณ ์์
- ๋ฐ์ํ๋ ๋ฌธ์ : ์๋ฅ ํจ๊ณผ(Carryover effect), ex.์คํ ์ข ๋ฃ ํ์๋ ์คํ ํจ๊ณผ๊ฐ ์ฝ 3์ฃผ๊ฐ ์์กด
- ํด๊ฒฐ๋ฐฉ๋ฒ : ์คํ์ ์งํํ ๋๋ง๋ค Randomization โ ์๋ก์ด ์คํ ํ ๋น ์ ์ฌํ ๋น(Re-randomization) ํตํ ์๋ก์ด ์คํ ์ง๋จ ๊ตฌ์ฑ
- ์ฌ์ฉ์ ๋จ์์ ์งํ๋ฅผ ์ฌ์ฉํ๊ณ ์์ง ์์ (์คํ ๋จ์, ๋ถ์ ๋จ์ ๊ฐ์ง ์์)
- ์คํ๋จ์ = ์ฌ์ฉ์ / ๋ถ์๋จ์ = ๋ถ์์ ์ฌ์ฉ๋๋ ์งํ์ ๋จ์
- ๋ฐ์ํ๋ ๋ฌธ์ : ์งํ ๋ถ์ฐ์ Bias๊ฐ ์๊น โ ํ์คํธ์ฐจ(standard deviation)๊ณผ ํ์ค์ค์ฐจ(standard error)๋ฅผ ํผ๋ํ๋ฉด ์๋จ
- ์คํ๋จ์์ ๋ถ์๋จ์๊ฐ ๋ค๋ฅด๋ฉด i.i.d. ๊ฐ์ ์ด ๊นจ์ง (independent and identically distributed)
- ๊ด์ฌ ์งํ๊ฐ 1,000๊ฐ๋ผ ํ๊ณ , A/A Test ๊ธฐ๊ฐ ๋ด ๊ด์ธกํ ์งํ๋ค์ p-value๋ฅผ ๊ตฌํ์ ๋ histogram์ ๊ท ์ผ ๋ถํฌ๋ฅผ ๋์ด์ผํจ โ A/A Test ์ฑ๊ณต
- ํด๊ฒฐ๋ฐฉ๋ฒ : Delta Method๋ฅผ ํตํ ์งํ์ ๋ถ์ฐ ์ถ์ or Bootstrap sampling
- A/A Test๋ฅผ ์ํํ๊ณ ์์ง ์์
A/A Test๋ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ฅด๊ณ ์ง๋์น ์ ์๋ ํจ์ ์ ๋ฐ๊ฒฌํ ์ ์๋ ์ ์ผํ ๋ฌด๊ธฐ์ด๋ค.
- ์คํ ํ๋ซํผ์ ๋ํ ์ ๋ขฐ๋ฅผ ๊ตฌ์ถํ๋ ๋ฐ ๋งค์ฐ ์ ์ฉ
- ๋ถํฌ ๋ถ์ผ์น์ ํ๋ซํผ ์ด์์ ํฌํจํ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ๊ธฐ ์ํด ๋ค๋ฅธ ์คํ๊ณผ ๋ณํํด์ ๊ณ์ํด์ A/A Test๋ฅผ ์คํํ๋ ๊ฒ์ ์ถ์ฒ
๐ก ๊ธฐ์ ์ง๋ฌธ
โฌ ๋งค์ถ์ด ๊ฐ์ํ๋ค๊ณ ํ๋ฉด ์ด๋ป๊ฒ ์ ๊ทผํ์ฌ ๋ถ์ํ๊ฒ ๋๊ฐ?
๋งค์ถ์ ์ฆ๊ฐ์ ํํํ ์ ์๋ ๋ค์ํ ์งํ(Index)๋ฅผ ์์ฑ(๊ธฐ์กด+์ ๊ท)ํ์ฌ, ์ฌ์ ๋ถ/์ํ/๊ธฐ๊ฐ ๋จ์๋ก ๋งค์ถ ๊ฐ์ ์์ญ์ Sensingํ๊ณ ์์ธ ๋ถ์์ ํตํด ๋งค์ถ ๊ฐ์ ์์ธ์ ํ์ ํ๊ฒ ์ต๋๋ค.
โฌ ๋ฐฐ์น ํ์ดํ๋ผ์ธ์ Tool์ธ Airflow๋?
Apache Airflow๋ ํ๋ก๊ทธ๋๋ฐ ๋ฐฉ์์ผ๋ก ์ํฌํ๋ก์ฐ๋ฅผ ์์ฑ, ์์ฝ ๋ฐ ๋ชจ๋ํฐ๋งํ๋ ์คํ ์์ค ํ๋ซํผ์ ๋๋ค. ์ ํํ ์๊ฐ์, ์ ํํ ๋ฐฉ๋ฒ์ผ๋ก, ์ ํํ ์์๋๋ก ์คํํ๊ฒ ํด์ฃผ๋ ์ค์ผ์คํธ๋ ์ดํฐ๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค.
โฌ ์ฝ๋ก๋์ ๊ฐ์ ํน์ํ ์ํฉ์ ๋ํด ์ด๋ป๊ฒ ์์ธกํ ๊ฒ์ธ๊ฐ?
๊ณผ๊ฑฐ์ ์ฝ๋ก๋๋ผ๋ ํน์ํ ์ ์ผ๋ณ์ ์ฌ๋ก์ ๋น์ทํ(๋ฉ๋ฅด์ค, ์ฌ์ค) ์ ์ผ๋ณ์ ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ํ์๋ณ์๋ฅผ ์์ฑํ๊ณ , Feature๋ก ์ฌ์ฉํ ๊ฒ ์ ๋๋ค. ํฌ๋กค๋ง์ ํตํด ๊ฒ์์ด ์ฆ๊ฐ์ ๋ถ์ํ์ฌ ์ฌ์ Issue Alert ์ ๋ฌํ๊ณ , ์์ ๋์์ ์งํํ ๊ฒ ์ ๋๋ค.
โฌ RFM ๋ฐฉ๋ฒ๋ก ์ ํจ๊ณผ๊ฐ ์ข์ง ์์๋ฐ ์ด๋ป๊ฒ ์ฌ์ฉํ ๊ฒ์ธ๊ฐ?
์ด๋ ์์ญ(R/F/M) ๊ฐ์ค์น๋ฅผ ๋ ๋๋๋์ ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๊ฐ์น๊ฐ ๊ฒฐ์ ๋๋ค๊ณ ์๊ฐํฉ๋๋ค. ๋ถ์ ๋ชฉ์ ์ ๋ง๋ ๊ฐ์ค์น ์ค์ ์ ํตํด ์ต๊ณ ์ ํจ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ ๋ฐฉ์์ ๊ณ ์ํ๋ค๋ฉด RFM๋ ์ฑ๋ฅ์ ๋์ผ ์ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค.
โฌ 2~3์ฒ๊ฐ์ Feature๊ฐ ์๋๋ฐ ์ด๋ป๊ฒ ์ ๊ทผํ๊ฒ ๋๊ฐ?
๋ชจ๋ฒ ๋ต์ NA ๋น์จ ๋ฐ Zero ๋น์จ, Outlier ํ์ธํ ์๋ฏธ์๋ ๋ณ์๋ฅผ 1์ฐจ ์ ๊ฑฐํ๊ฒ ์ต๋๋ค. Correlation ๋ถ์์ ํตํด ์๊ด๊ด๊ณ๊ฐ ๋์ ๋ณ์๋ฅผ ์ ๊ฑฐ(Y์ ์ํฅ์ ๊ฐ์ฅ ๋ง์ด ๋ฏธ์น๋ ๋ณ์๋ฅผ ์์กด์ํด)ํ๊ณ ๋ง์ฝ ์ปดํจํ ํ์๊ฐ ๊ฐ๋ฅํ๋ค๋ฉด ๊ทธ๋ฆฌ๊ณ Tree ๊ณ์ด์ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค๊ณ ๊ฐ์ ํ์ ๋, ์ต๋ํ ๋ง์ ๋ณ์๋ฅผ ๋ฃ์ด์ ์งํํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉํฅ์ฑ์ผ๋ก ๋ถ์์ ์งํํ๊ฒ ์ต๋๋ค.
โฌ ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค์์ ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ์๊ฐ๋๋ ๋จ๊ณ๋?
ํ์ ์ Needs๋ฅผ ํ์ ํ์ฌ ๊ณผ์ ๋ฅผ ๊ตฌ์ฒดํ์ํค๋ ๋จ๊ณ์ ๋ถ์๋ ๊ฒฐ๊ณผ๋ฅผ ํ์ ์ ์ ์ฉ์ํค๋ ๋จ๊ณ๊ฐ ๊ฐ์ฅ ์ค์ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ๊ณผ์ ๊ตฌ์ฒดํ์ ํ์ ์ ์ฉ ๋จ๊ณ๋ฅผ ๋์น๋ฉด ์ ๋๋ก๋ ๋ถ์๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๐ก CRM ์บ ํ์ธ ์ต์ ํ๋ฅผ ์ํ ๋ชจ๋ธ๋ง
๊ด๊ณ ํจ์จํ : ์ต์ํ์ ์์ฐ์ผ๋ก ์ฐ๋ฆฌ ๊ด๊ณ ์ ์ ํฉํ ์ ์ ๋ฅผ ์ฐพ์ ํจ๊ณผ์ ์ธ ๊ด๊ณ ๋ฅผ ๋ง๋๋ ๊ฒ ์ด๋, ๊ด๊ณ ํจ์จํ๋ฅผ ์ํด์๋ ํ๊ฒ, ์์ฐ, ๋ ธ์ถ ์์น, ๊ด๊ณ ์์ฌ ๋ฑ ๊ณ ๋ คํด์ผํ ํฌ์ธํธ๊ฐ ๋๋ฌด ๋ง์
โฌ ifkakao ๋ฐํ
- ์ปจํ ์ธ ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ํน์ฑ์ด ๋ค๋ฅด๊ธฐ์ ํน์ ์ปจํ ์ธ ๋ ๋น ๋ฅธ ํผ๋๋ฐฑ์ ์์งํ๋ ๊ฒ ์ค์
โฌ ํ์ด์ค๋ถ ์ฌ๋ก
- ๋ฐ์ดํฐ : ์ฌ์ฉ์๋๋ฅด์ด ํ๋ ํจํด, ์ ์ ๊ฐ ๋ฐ์ํ ๊ด๊ณ ์ ํ ๋ฑ
- ํน์ ์๊ฐ, ๋ ธ์ถ ์์น, ๋ค์ํ ๋๋ฐ์ด์ค์ ๊ด๊ณ ๋ฅผ ๋ฟ๋ ค ๋ณด๊ณ ๊ฐ์ ์ข์ ๊ฒฝ์ฐ์ ์๋ฅผ ์ฐพ๊ณ ๊ด๊ณ ๋ ธ์ถ ๋ฐ๋ณต๋จ
- ์ฝ 7์ผ ๋์ 50๊ฐ์ ํ ์คํธ๋ฅผ ๋จธ์ ๋ฌ๋ ๊ธฐ๊ฐ์ผ๋ก ๋ด
- ์บ ํ์ธ ๋ชฉํ
- ex) ํธ๋ํฝ โ ํธ๋ํฝ ๊ฑด์๊ฐ 50๊ฑด ์ด์ ๋์์ ๋ / ๊ตฌ๋งค ๋ชฉํ โ ๊ตฌ๋งค ๊ฒฐ์ ๊ฐ 50๊ฑด ๋๋ฌํ์ ๋
- 7์ผ ๊ธฐ์ค : ๊ด๊ณ ์ธํธ๋ฅผ ์์ฑํ๊ณ ๋์๋ถํฐ 7์ผ์ด๋ฉฐ, ๊ทธ์ ์ ์์ ์ ํ๋ฉด ์์ ํ ์์ ๋ถํฐ ๋ค์ 7์ผ ์์
์ต์ ํ
์ต์ ํ๋ ๋ด๊ฐ ์ํ๋ ํ๋์ ํ ๋งํ ์ ์ ์๊ฒ ๊ด๊ณ ๋ฅผ ๋ ธ์ถ์์ผ์ ํ๋ฅ ์ ๋์ด๋ ๊ฒ์ผ๋ก ์ ์ํ ์ ์๋ค.
- ๋ด๊ฐ ์ํ๋ ํ๋ = ๋์ KPI
- ์ต์ ํ๋ฅผ ์ํด์๋ ๋ด KPI๊ฐ ๋ฌด์์ธ์ง ์๋๊ฒ ์ค์
- ํ๋ฅ ์ ๋์ธ๋ค๋ ๊ฒ = ์ ํ์จ์ ๋์ด๋ ๊ฒ
์บ ํ์ธ ๋ชฉํ๋ณ ๊ฒ์ฌ ์ต์ ํ ๊ธฐ์ค์์ ๊ฐ์ฅ ๋ง์ด ์ค์ํ๋ ๋ถ๋ถ์ ๋๋ฉ ํ์ด์ง ์กฐํ์ ๋งํฌ ํ์ด์ง ์กฐํ๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ์ด๋ค.
- ๋ด๊ฐ ๋ง๋ค์ด ๋์ ์์ธ ํ์ด์ง์ธ ๋๋ฉ ํ์ด์ง๋ฅผ ํด๋ฆญํ๋ ๊ฒ์ด ๋งํฌ๋ฅผ ํด๋ฆญํ๊ณ ๋น ๋ฅด๊ฒ ์ดํํ๊ฑฐ๋ ์์ธํ์ด์ง๊น์ง ๋๋ฌํ์ง ์๋ ํธ๋ํฝ๊ณผ ๊ตฌ๋ถ๋ ์ ์๋ ์์น์
- ๊ด๊ณ ๊ฒ์ฌ ์ต์ ํ ๊ธฐ์ค์ ๋๋ฉ ํ์ด์ง ์กฐํ๋ก ๊ผญ ์ ํํด์ผํจ
๐ก Good Answer
- ๋ด๊ฐ ๊ฐ์ง ๊ถ๊ธ์ฆ์ ๋ฐํ์ผ๋ก ๋ฐ์ดํฐ๋ถ์์ ํตํด ๋ด๊ฐ ์ข์ํ๋ ์๋น์ค์ ์ฑ์ฅ์ ๋์์ด ๋๋ ์ผ์ ํ๊ณ ์ถ์
- ์ฌ์ฉ์๋ถ๋ค์ด ์ฐ๋ฆฌ ์๋น์ค๋ฅผ ๋์ฑ ๋ง์กฑํ๋ฉด์ ์ฌ์ฉํ ์ ์๋๋ก ๋ง๋ค๊ณ , ์ด๋ฅผ ํตํด์ ๋น์ฆ๋์ค๊ฐ ์ฑ์ฅํ๊ณ ๋ค์ ์ฌ์ฉ์ ๋ง์กฑ๋๊ฐ ๋์์ง๋ ์ ์ํ์ ๋ง๋๋ ์ผ
- ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ป๊ฒ ์๋น์ค๋ฅผ ์ฑ์ฅ์ํฌ ์ ์์์ง์ ๋ํ ๊ณ ๋ฏผ
- ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํด์ ์ ๊ด๋ถ์์ ๊ณต์ ํ๊ณ ์คํ
- ์ค์ ๋ก ์๋น์ค๊ฐ ์ ์ฑ์ฅํ ์ ์๋๋ก ๋๊ธฐ
- โ๋ฐ์ดํฐ๋ถ์โ์ด๋ผ๋ ๋ฌด๊ธฐ๋ฅผ ํตํด ํด๊ฒฐํด์ผํ๋ ๋ฌธ์ ๋ฅผ ๋ฐ๊ฒฌํ๊ณ ํ์ด๋ด๊ธฐ
- ๋๊ธฐ๋ถ์ฌ : ๋ถ์ ์ ๋ฌด๊ฐ ์ค์ ๋ก ์๋น์ค ๋ชฉํ ๋ฌ์ฑ์ ๋์์ด ๋์๋ค๋ ๊ฒ์ ํ์ธ (์ด์ ๊ด์ ์์ ๊ฐ์ )
- ์ปค๋ฎค๋์ผ์ด์
: ์ํ๋ ๋ฐ๋ฅผ ๋ฐ์ดํฐ ์กฐ๊ฑด๊ณผ ์ํฉ์ ๋ง์ถฐ ๊ตฌ์ฒดํํ๊ณ , ๋ถ์ ๋ด์ฉ์ ์ดํด์ํค๋ ๊ณผ์ ์ ๋ ์ํ ์ ์์๊น ๊ณ ๋ฏผ
- ๋ถ์ ๊ฒฐ๊ณผ ๊ณต์ ๋ฟ ์๋๋ผ, ๋ถ์ํ๊ธฐ ์ ์๋น์ค์ ์ด์ ๊ด์ ์์ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์ด๋ค ๊ฒ์ธ์ง๋ฅผ ๋ ผ์ํ๋ ์์๋ถํฐ ์ํต์ด ํ์
- ์ ํ๋ ๋ฆฌ์์ค ๋ด์์ ๋ค์ํ๊ณ ๊ณ ๋ํ๋๋ ๋์ฆ๋ฅผ ์ ์ถฉ์กฑ์ํค๊ณ ์ต์ ์ ๋ฐฉํฅ์ฑ์ ์ฐพ์๊ฐ๊ธฐ ์ํ ๊ณ ๋ฏผ ๅค
- ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ๊ฐ์ค์ ์ธ์ฐ๊ณ ๊ฒ์ฆํ๋ฉด์, ๋น์ฆ๋์ค ์ฑ์ฅ์ ์ง์ ์ ์ผ๋ก ๋์์ด ๋๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ด๋ ๊ณผ์
- ๋๋ฉ์ธ ์ดํด๋
- ๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋๋ผ๋ ๊ทธ ์์์ ์จ๊ฒจ์ง ๋งฅ๋ฝ๊ณผ ์์ธ์ ์ฐพ๊ณ ์ด๋ค ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๋์ง์ ๋ฐ๋ผ์ ๋ถ์ ๋ด์ฉ์ด ๋ฌ๋ผ์ง
- ์๋น์ค์ ์ฌ์ฉ์์ ๋ํ ์ ์ ๊ณผ ๊ด์ฌ์ ๋ฐํ์ผ๋ก ๋๋ฉ์ธ ์ดํด๋๊ฐ ๋์์ผ ํจ
- ๊พธ์คํจ
- ์คํจ์ ๊ณผ์ ์ ๋๋ ค์ํ์ง ์๊ณ ๋์์์ด ๊ณ ๋ฏผํ๋ฉด์ ์ ๊ทน์ ์ผ๋ก ๋ต์ ์ฐพ์ผ๋ ค๋ ์ฑํฅ ์ค์
- ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ
- ์ค์ค๋ก ๋ฌธ์ ์์์ ๊ฐ์ง๊ณ ์ค์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ํด๊ฒฐ์ฑ ์ ์ฐพ๊ณ , ๊ฐ์ ํ๊ธฐ ์ํด ์คํํด๋ณธ ๊ฒฝํ
- ์ค์ ๋ก ์ด๋ค ๋ฌธ์ ๋ฅผ ๋๊ณ ์ ๊ทธ๊ฒ์ด ๋ฌธ์ ๋ผ๊ณ ์๊ฐํ๊ณ ์ด๋ป๊ฒ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ํ์ฉํ๋์ง
๐ก ๊ถ๊ธํ ๋ถ๋ถ
- ๋นํ์ฑ ์ ์ ๋ค์ ๋ก๊ทธ ๋ฐ์ดํฐ๊ฐ ์ ์ด์ ๋ชจ๋ธ๋ฆฌ์ ์ด๋ ต๊ณ , ์ฝํ ์ธ ์๋ช ์ด ์งง์ ํธ์. ์๋น์ค ๊ตฌํ ๋ฐฉ์์ ๋ฐ๋ผ ๋ค๋ฅด์ง๋ง ์ด๋ด๋๋ ํผ๋๋ฐฑ ์๋์ ๋๋ ๋ง๊ฐ ์์ ๊ฒ์ผ๋ก ์์๋จ. ์ด๊ฑด ์ด๋ป๊ฒ ํด๊ฒฐํ๊ณ ์๋์ง?
Reference
- ๋ฐ์ดํฐ ์ง๋ฌด ๋ฉด์ ์ง๋ฌธ ๋ชจ์์ง (feat. ๋ชจ๋ฒ ๋ต๋ณ, ํฉ๊ฒฉ ๊ฟํ๊น์ง)
- ๋ฐ์ดํฐ ๊ด๋ จ ์ง๋ฌด ๋ฉด์ ๋๋น์ฉ ๊ฐ๋ ํ ์ค ์ ๋ฆฌ
- ๊ฐ์๋จน๋ ํต๊ณ ๊ธฐ์ด[4] ๊ฐ์ค, ๊ฒ์ , p-value
- ์ค์ฌ๊ทนํ์ ๋ฆฌ(CLT; central limit theorem)
- Handling imbalanced datasets
- Conv1D, Conv2D, Conv3D ์ฐจ์ด
- CNN - Kernel & Feature map
- Complex Pattern Jacquard Fabrics Defect Detection Using Convolutional Neural Networks and Multispectral Imaging (2022)
- Automatic Ship Detection Based on RetinaNet Using Multi-Resolution Gaofen-3 Imagery (2019)
- ๋น์ ์ A/B Test๋ฅผ ์ ๋ขฐํ ์ ์๋ ์ด์
- ์ ๋ขฐ๊ตฌ๊ฐ์ ์ด์ฉํ A/B Test
- ๋ฒ ์ด์ง์ A/B ํ ์คํธ in Python
- ๋ถ์ ๋ชฉ์ ์ ๋ง๋ ๊ณ ๊ฐ ์ธ๊ทธ๋จผํ ์ด์ ๋ฐฉ๋ฒ์ ์ฐพ์์
- LSTM-AE๋ฅผ ์ด์ฉํ ์ํ์ค ๋ฐ์ดํฐ ์ด์ ํ์ง