์ถ์ฒ : [์คํ๋ฅดํ์ฝ๋ฉํด๋ฝ] ๋ฐ์ดํฐ์ ๋ถํฌ
[์คํ๋ฅดํ์ฝ๋ฉํด๋ฝ] ๋ฐ์ดํฐ์ ๋ถํฌ
[์์ ๋ชฉํ]
๋ชจ์ง๋จ๊ณผ ํ๋ณธ์ ๋ํด์ ์ดํดํ๊ณ ๊ฐ๊ฐ์ ๋ํด ์ค๋ช ํ ์ ์๋ค.
๊ฐ๊ฐ์ ๋ถํฌ์ ๋ํ ๊ฐ๋ ๊ณผ ํน์ง์ ์ค๋ช ํ ์ ์๋ค.
ํ๋ณธ์ค์ฐจ์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํด ์ดํดํ๊ณ ์๋ค.
2.1 ๋ชจ์ง๋จ๊ณผ ํ๋ณธ
โ๏ธ ๋ชจ์ง๋จ์ ์ ์ฒด! ํ๋ณธ์ ์ผ๋ถ!
1) ๋ชจ์ง๋จ๊ณผ ํ๋ณธ์ด๋ ๋ฌด์์ผ๊น?
- ๊ด์ฌ์ ๋์์ด ๋๋ ์ ์ฒด ์ง๋จ. ex) ํ ๊ตญ๊ฐ์ ๋ชจ๋ ์ฑ์ธ.
โ๏ธ ๋ชจ์ง๋จ
- ๊ด์ฌ์ ๋์์ด ๋๋ ์ ์ฒด ์ง๋จ. ex) ํ ๊ตญ๊ฐ์ ๋ชจ๋ ์ฑ์ธ.
โ๏ธ ํ๋ณธ
- ๋ชจ์ง๋จ์์ ์ถ์ถํ ์ผ๋ถ. ex) ๊ทธ ๊ตญ๊ฐ์ ์ฑ์ธ ์ค ์ผ๋ถ๋ฅผ ์กฐ์ฌ.
โ๏ธ ์ ํ๋ณธ์ ์ฌ์ฉํ๋ ๊ฑธ๊น?
ํ์ค์ ์ธ ์ ์ฝ
- ๋น์ฉ๊ณผ ์๊ฐ
- ์ ์ฒด ๋ชจ์ง๋จ์ ์กฐ์ฌํ๋ ๊ฒ์ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋ค๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋ถ๊ฐ๋ฅ(ex. ์๋์ฐจ ์ฑ๋ฅ ํ ์คํธ[์ถฉ๋ ์คํ ๋ฑ],์ ์๊ธฐ๊ธฐ ์ถฉ๊ฒฉ ํ ์คํธ ๋ฑ)ํ๊ฑฐ๋ ๋นํจ์จ์ ์ ๋๋ค. ํ๋ณธ ์กฐ์ฌ๋ ์ด๋ฌํ ์์์ ์ ์ฝํ๋ฉด์๋ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- ์ ๊ทผ์ฑ
- ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ด ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํน์ ์ง๋ณ์ ๊ฑธ๋ฆฐ ๋ชจ๋ ํ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๊ฒ์ ์ด๋ ค์ธ ์ ์์ต๋๋ค.
๋ํ์ฑ
- ํ๋ณธ์ ๋ํ์ฑ
- ์ ์ค๊ณ๋ ํ๋ณธ์ ๋ชจ์ง๋จ์ ํน์ฑ์ ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ํ๋ณธ์์ ์ป์ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ์ง๋จ ์ ์ฒด์ ์ผ๋ฐํํ ์ ์์ต๋๋ค.
- ๋ฌด์์๋ก ํ๋ณธ์ ์ถ์ถ(๋จ, ์ฌ๋ก ์กฐ์ฌํ ๋ ๋ฌด์์๋ ๋ง์ง๋ง ๋์ด, ์ง์ญ ๋ฑ์ ๋น์จ์ ์ด๋์ ๋ ๋ง์ถฐ์ผํด)ํ๋ฉด ํธํฅ์ ์ต์ํํ๊ณ ๋ชจ์ง๋จ์ ๋ค์ํ ํน์ฑ์ ํฌํจํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ ๊ด๋ฆฌ
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ฉ์ด์ฑ
- ํ๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๊ฒ๋ณด๋ค ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ๋ถ์์ด ํจ์ฌ ์ฉ์ดํฉ๋๋ค. ํฐ ๋ฐ์ดํฐ์ ์ ๋ถ์์ ๋ง์ ์ปดํจํ ์์์ด ํ์ํ ์ ์์ง๋ง, ์์ ํ๋ณธ์ ์ด๋ฐ ๋ถ๋ด์ ์ค์ฌ์ค๋๋ค.
- ๋ฐ์ดํฐ ํ์ง ๊ด๋ฆฌ
- ์์ ํ๋ณธ์์๋ ๋ฐ์ดํฐ ํ์ง์ ๋ ์ฝ๊ฒ ๊ด๋ฆฌํ๊ณ , ์ค๋ฅ๋ ์ด์๊ฐ์ ์๋ณํ์ฌ ์์ ํ ์ ์์ต๋๋ค.
๋ชจ๋ธ ๊ฒ์ฆ ์ฉ์ด
- ๋ชจ๋ธ ์ ํฉ๋ ํ
์คํธ
- ํ๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํต๊ณ์ ๋ชจ๋ธ์ ๊ฒ์ฆํ ์ ์์ต๋๋ค. ๋ชจ๋ธ์ด ํ๋ณธ ๋ฐ์ดํฐ์ ์ ๋ง๋๋ค๋ฉด, ๋ชจ์ง๋จ์๋ ์ ๋ง์ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
โ๏ธ ์ ์์กฐ์ฌ
- ๋ชจ์ง๋จ ์ ์ฒด๋ฅผ ์กฐ์ฌํ๋ ๋ฐฉ๋ฒ. ๋๊ท๋ชจ์ผ ๊ฒฝ์ฐ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ๋ฆ.
โ๏ธ ํ๋ณธ์กฐ์ฌ
- ํ๋ณธ๋ง์ ์กฐ์ฌํ๋ ๋ฐฉ๋ฒ. ๋น์ฉ๊ณผ ์๊ฐ์ด ์ ๊ฒ ๋ค์ง๋ง, ํ๋ณธ์ด ๋ํ์ฑ์ ๊ฐ์ ธ์ผ ํจ.
2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น์?
โ๏ธ ์ค์ ๋ก ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค ์์งํ ์ ์์ ๋ ํ๋ณธ์ ์ฌ์ฉ
- ๋์ ์ฐ๊ตฌ
- ํ ๋์์ ๋ชจ๋ ๊ฐ๊ตฌ(๋ชจ์ง๋จ) ์ค 100๊ฐ๊ตฌ(ํ๋ณธ)๋ฅผ ์กฐ์ฌํ์ฌ ํ๊ท ์ ๋ ฅ ์ฌ์ฉ๋์ ์ถ์ .
- ์๋ฃ ์ฐ๊ตฌ
- ํน์ ์น๋ฃ๋ฒ์ ํจ๊ณผ๋ฅผ ์์๋ณด๊ธฐ ์ํด ์ ์ฒด ํ์๋ฅผ ์กฐ์ฌํ๋ ๋์ , ํ๋ณธ์ ํตํด ์ถ์ ํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๊ฒฐ๋ก ์ ๋์ถํฉ๋๋ค.
- ์์ฅ ์กฐ์ฌ
- ์๋น์ ์ ํธ๋๋ฅผ ํ์ ํ๊ธฐ ์ํด ๋ชจ๋ ์๋น์๋ฅผ ์กฐ์ฌํ๋ ๋์ , ๋ฌด์์๋ก ์ ํ๋ ํ๋ณธ์ ํตํด ์ ์ฒด ์์ฅ์ ํธ๋ ๋๋ฅผ ์ถ์ ํฉ๋๋ค.
- ์ ์น ์ฌ๋ก ์กฐ์ฌ
- ์ ๊ฑฐ ์ ์ฌ๋ก ์กฐ์ฌ๋ฅผ ํตํด ์ ์ฒด ์ ๊ถ์์ ํฌํ ๊ฒฝํฅ์ ์ถ์ ํ์ฌ ์ ๊ฑฐ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํฉ๋๋ค.
โ๏ธ ํ์ด์ฌ ์ค์ต
import numpy as np
import matplotlib.pyplot as plt
# ๋ชจ์ง๋จ ์์ฑ (์: ๊ตญ๊ฐ์ ๋ชจ๋ ์ฑ์ธ์ ํค ๋ฐ์ดํฐ)
population = np.random.normal(170, 10, 1000)
# ํ๋ณธ ์ถ์ถ
sample = np.random.choice(population, 100)
# ํ์คํ ๊ทธ๋จ์ ๋์ด๋ ๊ฐ ๊ตฌ๊ฐ์ ํฌํจ๋ ๋ฐ์ดํฐ์ ๊ฐ์๋ฅผ ๋ํ๋ ๋๋ค. โ
plt.hist(population, bins=50, alpha=0.5, label='population', color='blue')
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='red')
plt.legend()
plt.title('population and sample distribution')
plt.show()
โ numpy.random๊ฐ ๋ฌด์์ธ๊น์~?
- numpy.random ๋ชจ๋์ NumPy ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ผ๋ถ๋ก, ๋ค์ํ ํ๋ฅ ๋ถํฌ์ ๋ฐ๋ผ ๋์๋ฅผ ์์ฑํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ๋ฐ์ดํฐ ๋ถ์, ์๋ฎฌ๋ ์ด์ ๋ฐฉ๋ฒ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ฌ์ฉ๋ฉ๋๋ค.
- np.random.normal
- ํจ์๋ ์ ๊ท๋ถํฌ(๊ฐ์ฐ์์ ๋ถํฌ)๋ฅผ ๋ฐ๋ฅด๋ ๋์๋ฅผ ์์ฑํฉ๋๋ค.
- ์ ๊ท๋ถํฌ๋ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ์ค์ฌ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ๋์นญ์ ์ผ๋ก ๋ถํฌํ๋ ๋ถํฌ์ ๋๋ค. (์ ๊ท๋ถํฌ๋ ๋ฐ์์ ๋ณผ ์์ )
numpy.random.normal(loc=0.0, scale=1.0, size=None)
- loc (float): ์ ๊ท๋ถํฌ์ ํ๊ท (๊ธฐ๋ณธ๊ฐ: 0.0)
- scale (float): ์ ๊ท๋ถํฌ์ ํ์คํธ์ฐจ (๊ธฐ๋ณธ๊ฐ: 1.0)
- size (int ๋๋ tuple of ints): ์ถ๋ ฅ ๋ฐฐ์ด์ ํฌ๊ธฐ (๊ธฐ๋ณธ๊ฐ: None, ์ฆ ์ค์นผ๋ผ ๊ฐ ๋ฐํ)
- np.random.choice
- ์ฃผ์ด์ง ๋ฐฐ์ด์์ ์์๋ก ์ํ๋งํ์ฌ ์์๋ฅผ ์ ํํฉ๋๋ค.
- ์ด๋ ์ง์ ๋ ๋ฐฐ์ด์์ ๋ฌด์์๋ก ์ ํ๋ ์์๋ฅผ ๋ฐํํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- ์ฝ๋ ์ค๋ช
- numpy.random.choice(a, size=None, replace=True, p=None)
- a (1-D array-like or int): ์ํ๋งํ ์๋ณธ ๋ฐฐ์ด. ์ ์์ธ ๊ฒฝ์ฐ np.arange(a)์ ๋์ผํ๊ฒ ๊ฐ์ฃผ๋ฉ๋๋ค.
- size (int ๋๋ tuple of ints): ์ถ๋ ฅ ๋ฐฐ์ด์ ํฌ๊ธฐ (๊ธฐ๋ณธ๊ฐ: None, ์ฆ ๋จ์ผ ๊ฐ ๋ฐํ)
- replace (boolean): ๋ณต์ ์ถ์ถ ์ฌ๋ถ๋ฅผ ๋ํ๋ ๋๋ค. True๋ฉด ๋์ผํ ์์๊ฐ ์ฌ๋ฌ ๋ฒ ์ ํ๋ ์ ์์ต๋๋ค (๊ธฐ๋ณธ๊ฐ: True)
- p (1-D array-like, optional): ๊ฐ ์์๊ฐ ์ ํ๋ ํ๋ฅ . ๋ฐฐ์ด์ ํฉ์ 1์ด์ด์ผ ํฉ๋๋ค.
โ plt.hist๊ฐ ๋ฌด์์ธ๊น์~?
- Matplotlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ํ์คํ ๊ทธ๋จ์ ๊ทธ๋ฆฌ๋ ํจ์์ ๋๋ค. ํ์คํ ๊ทธ๋จ์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์๊ฐํํ๋ ๋ฐ ์ ์ฉํ ๋๊ตฌ์ ๋๋ค.
- bins
- ํ์คํ ๊ทธ๋จ์ ๋น(bins)์ ๊ฐ์ ๋๋ ๊ฒฝ๊ณ์ ๋๋ค.
- ์ฌ๊ธฐ์ ๋น(bins)์ ๋ฐ์ดํฐ ๋ช๊ฐ์ ๊ตฌ๊ฐ์ผ๋ก ๋๋ ๊ฒ์ธ์ง์ ๋ํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.
- ์ ์๋ ๋ฆฌ์คํธ๋ก ์
๋ ฅํ ์ ์์ต๋๋ค.
- ์ ์: ๋น์ ๊ฐ์๋ฅผ ์ง์ ํฉ๋๋ค.
- ๋ฆฌ์คํธ: ๊ฐ ๋น์ ๊ฒฝ๊ณ๋ฅผ ์ง์ ์ง์ ํฉ๋๋ค. (140~150, 150~160 … ์ด๋ ๊ฒ ๊ฒฝ๊ณ๋ฅผ ์ง์ ํ๊ณ ์ถ์ผ๋ฉด ๋ฆฌ์คํธ๋ก ์์ฑ)
- alpha
- ํ์คํ ๊ทธ๋จ ๋ง๋์ ํฌ๋ช ๋๋ฅผ ์ง์ ํฉ๋๋ค. 0(ํฌ๋ช )์์ 1(๋ถํฌ๋ช ) ์ฌ์ด์ ๊ฐ์ ๋๋ค.
- label
- ํ์คํ ๊ทธ๋จ์ ๋ ์ด๋ธ์ ์ง์ ํฉ๋๋ค. ์ฌ๋ฌ ํ์คํ ๊ทธ๋จ์ ๊ทธ๋ฆด ๋ ๋ฒ๋ก๋ฅผ ์ถ๊ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
- color
- ํ์คํ ๊ทธ๋จ ๋ง๋์ ์์์ ์ง์ ํฉ๋๋ค.
2.2 ํ๋ณธ์ค์ฐจ์ ์ ๋ขฐ๊ตฌ๊ฐ
โ๏ธํ๋ณธ์ด ๋ชจ์ง๋จ ๋๋นํด์ ์ผ๋ง๋ ์ฐจ์ด๋๋์ง, ์ ๋ขฐํ ์ ์๋์ง ํ์ ๊ฐ๋ฅ!
โ๏ธ ํ๋ณธ์ค์ฐจ (Sampling Error)
1) ํ๋ณธ์ค์ฐจ์ ์ ๋ขฐ๊ตฌ๊ฐ์ด๋?
- ํ๋ณธ์์ ๊ณ์ฐ๋ ํต๊ณ๋๊ณผ ๋ชจ์ง๋จ์ ์ง์ง ๊ฐ ๊ฐ์ ์ฐจ์ด.
- ํ๋ณธ ํฌ๊ธฐ๊ฐ ํด์๋ก ํ๋ณธ์ค์ฐจ๋ ์์์ง.
- ์ด๋ ํ๋ณธ์ด ๋ชจ์ง๋จ์ ์๋ฒฝํ๊ฒ ๋ํํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ฉฐ, ํ๋ณธ์ ํฌ๊ธฐ์ ํ๋ณธ ์ถ์ถ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
- ํ๋ณธ์ ํฌ๊ธฐ: ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ํ๋ณธ์ค์ฐจ๋ ์ค์ด๋ญ๋๋ค. ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์๋ก ๋ชจ์ง๋จ์ ๋ ์ ๋ํํ๊ฒ ๋ฉ๋๋ค.
- ํ๋ณธ ์ถ์ถ ๋ฐฉ๋ฒ: ๋ฌด์์ ์ถ์ถ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ฉด ํ๋ณธ์ค์ฐจ๋ฅผ ์ค์ผ ์ ์์ต๋๋ค. ๋ชจ๋ ๋ชจ์ง๋จ ์์๊ฐ ์ ํ๋ ๋๋ฑํ ๊ธฐํ๋ฅผ ๊ฐ์ง๊ฒ ํด์ผ ํฉ๋๋ค.
โ๏ธ ์ ๋ขฐ๊ตฌ๊ฐ (Confidence Interval)
- ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ชจ์ง๋จ์ ํน์ ํ๋ผ๋ฏธํฐ(์: ํ๊ท , ๋น์จ)์ ๋ํด ์ถ์ ๋ ๊ฐ์ด ํฌํจ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ ๋ฒ์๋ฅผ ๋ํ๋ ๋๋ค.
- ์ ๋ขฐ๊ตฌ๊ฐ ๊ณ์ฐ ๋ฐฉ๋ฒ
- ์ ๋ขฐ๊ตฌ๊ฐ=ํ๋ณธํ๊ท ± z × ํ์ค์ค์ฐจ
- ์ฌ๊ธฐ์ z๋ ์ ํ๋ ์ ๋ขฐ์์ค์ ํด๋นํ๋ z-๊ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด, 95% ์ ๋ขฐ์์ค์ z-๊ฐ์ 1.96์ ๋๋ค.
- ์ผ๋ฐ์ ์ผ๋ก 95% ์ ๋ขฐ์์ค์ ๋ง์ด ์ฌ์ฉํฉ๋๋ค.
โ๏ธ ํ๋ณธ์ค์ฐจ, ์ ๋ขฐ๊ตฌ๊ฐ ๊ทธ๋ฆผ์ผ๋ก ํ์ธํ๊ธฐ
- ๋ชจ์ง๋จ๊ณผ ํ๋ณธ ๋ถํฌ (์ผ์ชฝ ๊ทธ๋ฆผ)
- ๋ถ์์ ์ ์ ์ ๋ชจ์ง๋จ์ ํ๊ท
- ํ๋์ ์ ์ ์ ํ๋ณธ์ ํ๊ท
- ๋ชจ์ง๋จ์ ๋ถํฌ๋ ๋๊ณ , ํ๋ณธ ํ๊ท ๋ค์ ๋ถํฌ๋ ์ข์์ง๋๋ค.
- ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ํ๋ณธ ํ๊ท ์ด ๋ชจ์ง๋จ ํ๊ท ์ ๋ ๊ฐ๊น์์ง๋ ๊ฒฝํฅ์ ๋ณด์ฌ์ค๋๋ค.
- ์ ๋ขฐ๊ตฌ๊ฐ ์๊ฐํ (์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ)
- ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์ ํ๋ณธ์ ๋ถํฌ์ 95% ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ณด์ฌ์ค๋๋ค.
- ํ๋์ ์ ์ ์ ํ๋ณธ์ ํ๊ท ์ ๋ํ๋ด๊ณ , ๋ น์ ์ ์ ์ 95% ์ ๋ขฐ๊ตฌ๊ฐ์ ์ํ๊ณผ ํํ์ ๋ํ๋ ๋๋ค.
- ์ด ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ชจ์ง๋จ์ ํ๊ท ์ ํฌํจํ ๊ฒ์ผ๋ก ์์๋๋ ๋ฒ์์ ๋๋ค.
- 2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ์ํ์ ์ ํ๋ณธ์ผ๋ก๋ถํฐ ๋ชจ์ง๋จ์ ํ๊ท ๋ฒ์๋ฅผ ๊ณ์ฐํด๋ณด์
- 100๋ช ์ ํ์์ ํ๋ณธ์ผ๋ก ์ถ์ถํ์ฌ ๊ทธ๋ค์ ํ๊ท ์ํ ์ ์๋ฅผ ๊ตฌํ๊ณ , ์ด ์ ์์ ์ ๋ขฐ๊ตฌ๊ฐ์ ๊ณ์ฐ
import scipy.stats as stats
# ํ๋ณธ ํ๊ท ๊ณผ ํ๋ณธ ํ์คํธ์ฐจ ๊ณ์ฐ
sample_mean = np.mean(sample)
sample_std = np.std(sample)
# 95% ์ ๋ขฐ๊ตฌ๊ฐ ๊ณ์ฐ
conf_interval = stats.t.interval(0.95, len(sample)-1, loc=sample_mean, scale=sample_std/np.sqrt(len(sample)))
print(f"ํ๋ณธ ํ๊ท : {sample_mean}")
print(f"95% ์ ๋ขฐ๊ตฌ๊ฐ: {conf_interval}")
โ stats.t.interval๋ ๋ฌด์์ผ๊น?
- scipy.stats๋ SciPy ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ผ๋ถ๋ก, ํต๊ณ ๋ถ์์ ์ํ ๋ค์ํ ํจ์์ ํด๋์ค๋ค์ ์ ๊ณตํ๋ ๋ชจ๋์ ๋๋ค.
- scipy.stats.t.interval ํจ์๋ ์ฃผ์ด์ง ์ ๋ขฐ ์์ค์์ t-๋ถํฌ(๋ฐ์์ ์๊ธฐํ๋ student t ๋ถํฌ)๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ขฐ ๊ตฌ๊ฐ(confidence interval)์ ๊ณ์ฐํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
scipy.stats.t.interval(alpha, df, loc=0, scale=1)
- alpha
- ์ ๋ขฐ ์์ค(confidence level)์ ์๋ฏธํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 95% ์ ๋ขฐ ๊ตฌ๊ฐ์ ์ํ๋ฉด alpha๋ฅผ 0.95๋ก ์ค์ ํฉ๋๋ค.
- df
- ์์ ๋(degrees of freedom)๋ฅผ ๋ํ๋ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ํ๋ณธ ํฌ๊ธฐ์์ 1์ ๋บ ๊ฐ์ผ๋ก ์ค์ ํฉ๋๋ค (df = n - 1).
- loc
- ์์น(parameter of location)๋ก, ์ผ๋ฐ์ ์ผ๋ก ํ๋ณธ ํ๊ท ์ ์ค์ ํฉ๋๋ค.
- scale
- ์ค์ผ์ผ(parameter of scale)๋ก, ์ผ๋ฐ์ ์ผ๋ก ํ๋ณธ ํ์ค ์ค์ฐจ(standard error)๋ฅผ ์ค์ ํฉ๋๋ค. ํ๋ณธ ํ์ค ์ค์ฐจ๋ ํ๋ณธ ํ์คํธ์ฐจ๋ฅผ ํ๋ณธ ํฌ๊ธฐ์ ์ ๊ณฑ๊ทผ์ผ๋ก ๋๋ ๊ฐ์ ๋๋ค (scale = sample_std / sqrt(n)).
2.3 ์ ๊ท๋ถํฌ
โ๏ธ ๊ฐ์ฅ ๋ํ์ ์ธ ๋ถํฌ!
1) ์ ๊ท๋ถํฌ๋?
โ๏ธ ๊ทธ๋ฆผ๋ถํฐ ํ์ธํด๋ณด๋ฉด!
โ๏ธ ์ ๊ท๋ถํฌ
- ์ ๊ท๋ถํฌ๋ ์ข ๋ชจ์์ ๋์นญ ๋ถํฌ๋ก, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ฃผ์์ ๋ชฐ๋ ค ์๋ ๋ถํฌ์ ๋๋ค.
- ํ๊ท ์ ์ค์ฌ์ผ๋ก ์ข์ฐ ๋์นญ์ด๋ฉฐ, ํ๊ท ์์ ๋ฉ์ด์ง์๋ก ๋ฐ์ดํฐ์ ๋น๋๊ฐ ๊ฐ์ํฉ๋๋ค.
- ํ์คํธ์ฐจ๋ ๋ถํฌ์ ํผ์ง ์ ๋๋ฅผ ๋ํ๋ ๋๋ค.
โ๏ธ ํน์ง
- ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ฃผ๋ณ์ ๋ชฐ๋ ค ์์ผ๋ฉฐ, ํ๊ท ์์ ๋ฉ์ด์ง์๋ก ๋น๋๊ฐ ์ค์ด๋ฆ.
2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ๋๋ถ๋ถ์ ์ํฉ์์ ๊ด์ฐฐ๋๋ ๋ถํฌ
- ํค์ ๋ชธ๋ฌด๊ฒ
- ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ํค์ ๋ชธ๋ฌด๊ฒ๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋๋ค. ์๋ฅผ ๋ค์ด, ํ๊ท ํค๊ฐ 170cm์ด๊ณ ํ์คํธ์ฐจ๊ฐ 10cm์ธ ๊ฒฝ์ฐ, ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ํค๋ 160cm์์ 180cm ์ฌ์ด์ ์์นํ๊ฒ ๋ฉ๋๋ค.
- ์ํ ์ ์
- ํฐ ์ง๋จ์ ์ํ ์ ์๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ํ๊ท ์ ์ ์ฃผ์์ ๋ง์ ํ์๋ค์ด ์์นํ๊ณ , ๊ทน๋จ์ ์ธ ๊ณ ๋์ ์์ ์ ๋์ ์๋ ์ ์ต๋๋ค.
# ์ ๊ท๋ถํฌ ์์ฑ
normal_dist = np.random.normal(170, 10, 1000)
# ํ์คํ ๊ทธ๋จ์ผ๋ก ์๊ฐํ
plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='g')
# ์ ๊ท๋ถํฌ ๊ณก์ ์ถ๊ฐ
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, 170, 10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('normal distribution histogram')
plt.show()
2.4 ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ
โ๏ธ ๋ฐ์ดํฐ๊ฐ ๋น๋์นญ์ ์ผ๋ก ๊ผฌ๋ฆฌ ํํ๋ก ๋ถํฌํ ๋ ์ฌ์ฉ!
1) ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ๋?
โ๏ธ ๊ทธ๋ฆผ๋ถํฐ ํ์ธํด๋ณด๋ฉด!
โ๏ธ ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ
- ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ๋ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ ๋ถํฌ์ ํ์ชฝ ๋์ ๋ชฐ๋ ค ์๊ณ , ๋ฐ๋์ชฝ์ผ๋ก ๊ธด ๊ผฌ๋ฆฌ๊ฐ ์ด์ด์ง๋ ํํ์ ๋ถํฌ์ ๋๋ค.
- ์ด๋ ์ ๊ท๋ถํฌ์ ๋ฌ๋ฆฌ ๋์นญ์ ์ด์ง ์๊ณ ๋น๋์นญ์ ์ ๋๋ค.
- ํน์ ํ ํ๋์ ๋ถํฌ๋ฅผ ์๋ฏธํ์ง ์์ผ๋ฉฐ ์ฌ๋ฌ ์ข ๋ฅ์ ๋ถํฌ(์: ํ๋ ํ ๋ถํฌ, ์งํ์ ๋ฒ์น, ๋ฉฑํจ์)๋ฅผ ํฌํจํ ์ ์์ต๋๋ค.
โ๏ธ ํน์ง
- ์๋ ๋ถํฌ, ์น์ฌ์ดํธ ๋ฐฉ๋ฌธ์ ์ ๋ฑ์์ ๊ด์ฐฐ๋จ.
- 2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ์ผ๋ถ๊ฐ ์ ์ฒด์ ์ผ๋ก ํฐ ์ํฅ์ ๋ฏธ์น๋ ๊ฒฝ์ฐ
- ์๋ ๋ถํฌ
- ์ผ๋ถ ๋ถ์ ์ธต์ด ์ ์ฒด ์๋์์ ํฐ ๋น์ค์ ์ฐจ์งํ๋ ์๋ ๋ถํฌ.
- ์จ๋ผ์ธ ์ผํ
- ์๋ง์กด๊ณผ ๊ฐ์ ๋ํ ์จ๋ผ์ธ ์ผํ๋ชฐ์์๋ ์์์ ์ธ๊ธฐ ์ ํ์ด ๋ง์ ํ๋งค๋ฅผ ๊ธฐ๋กํ๊ณ , ๋ง์ ์์ ๋น์ธ๊ธฐ ์ ํ์ด ์ ์ ํ๋งค๋ฅผ ๊ธฐ๋กํ๋ ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ๋ฅผ ๋ณด์ ๋๋ค. ์ด ํ์์ "๋กฑํ ์ผ ํ์"์ด๋ผ๊ณ ํฉ๋๋ค.
- ์ ํ๋ฆฌ๋ ์์ 20%๊ฐ ์ ์ฒด ๋งค์ถ์ 80%๋ฅผ ์ฐจ์ง
- ๋์ ํ๋งค
- ์์์ ๋ฒ ์คํธ์ ๋ฌ ๋์๊ฐ ์ ์ฒด ํ๋งค๋์ ๋๋ถ๋ถ์ ์ฐจ์งํ๊ณ , ๋ง์ ์์ ๋น์ธ๊ธฐ ๋์๊ฐ ์ ์ ํ๋งค๋ฅผ ๊ธฐ๋กํ๋ ๊ธด ๊ผฌ๋ฆฌ ๋ถํฌ๋ฅผ ๋ณด์ ๋๋ค.
2.5 ์คํ๋ํธ t ๋ถํฌ
โ๏ธ ํ๋ณธ์ด ์์ ๋ ์ ๊ท๋ถํฌ ๋์ ์ฌ์ฉ!
1) ์คํ๋ํธ t ๋ถํฌ๋?
โ๏ธ ๊ทธ๋ฆผ๋ถํฐ ํ์ธํด๋ณด๋ฉด!
- ์์ ๋๊ฐ ์ปค์ง ์๋ก ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง (์ฌ๊ธฐ์ ์์ ๋๋ ํ๋ณธ์ ํฌ๊ธฐ์ ๊ด๋ จ์ด ์๋ ๊ฐ์ด๋ผ๊ณ ์ดํด!)
โ๏ธ ์คํ๋ํธ t ๋ถํฌ
- t๋ถํฌ๋ ๋ชจ์ง๋จ์ ํ์คํธ์ฐจ๋ฅผ ์ ์ ์๊ณ ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ์์ ๊ฒฝ์ฐ(์ผ๋ฐ์ ์ผ๋ก 30๋ฏธ๋ง)์ ์ฌ์ฉ๋๋ ๋ถํฌ์ ๋๋ค.
- ์ ๊ท๋ถํฌ์ ์ ์ฌํ์ง๋ง, ํ๋ณธ์ ํฌ๊ธฐ๊ฐ ์์์๋ก ๊ผฌ๋ฆฌ๊ฐ ๋๊บผ์์ง๋ ํน์ง์ด ์์ต๋๋ค.
โ๏ธ ํน์ง
- ํ๋ณธ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด ์ ๊ท๋ถํฌ์ ๊ฐ๊น์์ง.
2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ ์ฌ์ฉ
- ์์ ํ๋ณธ์ ํ๊ท ๋น๊ต
- ์๋ฅผ ๋ค์ด, ๋ ๊ทธ๋ฃน์ ํ๊ท ์ํ ์ ์๋ฅผ ๋น๊ตํ ๋ ํ๋ณธ ํฌ๊ธฐ๊ฐ ์๋ค๋ฉด t๊ฒ์ ์ ์ฌ์ฉํ์ฌ ๋ ๊ทธ๋ฃน์ ํ๊ท ์ด ์ ์๋ฏธํ๊ฒ ๋ค๋ฅธ์ง ๊ฒํ ํ ์ ์์ต๋๋ค.
- ์ฝ๋ฌผ ์ํ
- ์๋ก์ด ์ฝ๋ฌผ์ ํจ๊ณผ๋ฅผ ํ ์คํธํ ๋, ์๊ท๋ชจ ์์ ์ํ์์ ๋ ๊ทธ๋ฃน ๊ฐ์ ์ฐจ์ด๋ฅผ ๋ถ์ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
2.6 ์นด์ด์ ๊ณฑ๋ถํฌ
โ๏ธ ๋ ๋ฆฝ์ฑ ๊ฒ์ ์ด๋ ์ ํฉ๋ ๊ฒ์ ์ ์ฌ์ฉ๋๋ ๋ถํฌ!
1) ์นด์ด์ ๊ณฑ๋ถํฌ๋?
- ์ฌ๊ธฐ์ K๊ฐ์ ์์ ๋ (์ฌ๊ธฐ์ ์์ ๋๋ ํ๋ณธ์ ํฌ๊ธฐ์ ๊ด๋ จ์ด ์๋ ๊ฐ์ด๋ค ์ ๋๋ก ์ดํด!)
โ๏ธ ์นด์ด์ ๊ณฑ๋ถํฌ
- ์นด์ด์ ๊ณฑ๋ถํฌ๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ ๋ฆฝ์ฑ ๊ฒ์ ์ด๋ ์ ํฉ๋ ๊ฒ์ ์ ์ฌ์ฉ๋๋ ๋ถํฌ์ ๋๋ค.
โ๏ธ ํน์ง
- ์์ ๋์ ๋ฐ๋ผ ๋ชจ์์ด ๋ฌ๋ผ์ง.
- ์๊ด๊ด๊ณ๋ ์ธ๊ณผ๊ด๊ณ๋ฅผ ํ๋ณํ๊ณ ์ ํ๋ ์์ธ์ ๋
๋ฆฝ๋ณ์๊ฐ ‘์๋ฒฝํ๊ฒ ์๋ก ๋ค๋ฅธ ์ง์ ์๋ฃ’์ผ ๋ ํ์ฉ
- ex) ์ฑ๋ณ์ด๋ ๋์ด์ ๋ฐ๋ฅธ ์ ๊ฑฐ ํ๋ณด ์ง์ง์จ
- ๋ฒ์ฃผํ ๋ฐ์ดํฐ ๋ถ์์ ์ฌ์ฉ
2.7 ์ดํญ๋ถํฌ
โ๏ธ ๊ฒฐ๊ณผ๊ฐ 2๊ฐ๊ฐ ๋์ค๋ ์ํฉ์ผ ๋ ์ฌ์ฉํ๋ ๋ถํฌ!
1) ์ดํญ๋ถํฌ๋?
โ๏ธ ๊ทธ๋ฆผ๋ถํฐ ํ์ธํด๋ณด๋ฉด!
- ์ดํญ๋ถํฌ๋ ์ฐ์๋ ๊ฐ์ ๊ฐ์ง์ง ์๊ณ , ํน์ ํ ์ ์ ๊ฐ๋ง์ ๊ฐ์ง ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋์ ์ 10๋ฒ ๋์ง ๋ ์๋ฉด์ด ๋์ค๋ ํ์๋ 0, 1, 2, ..., 10๊ณผ ๊ฐ์ ์ ์์ ๋๋ค. ๋ฐ๋ผ์ ์ดํญ๋ถํฌ๊ฐ ์ฐ์์ ์ผ๋ก ๊ทธ๋ ค์ง์ง ์์ต๋๋ค.
- ์ด๋ฐ ์ดํญ๋ถํฌ์ฒ๋ผ ์ฐ์๋ ๊ฐ์ ๊ฐ์ง์ง ์๋ ๋ถํฌ๋ฅผ ์ด์ฐํ ๋ถํฌ๋ผ๊ณ ์ง์นญ ํ๊ธฐ๋ ํฉ๋๋ค.
โ๏ธ ์ดํญ๋ถํฌ
- ์ฑ๊ณต/์คํจ์ ๊ฐ์ ๋ ๊ฐ์ง ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๋ ์คํ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ์ ๋ ์ฑ๊ณต ํ์์ ๋ถํฌ ์ ๋๋ค.
- ๋ ๋ฆฝ์ ์ธ ์ํ์ด n๋ฒ ๋ฐ๋ณต๋๊ณ , ๊ฐ ์ํ์์ ์ฑ๊ณต๊ณผ ์คํจ ์ค ํ๋์ ๊ฒฐ๊ณผ๋ง ๊ฐ๋ฅํ ๊ฒฝ์ฐ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ถํฌ๋ผ๊ณ ๋ ํ ์ ์์ต๋๋ค.
- ์ฑ๊ณต ํ๋ฅ ์ p๋ผ ํ ๋, ์ฑ๊ณต์ ํ์๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๋ํ๋ ๋๋ค.
โ๏ธ ํน์ง
- ์คํ ํ์(n)์ ์ฑ๊ณต ํ๋ฅ (p)๋ก ์ ์๋จ.
2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ๊ฒฐ๊ณผ๊ฐ 2๊ฐ๋ง ๋์ค๋ ์ํฉ์ ์ฌ๋ฌ๋ฒ ํ๋ ๊ฒฝ์ฐ
- ๋์ ๋์ง๊ธฐ
- ๋์ ์ 10๋ฒ ๋์ก์ ๋, ์๋ฉด์ด ๋์ค๋ ํ์๋ ์ดํญ๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋๋ค.
- ํ์ง ๊ด๋ฆฌ
- ์ ์กฐ์ ์ฒด๊ฐ ์ ํ์ ๋ถ๋๋ฅ ์ ๋ชจ๋ํฐ๋งํ ๋, ๋ฌด์์๋ก ์ ํ๋ 100๊ฐ์ ์ ํ ์ค ๋ถ๋ํ์ ์๋ ์ดํญ๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋๋ค.
โ๏ธ ํ์ด์ฌ ์ค์ต
# ์ดํญ๋ถํฌ ์์ฑ (์: ๋์ ๋์ง๊ธฐ 10๋ฒ ์ค ์๋ฉด์ด ๋์ค๋ ํ์)
binom_dist = np.random.binomial(n=10, p=0.5, size=1000)
# ํ์คํ ๊ทธ๋จ์ผ๋ก ์๊ฐํ plt.hist(binom_dist, bins=10, density=True, alpha=0.6, color='y')
plt.title('์ดํญ ๋ถํฌ ํ์คํ ๊ทธ๋จ')
plt.show()
2.8 ํธ์์ก ๋ถํฌ
โ๏ธ ํฌ๊ทํ ์ฌ๊ฑด์ด ๋ฐ์ํ ๋ ์ฌ์ฉํ๋ ๋ถํฌ!
- 1) ํธ์์ก ๋ถํฌ๋?
โ๏ธ ๊ทธ๋ฆผ๋ถํฐ ํ์ธํด๋ณด๋ฉด!
- ์ดํญ ๋ถํฌ์ฒ๋ผ ์ฐ์๋ ๊ฐ์ ๊ฐ์ง์ง ์๊ธฐ ๋๋ฌธ์ ์ด ๋ถํฌ๋ ์ญ์ ์ด์ฐํ ๋ถํฌ์ ํด๋น๋ฉ๋๋ค.
- ํ๊ท ๋ฐ์๋ฅ λ๊ฐ ์ถฉ๋ถํ ํฌ๋ค๋ฉด ์ ๊ท๋ถํฌ์ ๊ทผ์ฌ
- ํ๊ท ๋ฐ์๋ฅ ์ด๋ ์ฃผ์ด์ ์๊ฐ์ด๋ ๊ณต๊ฐ์์ ์ฌ๊ฑด์ด ๋ช๋ฒ ๋ฐ์ํ๋์ง?
- ex) ํ ์๊ฐ๋์ ์ฝ์ผํฐ์ ์ ํ์ค๋ ๊ฑด์๊ฐ 10๊ฑด์ด๋ฉด λ๋ 10
โ๏ธ ํธ์์ก ๋ถํฌ
- ๋จ์ ์๊ฐ ๋๋ ๋จ์ ๋ฉด์ ๋น ๋ฐ์ํ๋ ์ฌ๊ฑด์ ์๋ฅผ ๋ชจ๋ธ๋งํ ๋ ์ฌ์ฉํ๋ ๋ถํฌ์ ๋๋ค.
- ํธ์์ก ๋ถํฌ๋ ํ๊ท ๋ฐ์๋ฅ λ๋ฅผ ๊ฐ์ง ์ฌ๊ฑด์ด ์ฃผ์ด์ง ์๊ฐ ๋๋ ๊ณต๊ฐ ๋ด์์ ๋ช ๋ฒ ๋ฐ์ํ๋์ง๋ฅผ ๋ํ๋ ๋๋ค.
โ๏ธ ํน์ง
- ํธ์์ก ๋ถํฌ๋ ๋จ์ ์๊ฐ ๋๋ ๋จ์ ๋ฉด์ ๋น ํฌ๊ทํ๊ฒ ๋ฐ์ํ๋ ์ฌ๊ฑด์ ์๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐ ์ ํฉํฉ๋๋ค.
- 2) ์ค์ ๋ก ์ด๋ป๊ฒ ์ฌ์ฉ๋์ด์ง๊น?
โ๏ธ ํน์ ๊ณต๊ฐ์ด๋ ํน์ ์๊ฐ์ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ ๊ฒฝ์ฐ
-
- ์ฝ์ผํฐ
- ํน์ ์๊ฐ ๋์ ์ฝ์ผํฐ์ ๋์ฐฉํ๋ ์ ํ ํตํ์ ์.
- ๊ตํต์ฌ๊ณ
- ํน์ ๋๋ก ๊ตฌ๊ฐ์์ ์ผ์ ๊ธฐ๊ฐ ๋์ ๋ฐ์ํ๋ ๊ตํต์ฌ๊ณ ์ ์.
- ๋ฌธ์ ๋ฉ์์ง
- ํน์ ์๊ฐ ๋์ ์์ ๋๋ ๋ฌธ์ ๋ฉ์์ง์ ์.
- ์น์ฌ์ดํธ ํธ๋ํฝ
- ํน์ ์๊ฐ ๋์ ์น์ฌ์ดํธ์ ๋์ฐฉํ๋ ๋ฐฉ๋ฌธ์์ ์.
- ์ฝ์ผํฐ
โ๏ธ ํ์ด์ฌ ์ค์ต
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson
# ํธ์์ก ๋ถํฌ ํ๋ผ๋ฏธํฐ ์ค์
lambda_value = 4 # ํ๊ท ๋ฐ์๋ฅ
x = np.arange(0, 15) # ์ฌ๊ฑด ๋ฐ์ ํ์ ๋ฒ์
# ํธ์์ก ๋ถํฌ ํ๋ฅ ์ง๋ ํจ์ ๊ณ์ฐ
poisson_pmf = poisson.pmf(x, lambda_value)
# ๊ทธ๋ํ ๊ทธ๋ฆฌ๊ธฐ
plt.figure(figsize=(10, 6))
plt.bar(x, poisson_pmf, alpha=0.6, color='b', label=f'Poisson PMF (lambda={lambda_value})')
plt.xlabel('Number of Events')
plt.ylabel('Probability')
plt.title('Poisson Distribution')
plt.legend()
plt.grid(True)
plt.show()
2.9 ๋ถํฌ ์ ๋ฆฌํ๊ธฐ
โ๏ธ ์ง๊ธ๊น์ง ๋ฐฐ์ ๋ ๋ถํฌ๋ค ์ต์ข ์ ๋ฆฌํ๊ธฐ!
1) ๋ถํฌ๋ค๊ฐ์ ๊ด๊ณ
โ๏ธ ์ฌ์ค… ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ด ๋ถํฌ๋ ์ผ๋ถ์ ๋ถ๊ณผ…
โ๏ธ ์ฌ๊ธฐ ์ค์์ ์ฐ๋ฆฌ๊ฐ ๋ฐฐ์ ๋ ๋ถํฌ๋ค๊ฐ์ ๊ด๊ณ๋ง ๋ณธ๋ค๋ฉด…
- ๊ฒฐ๊ตญ ๋ฐ์ดํฐ ์๊ฐ ์์ฒญ ๋ง์์ง๋ฉด ์ ๊ท๋ถํฌ์ ์๋ ด (์ค์ฌ๊ทนํ์ ๋ฆฌ)
- ๋ฐ์ดํฐ ์๊ฐ ๋ง์ผ๋ฉด ๋ฌป์ง๋ ๋ฐ์ง์ง๋ ๋ง๊ณ ๋ฐ๋ก ์ ๊ท๋ถํฌ๋ก ๊ฐ์ !
- ํ์ง๋ง, ๋ฐ์ดํฐ๊ฐ ์ ์ ๊ฒฝ์ฐ ๊ฐ ์ํฉ์ ๋ง๋ ๋ถํฌ๋ฅผ ์ ํ
- ํนํ, long tail distribution์ ๋ฐ์ดํฐ๊ฐ ๋ง์๋ ์ ๊ท๋ถํฌ๊ฐ ๋์ง ์๋ ๋ถํฌ!
- 2) ๋ถํฌ๋ฅผ ์ด๋ป๊ฒ ๊ณ ๋ฅด๋ฉด ๋ ๊น?
- โ๏ธ ๋ฐ์ดํฐ ์๊ฐ ์ถฉ๋ถํ๋ค → (๋ฌด์กฐ๊ฑด) ์ ๊ท๋ถํฌ
- โ๏ธ ๋ฐ์ดํฐ ์๊ฐ ์๋ค → ์คํ๋ํธ t ๋ถํฌ
- โ๏ธ ์ผ๋ถ ๋ฐ์ดํฐ๊ฐ ์ ์ฒด์ ์ผ๋ก ํฐ ์ํฅ์ ๋ฏธ์น๋ค → ๋กฑ ํ ์ผ ๋ถํฌ (ํ๋ ํ ๋ถํฌ)
- โ๏ธ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ ๋ฆฝ์ฑ ๊ฒ์ ์ด๋ ์ ํฉ๋ ๊ฒ์ → ์นด์ด ์ ๊ณฑ ๋ถํฌ
- โ๏ธ ๊ฒฐ๊ณผ๊ฐ ๋ ๊ฐ(์ฑ๊ณต or ์คํจ)๋ง ๋์ค๋ ์ํฉ → ์ดํญ ๋ถํฌ
- โ๏ธ ํน์ ์๊ฐ, ๊ณต๊ฐ์์ ๋ฐ์ํ๋ ์ฌ๊ฑด → ํธ์์ก ๋ถํฌ
'๋ด์ผ๋ฐฐ์์บ ํ > ๐ฉ๐ปโ๐ปTIL:Today I Learn' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํต๊ณํ ๊ธฐ์ด]_4์ฃผ์ฐจ (0) | 2025.01.20 |
---|---|
[ํต๊ณํ ๊ธฐ์ด]_3์ฃผ์ฐจ (0) | 2025.01.20 |
์๊ฐํ ๊ณต๋ถ ๊ผผ๊ผผํ๊ฒ ํด๋ณด๊ธฐ (0) | 2025.01.17 |
๊ตฌ๊ธ ์ฝ๋ฉ(Colab) ํ๊ธ ์ฌ์ฉ ํจ์น(ํ๊ธ ๊นจ์ง ํ์)ํด๊ฒฐ ์๋ฃ! (0) | 2025.01.17 |
[๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ&์๊ฐํ] 01. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (Pandas) (0) | 2025.01.13 |