๋‚ด์ผ๋ฐฐ์›€์บ ํ”„/๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ปTIL:Today I Learn

[ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ]_2์ฃผ์ฐจ

๊ธฐํš ์—ด์ •์˜ ํ•ญํ•ด! 2025. 1. 19. 14:11

์ถœ์ฒ˜ : [์ŠคํŒŒ๋ฅดํƒ€์ฝ”๋”ฉํด๋Ÿฝ] ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ

[์ŠคํŒŒ๋ฅดํƒ€์ฝ”๋”ฉํด๋Ÿฝ] ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ

[์ˆ˜์—… ๋ชฉํ‘œ]
๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ์— ๋Œ€ํ•ด์„œ ์ดํ•ดํ•˜๊ณ  ๊ฐ๊ฐ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ฐ๊ฐ์˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฐœ๋…๊ณผ ํŠน์ง•์„ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค.
ํ‘œ๋ณธ์˜ค์ฐจ์™€ ์‹ ๋ขฐ๊ตฌ๊ฐ„์— ๋Œ€ํ•ด ์ดํ•ดํ•˜๊ณ  ์žˆ๋‹ค.

 

2.1 ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ

โœ”๏ธ ๋ชจ์ง‘๋‹จ์€ ์ „์ฒด! ํ‘œ๋ณธ์€ ์ผ๋ถ€!

 

1) ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ์ด๋ž€ ๋ฌด์—‡์ผ๊นŒ?

  • ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ์ „์ฒด ์ง‘๋‹จ. ex) ํ•œ ๊ตญ๊ฐ€์˜ ๋ชจ๋“  ์„ฑ์ธ.

โ˜‘๏ธ ๋ชจ์ง‘๋‹จ

  • ๊ด€์‹ฌ์˜ ๋Œ€์ƒ์ด ๋˜๋Š” ์ „์ฒด ์ง‘๋‹จ. ex) ํ•œ ๊ตญ๊ฐ€์˜ ๋ชจ๋“  ์„ฑ์ธ.

โ˜‘๏ธ ํ‘œ๋ณธ

  • ๋ชจ์ง‘๋‹จ์—์„œ ์ถ”์ถœํ•œ ์ผ๋ถ€. ex) ๊ทธ ๊ตญ๊ฐ€์˜ ์„ฑ์ธ ์ค‘ ์ผ๋ถ€๋ฅผ ์กฐ์‚ฌ.

โ˜‘๏ธ ์™œ ํ‘œ๋ณธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฑธ๊นŒ?

ํ˜„์‹ค์ ์ธ ์ œ์•ฝ

  • ๋น„์šฉ๊ณผ ์‹œ๊ฐ„
    • ์ „์ฒด ๋ชจ์ง‘๋‹จ์„ ์กฐ์‚ฌํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ๋ถˆ๊ฐ€๋Šฅ(ex. ์ž๋™์ฐจ ์„ฑ๋Šฅ ํ…Œ์ŠคํŠธ[์ถฉ๋Œ ์‹คํ—˜ ๋“ฑ],์ „์ž๊ธฐ๊ธฐ ์ถฉ๊ฒฉ ํ…Œ์ŠคํŠธ ๋“ฑ)ํ•˜๊ฑฐ๋‚˜ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ํ‘œ๋ณธ ์กฐ์‚ฌ๋Š” ์ด๋Ÿฌํ•œ ์ž์›์„ ์ ˆ์•ฝํ•˜๋ฉด์„œ๋„ ์œ ์˜๋ฏธํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ์ ‘๊ทผ์„ฑ
    • ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ด ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋ถˆ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํŠน์ • ์งˆ๋ณ‘์— ๊ฑธ๋ฆฐ ๋ชจ๋“  ํ™˜์ž์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋Œ€ํ‘œ์„ฑ

  • ํ‘œ๋ณธ์˜ ๋Œ€ํ‘œ์„ฑ
    • ์ž˜ ์„ค๊ณ„๋œ ํ‘œ๋ณธ์€ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ํ‘œ๋ณธ์—์„œ ์–ป์€ ๊ฒฐ๊ณผ๋ฅผ ๋ชจ์ง‘๋‹จ ์ „์ฒด์— ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋ฌด์ž‘์œ„๋กœ ํ‘œ๋ณธ์„ ์ถ”์ถœ(๋‹จ, ์—ฌ๋ก ์กฐ์‚ฌํ•  ๋•Œ ๋ฌด์ž‘์œ„๋Š” ๋งž์ง€๋งŒ  ๋‚˜์ด, ์ง€์—ญ ๋“ฑ์˜ ๋น„์œจ์€ ์–ด๋А์ •๋„ ๋งž์ถฐ์•ผํ•ด)ํ•˜๋ฉด ํŽธํ–ฅ์„ ์ตœ์†Œํ™”ํ•˜๊ณ  ๋ชจ์ง‘๋‹จ์˜ ๋‹ค์–‘ํ•œ ํŠน์„ฑ์„ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ

  • ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์˜ ์šฉ์ด์„ฑ
    • ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ฒƒ๋ณด๋‹ค ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์™€ ๋ถ„์„์ด ํ›จ์”ฌ ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค. ํฐ ๋ฐ์ดํ„ฐ์…‹์€ ๋ถ„์„์— ๋งŽ์€ ์ปดํ“จํŒ… ์ž์›์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ž‘์€ ํ‘œ๋ณธ์€ ์ด๋Ÿฐ ๋ถ€๋‹ด์„ ์ค„์—ฌ์ค๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๊ด€๋ฆฌ
    • ์ž‘์€ ํ‘œ๋ณธ์—์„œ๋Š” ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์„ ๋” ์‰ฝ๊ฒŒ ๊ด€๋ฆฌํ•˜๊ณ , ์˜ค๋ฅ˜๋‚˜ ์ด์ƒ๊ฐ’์„ ์‹๋ณ„ํ•˜์—ฌ ์ˆ˜์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ๊ฒ€์ฆ ์šฉ์ด

  • ๋ชจ๋ธ ์ ํ•ฉ๋„ ํ…Œ์ŠคํŠธ
    • ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ†ต๊ณ„์  ๋ชจ๋ธ์„ ๊ฒ€์ฆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ์— ์ž˜ ๋งž๋Š”๋‹ค๋ฉด, ๋ชจ์ง‘๋‹จ์—๋„ ์ž˜ ๋งž์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.

โ˜‘๏ธ ์ „์ˆ˜์กฐ์‚ฌ

  • ๋ชจ์ง‘๋‹จ ์ „์ฒด๋ฅผ ์กฐ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•. ๋Œ€๊ทœ๋ชจ์ผ ๊ฒฝ์šฐ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ๋“ฆ.

โ˜‘๏ธ ํ‘œ๋ณธ์กฐ์‚ฌ

  • ํ‘œ๋ณธ๋งŒ์„ ์กฐ์‚ฌํ•˜๋Š” ๋ฐฉ๋ฒ•. ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ์ ๊ฒŒ ๋“ค์ง€๋งŒ, ํ‘œ๋ณธ์ด ๋Œ€ํ‘œ์„ฑ์„ ๊ฐ€์ ธ์•ผ ํ•จ.

 

2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ์š”?

โ˜‘๏ธ ์‹ค์ œ๋กœ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ์ˆ˜์ง‘ํ•  ์ˆ˜ ์—†์„ ๋•Œ ํ‘œ๋ณธ์„ ์‚ฌ์šฉ

  • ๋„์‹œ ์—ฐ๊ตฌ
    • ํ•œ ๋„์‹œ์˜ ๋ชจ๋“  ๊ฐ€๊ตฌ(๋ชจ์ง‘๋‹จ) ์ค‘ 100๊ฐ€๊ตฌ(ํ‘œ๋ณธ)๋ฅผ ์กฐ์‚ฌํ•˜์—ฌ ํ‰๊ท  ์ „๋ ฅ ์‚ฌ์šฉ๋Ÿ‰์„ ์ถ”์ •.
  • ์˜๋ฃŒ ์—ฐ๊ตฌ
    • ํŠน์ • ์น˜๋ฃŒ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ์•Œ์•„๋ณด๊ธฐ ์œ„ํ•ด ์ „์ฒด ํ™˜์ž๋ฅผ ์กฐ์‚ฌํ•˜๋Š” ๋Œ€์‹ , ํ‘œ๋ณธ์„ ํ†ตํ•ด ์ถ”์ •ํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฒฐ๋ก ์„ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.
  • ์‹œ์žฅ ์กฐ์‚ฌ
    • ์†Œ๋น„์ž ์„ ํ˜ธ๋„๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ์†Œ๋น„์ž๋ฅผ ์กฐ์‚ฌํ•˜๋Š” ๋Œ€์‹ , ๋ฌด์ž‘์œ„๋กœ ์„ ํƒ๋œ ํ‘œ๋ณธ์„ ํ†ตํ•ด ์ „์ฒด ์‹œ์žฅ์˜ ํŠธ๋ Œ๋“œ๋ฅผ ์ถ”์ •ํ•ฉ๋‹ˆ๋‹ค.
  • ์ •์น˜ ์—ฌ๋ก  ์กฐ์‚ฌ
    • ์„ ๊ฑฐ ์ „ ์—ฌ๋ก  ์กฐ์‚ฌ๋ฅผ ํ†ตํ•ด ์ „์ฒด ์œ ๊ถŒ์ž์˜ ํˆฌํ‘œ ๊ฒฝํ–ฅ์„ ์ถ”์ •ํ•˜์—ฌ ์„ ๊ฑฐ ๊ฒฐ๊ณผ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŒŒ์ด์ฌ ์‹ค์Šต

import numpy as np
import matplotlib.pyplot as plt

# ๋ชจ์ง‘๋‹จ ์ƒ์„ฑ (์˜ˆ: ๊ตญ๊ฐ€์˜ ๋ชจ๋“  ์„ฑ์ธ์˜ ํ‚ค ๋ฐ์ดํ„ฐ)
population = np.random.normal(170, 10, 1000)

# ํ‘œ๋ณธ ์ถ”์ถœ
sample = np.random.choice(population, 100)

# ํžˆ์Šคํ† ๊ทธ๋žจ์˜ ๋†’์ด๋Š” ๊ฐ ๊ตฌ๊ฐ„์— ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. โ€‹
plt.hist(population, bins=50, alpha=0.5, label='population', color='blue')
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='red')
plt.legend()
plt.title('population and sample distribution')
plt.show()

 

โ“ numpy.random๊ฐ€ ๋ฌด์—‡์ธ๊นŒ์š”~?

  • numpy.random ๋ชจ๋“ˆ์€ NumPy ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ผ๋ถ€๋กœ, ๋‹ค์–‘ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ์— ๋”ฐ๋ผ ๋‚œ์ˆ˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ถ„์„, ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋ฐฉ๋ฒ• ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • np.random.normal
    • ํ•จ์ˆ˜๋Š” ์ •๊ทœ๋ถ„ํฌ(๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ)๋ฅผ ๋”ฐ๋ฅด๋Š” ๋‚œ์ˆ˜๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ์ •๊ทœ๋ถ„ํฌ๋Š” ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ๋Œ€์นญ์ ์œผ๋กœ ๋ถ„ํฌํ•˜๋Š” ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค. (์ •๊ทœ๋ถ„ํฌ๋Š” ๋ฐ‘์—์„œ ๋ณผ ์˜ˆ์ •)
numpy.random.normal(loc=0.0, scale=1.0, size=None)
  • loc (float): ์ •๊ทœ๋ถ„ํฌ์˜ ํ‰๊ท  (๊ธฐ๋ณธ๊ฐ’: 0.0)
  • scale (float): ์ •๊ทœ๋ถ„ํฌ์˜ ํ‘œ์ค€ํŽธ์ฐจ (๊ธฐ๋ณธ๊ฐ’: 1.0)
  • size (int ๋˜๋Š” tuple of ints): ์ถœ๋ ฅ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ (๊ธฐ๋ณธ๊ฐ’: None, ์ฆ‰ ์Šค์นผ๋ผ ๊ฐ’ ๋ฐ˜ํ™˜)
  • np.random.choice
    • ์ฃผ์–ด์ง„ ๋ฐฐ์—ด์—์„œ ์ž„์˜๋กœ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ์š”์†Œ๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” ์ง€์ •๋œ ๋ฐฐ์—ด์—์„œ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒ๋œ ์š”์†Œ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋Š” ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • ์ฝ”๋“œ ์„ค๋ช…
    • numpy.random.choice(a, size=None, replace=True, p=None)
    • a (1-D array-like or int): ์ƒ˜ํ”Œ๋งํ•  ์›๋ณธ ๋ฐฐ์—ด. ์ •์ˆ˜์ธ ๊ฒฝ์šฐ np.arange(a)์™€ ๋™์ผํ•˜๊ฒŒ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.
    • size (int ๋˜๋Š” tuple of ints): ์ถœ๋ ฅ ๋ฐฐ์—ด์˜ ํฌ๊ธฐ (๊ธฐ๋ณธ๊ฐ’: None, ์ฆ‰ ๋‹จ์ผ ๊ฐ’ ๋ฐ˜ํ™˜)
    • replace (boolean): ๋ณต์› ์ถ”์ถœ ์—ฌ๋ถ€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. True๋ฉด ๋™์ผํ•œ ์š”์†Œ๊ฐ€ ์—ฌ๋Ÿฌ ๋ฒˆ ์„ ํƒ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (๊ธฐ๋ณธ๊ฐ’: True)
    • p (1-D array-like, optional): ๊ฐ ์š”์†Œ๊ฐ€ ์„ ํƒ๋  ํ™•๋ฅ . ๋ฐฐ์—ด์˜ ํ•ฉ์€ 1์ด์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ“ plt.hist๊ฐ€ ๋ฌด์—‡์ธ๊นŒ์š”~?

  • Matplotlib ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ํžˆ์Šคํ† ๊ทธ๋žจ์„ ๊ทธ๋ฆฌ๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ํžˆ์Šคํ† ๊ทธ๋žจ์€ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์‹œ๊ฐํ™”ํ•˜๋Š” ๋ฐ ์œ ์šฉํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค.
  • bins
    • ํžˆ์Šคํ† ๊ทธ๋žจ์˜ ๋นˆ(bins)์˜ ๊ฐœ์ˆ˜ ๋˜๋Š” ๊ฒฝ๊ณ„์ž…๋‹ˆ๋‹ค.
    • ์—ฌ๊ธฐ์„œ ๋นˆ(bins)์€ ๋ฐ์ดํ„ฐ ๋ช‡๊ฐœ์˜ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆŒ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.
    • ์ •์ˆ˜๋‚˜ ๋ฆฌ์ŠคํŠธ๋กœ ์ž…๋ ฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์ •์ˆ˜: ๋นˆ์˜ ๊ฐœ์ˆ˜๋ฅผ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค.
      • ๋ฆฌ์ŠคํŠธ: ๊ฐ ๋นˆ์˜ ๊ฒฝ๊ณ„๋ฅผ ์ง์ ‘ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. (140~150, 150~160 … ์ด๋ ‡๊ฒŒ ๊ฒฝ๊ณ„๋ฅผ ์ง€์ •ํ•˜๊ณ  ์‹ถ์œผ๋ฉด ๋ฆฌ์ŠคํŠธ๋กœ ์ž‘์„ฑ)
  • alpha
    • ํžˆ์Šคํ† ๊ทธ๋žจ ๋ง‰๋Œ€์˜ ํˆฌ๋ช…๋„๋ฅผ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. 0(ํˆฌ๋ช…)์—์„œ 1(๋ถˆํˆฌ๋ช…) ์‚ฌ์ด์˜ ๊ฐ’์ž…๋‹ˆ๋‹ค.
  • label
    • ํžˆ์Šคํ† ๊ทธ๋žจ์˜ ๋ ˆ์ด๋ธ”์„ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ํžˆ์Šคํ† ๊ทธ๋žจ์„ ๊ทธ๋ฆด ๋•Œ ๋ฒ”๋ก€๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • color
    • ํžˆ์Šคํ† ๊ทธ๋žจ ๋ง‰๋Œ€์˜ ์ƒ‰์ƒ์„ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค.

2.2 ํ‘œ๋ณธ์˜ค์ฐจ์™€ ์‹ ๋ขฐ๊ตฌ๊ฐ„

 โœ”๏ธํ‘œ๋ณธ์ด ๋ชจ์ง‘๋‹จ ๋Œ€๋น„ํ•ด์„œ ์–ผ๋งˆ๋‚˜ ์ฐจ์ด๋‚˜๋Š”์ง€, ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํŒŒ์•…๊ฐ€๋Šฅ!

 

โ˜‘๏ธ ํ‘œ๋ณธ์˜ค์ฐจ (Sampling Error)

1) ํ‘œ๋ณธ์˜ค์ฐจ์™€ ์‹ ๋ขฐ๊ตฌ๊ฐ„์ด๋ž€?

  • ํ‘œ๋ณธ์—์„œ ๊ณ„์‚ฐ๋œ ํ†ต๊ณ„๋Ÿ‰๊ณผ ๋ชจ์ง‘๋‹จ์˜ ์ง„์งœ ๊ฐ’ ๊ฐ„์˜ ์ฐจ์ด.
  • ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ํ‘œ๋ณธ์˜ค์ฐจ๋Š” ์ž‘์•„์ง.
  • ์ด๋Š” ํ‘œ๋ณธ์ด ๋ชจ์ง‘๋‹จ์„ ์™„๋ฒฝํ•˜๊ฒŒ ๋Œ€ํ‘œํ•˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋ฉฐ, ํ‘œ๋ณธ์˜ ํฌ๊ธฐ์™€ ํ‘œ๋ณธ ์ถ”์ถœ ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํ‘œ๋ณธ์˜ ํฌ๊ธฐ: ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ํ‘œ๋ณธ์˜ค์ฐจ๋Š” ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ• ์ˆ˜๋ก ๋ชจ์ง‘๋‹จ์„ ๋” ์ž˜ ๋Œ€ํ‘œํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ํ‘œ๋ณธ ์ถ”์ถœ ๋ฐฉ๋ฒ•: ๋ฌด์ž‘์œ„ ์ถ”์ถœ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋ฉด ํ‘œ๋ณธ์˜ค์ฐจ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ชจ์ง‘๋‹จ ์š”์†Œ๊ฐ€ ์„ ํƒ๋  ๋™๋“ฑํ•œ ๊ธฐํšŒ๋ฅผ ๊ฐ€์ง€๊ฒŒ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ˜‘๏ธ ์‹ ๋ขฐ๊ตฌ๊ฐ„ (Confidence Interval)

  • ์‹ ๋ขฐ๊ตฌ๊ฐ„์€ ๋ชจ์ง‘๋‹จ์˜ ํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ(์˜ˆ: ํ‰๊ท , ๋น„์œจ)์— ๋Œ€ํ•ด ์ถ”์ •๋œ ๊ฐ’์ด ํฌํ•จ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋Š” ๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•
    • ์‹ ๋ขฐ๊ตฌ๊ฐ„=ํ‘œ๋ณธํ‰๊ท  ± z × ํ‘œ์ค€์˜ค์ฐจ
    • ์—ฌ๊ธฐ์„œ z๋Š” ์„ ํƒ๋œ ์‹ ๋ขฐ์ˆ˜์ค€์— ํ•ด๋‹นํ•˜๋Š” z-๊ฐ’์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 95% ์‹ ๋ขฐ์ˆ˜์ค€์˜ z-๊ฐ’์€ 1.96์ž…๋‹ˆ๋‹ค.
    • ์ผ๋ฐ˜์ ์œผ๋กœ 95% ์‹ ๋ขฐ์ˆ˜์ค€์„ ๋งŽ์ด ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

โ˜‘๏ธ ํ‘œ๋ณธ์˜ค์ฐจ, ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๊ทธ๋ฆผ์œผ๋กœ ํ™•์ธํ•˜๊ธฐ

 

  • ๋ชจ์ง‘๋‹จ๊ณผ ํ‘œ๋ณธ ๋ถ„ํฌ (์™ผ์ชฝ ๊ทธ๋ฆผ)
    • ๋ถ‰์€์ƒ‰ ์ ์„ ์€ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท 
    • ํŒŒ๋ž€์ƒ‰ ์ ์„ ์€ ํ‘œ๋ณธ์˜ ํ‰๊ท 
    • ๋ชจ์ง‘๋‹จ์˜ ๋ถ„ํฌ๋Š” ๋„“๊ณ , ํ‘œ๋ณธ ํ‰๊ท ๋“ค์˜ ๋ถ„ํฌ๋Š” ์ข์•„์ง‘๋‹ˆ๋‹ค.
    • ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ํ‘œ๋ณธ ํ‰๊ท ์ด ๋ชจ์ง‘๋‹จ ํ‰๊ท ์— ๋” ๊ฐ€๊นŒ์›Œ์ง€๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • ์‹ ๋ขฐ๊ตฌ๊ฐ„ ์‹œ๊ฐํ™” (์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ)
    • ์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์€ ํ‘œ๋ณธ์˜ ๋ถ„ํฌ์™€ 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • ํŒŒ๋ž€์ƒ‰ ์ ์„ ์€ ํ‘œ๋ณธ์˜ ํ‰๊ท ์„ ๋‚˜ํƒ€๋‚ด๊ณ , ๋…น์ƒ‰ ์ ์„ ์€ 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„์˜ ์ƒํ•œ๊ณผ ํ•˜ํ•œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    • ์ด ์‹ ๋ขฐ๊ตฌ๊ฐ„์€ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท ์„ ํฌํ•จํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๋ฒ”์œ„์ž…๋‹ˆ๋‹ค.
  • 2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ์ˆ˜ํ•™์ ์ˆ˜ ํ‘œ๋ณธ์œผ๋กœ๋ถ€ํ„ฐ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท  ๋ฒ”์œ„๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด์ž

  • 100๋ช…์˜ ํ•™์ƒ์„ ํ‘œ๋ณธ์œผ๋กœ ์ถ”์ถœํ•˜์—ฌ ๊ทธ๋“ค์˜ ํ‰๊ท  ์ˆ˜ํ•™ ์ ์ˆ˜๋ฅผ ๊ตฌํ•˜๊ณ , ์ด ์ ์ˆ˜์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ๊ณ„์‚ฐ
import scipy.stats as stats

# ํ‘œ๋ณธ ํ‰๊ท ๊ณผ ํ‘œ๋ณธ ํ‘œ์ค€ํŽธ์ฐจ ๊ณ„์‚ฐ
sample_mean = np.mean(sample)
sample_std = np.std(sample)

# 95% ์‹ ๋ขฐ๊ตฌ๊ฐ„ ๊ณ„์‚ฐ
conf_interval = stats.t.interval(0.95, len(sample)-1, loc=sample_mean, scale=sample_std/np.sqrt(len(sample)))

print(f"ํ‘œ๋ณธ ํ‰๊ท : {sample_mean}")
print(f"95% ์‹ ๋ขฐ๊ตฌ๊ฐ„: {conf_interval}")

 

โ“ stats.t.interval๋ž€ ๋ฌด์—‡์ผ๊นŒ?

  • scipy.stats๋Š” SciPy ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ผ๋ถ€๋กœ, ํ†ต๊ณ„ ๋ถ„์„์„ ์œ„ํ•œ ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜์™€ ํด๋ž˜์Šค๋“ค์„ ์ œ๊ณตํ•˜๋Š” ๋ชจ๋“ˆ์ž…๋‹ˆ๋‹ค.
  • scipy.stats.t.interval ํ•จ์ˆ˜๋Š” ์ฃผ์–ด์ง„ ์‹ ๋ขฐ ์ˆ˜์ค€์—์„œ t-๋ถ„ํฌ(๋ฐ‘์—์„œ ์–˜๊ธฐํ•˜๋Š” student t ๋ถ„ํฌ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‹ ๋ขฐ ๊ตฌ๊ฐ„(confidence interval)์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
scipy.stats.t.interval(alpha, df, loc=0, scale=1)
  • alpha
    • ์‹ ๋ขฐ ์ˆ˜์ค€(confidence level)์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, 95% ์‹ ๋ขฐ ๊ตฌ๊ฐ„์„ ์›ํ•˜๋ฉด alpha๋ฅผ 0.95๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
  • df
    • ์ž์œ ๋„(degrees of freedom)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œ๋ณธ ํฌ๊ธฐ์—์„œ 1์„ ๋บ€ ๊ฐ’์œผ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค (df = n - 1).
  • loc
    • ์œ„์น˜(parameter of location)๋กœ, ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œ๋ณธ ํ‰๊ท ์„ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
  • scale
    • ์Šค์ผ€์ผ(parameter of scale)๋กœ, ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œ๋ณธ ํ‘œ์ค€ ์˜ค์ฐจ(standard error)๋ฅผ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. ํ‘œ๋ณธ ํ‘œ์ค€ ์˜ค์ฐจ๋Š” ํ‘œ๋ณธ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ํ‘œ๋ณธ ํฌ๊ธฐ์˜ ์ œ๊ณฑ๊ทผ์œผ๋กœ ๋‚˜๋ˆˆ ๊ฐ’์ž…๋‹ˆ๋‹ค (scale = sample_std / sqrt(n)).

2.3 ์ •๊ทœ๋ถ„ํฌ

โœ”๏ธ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ๋ถ„ํฌ!

1) ์ •๊ทœ๋ถ„ํฌ๋ž€?

โ˜‘๏ธ ๊ทธ๋ฆผ๋ถ€ํ„ฐ ํ™•์ธํ•ด๋ณด๋ฉด!

โ˜‘๏ธ ์ •๊ทœ๋ถ„ํฌ

  • ์ •๊ทœ๋ถ„ํฌ๋Š” ์ข… ๋ชจ์–‘์˜ ๋Œ€์นญ ๋ถ„ํฌ๋กœ, ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท  ์ฃผ์œ„์— ๋ชฐ๋ ค ์žˆ๋Š” ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.
  • ํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ์ขŒ์šฐ ๋Œ€์นญ์ด๋ฉฐ, ํ‰๊ท ์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ๋ฐ์ดํ„ฐ์˜ ๋นˆ๋„๊ฐ€ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค.
  • ํ‘œ์ค€ํŽธ์ฐจ๋Š” ๋ถ„ํฌ์˜ ํผ์ง ์ •๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ‰๊ท  ์ฃผ๋ณ€์— ๋ชฐ๋ ค ์žˆ์œผ๋ฉฐ, ํ‰๊ท ์—์„œ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ๋นˆ๋„๊ฐ€ ์ค„์–ด๋“ฆ.

2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ๋Œ€๋ถ€๋ถ„์˜ ์ƒํ™ฉ์—์„œ ๊ด€์ฐฐ๋˜๋Š” ๋ถ„ํฌ

  • ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ
    • ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ๋žŒ๋“ค์˜ ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ํ‰๊ท  ํ‚ค๊ฐ€ 170cm์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 10cm์ธ ๊ฒฝ์šฐ, ๋Œ€๋ถ€๋ถ„์˜ ์‚ฌ๋žŒ๋“ค์˜ ํ‚ค๋Š” 160cm์—์„œ 180cm ์‚ฌ์ด์— ์œ„์น˜ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ์‹œํ—˜ ์ ์ˆ˜
    • ํฐ ์ง‘๋‹จ์˜ ์‹œํ—˜ ์ ์ˆ˜๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ท  ์ ์ˆ˜ ์ฃผ์œ„์— ๋งŽ์€ ํ•™์ƒ๋“ค์ด ์œ„์น˜ํ•˜๊ณ , ๊ทน๋‹จ์ ์ธ ๊ณ ๋“์ ์ž์™€ ์ €๋“์ ์ž๋Š” ์ ์Šต๋‹ˆ๋‹ค.
# ์ •๊ทœ๋ถ„ํฌ ์ƒ์„ฑ
normal_dist = np.random.normal(170, 10, 1000)

# ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ์‹œ๊ฐํ™”
plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='g')

# ์ •๊ทœ๋ถ„ํฌ ๊ณก์„  ์ถ”๊ฐ€
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, 170, 10)
plt.plot(x, p, 'k', linewidth=2)
plt.title('normal distribution histogram')
plt.show()

2.4 ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ

โœ”๏ธ ๋ฐ์ดํ„ฐ๊ฐ€ ๋น„๋Œ€์นญ์ ์œผ๋กœ ๊ผฌ๋ฆฌ ํ˜•ํƒœ๋กœ ๋ถ„ํฌํ•  ๋•Œ ์‚ฌ์šฉ!

 

1) ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ๋ž€?

โ˜‘๏ธ ๊ทธ๋ฆผ๋ถ€ํ„ฐ ํ™•์ธํ•ด๋ณด๋ฉด!

โ˜‘๏ธ ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ

  • ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ„ํฌ์˜ ํ•œ์ชฝ ๋์— ๋ชฐ๋ ค ์žˆ๊ณ , ๋ฐ˜๋Œ€์ชฝ์œผ๋กœ ๊ธด ๊ผฌ๋ฆฌ๊ฐ€ ์ด์–ด์ง€๋Š” ํ˜•ํƒœ์˜ ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.
  • ์ด๋Š” ์ •๊ทœ๋ถ„ํฌ์™€ ๋‹ฌ๋ฆฌ ๋Œ€์นญ์ ์ด์ง€ ์•Š๊ณ  ๋น„๋Œ€์นญ์ ์ž…๋‹ˆ๋‹ค.
  • ํŠน์ •ํ•œ ํ•˜๋‚˜์˜ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•˜์ง€ ์•Š์œผ๋ฉฐ ์—ฌ๋Ÿฌ ์ข…๋ฅ˜์˜ ๋ถ„ํฌ(์˜ˆ: ํŒŒ๋ ˆํ†  ๋ถ„ํฌ, ์ง€ํ”„์˜ ๋ฒ•์น™, ๋ฉฑํ•จ์ˆ˜)๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ์†Œ๋“ ๋ถ„ํฌ, ์›น์‚ฌ์ดํŠธ ๋ฐฉ๋ฌธ์ž ์ˆ˜ ๋“ฑ์—์„œ ๊ด€์ฐฐ๋จ.
  • 2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ์ผ๋ถ€๊ฐ€ ์ „์ฒด์ ์œผ๋กœ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š” ๊ฒฝ์šฐ

  • ์†Œ๋“ ๋ถ„ํฌ
    • ์ผ๋ถ€ ๋ถ€์œ ์ธต์ด ์ „์ฒด ์†Œ๋“์—์„œ ํฐ ๋น„์ค‘์„ ์ฐจ์ง€ํ•˜๋Š” ์†Œ๋“ ๋ถ„ํฌ.
  • ์˜จ๋ผ์ธ ์‡ผํ•‘
    • ์•„๋งˆ์กด๊ณผ ๊ฐ™์€ ๋Œ€ํ˜• ์˜จ๋ผ์ธ ์‡ผํ•‘๋ชฐ์—์„œ๋Š” ์†Œ์ˆ˜์˜ ์ธ๊ธฐ ์ œํ’ˆ์ด ๋งŽ์€ ํŒ๋งค๋ฅผ ๊ธฐ๋กํ•˜๊ณ , ๋งŽ์€ ์ˆ˜์˜ ๋น„์ธ๊ธฐ ์ œํ’ˆ์ด ์ ์€ ํŒ๋งค๋ฅผ ๊ธฐ๋กํ•˜๋Š” ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด ํ˜„์ƒ์„ "๋กฑํ…Œ์ผ ํ˜„์ƒ"์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
    • ์ž˜ ํŒ”๋ฆฌ๋Š” ์ƒ์œ„ 20%๊ฐ€ ์ „์ฒด ๋งค์ถœ์˜ 80%๋ฅผ ์ฐจ์ง€
  • ๋„์„œ ํŒ๋งค
    • ์†Œ์ˆ˜์˜ ๋ฒ ์ŠคํŠธ์…€๋Ÿฌ ๋„์„œ๊ฐ€ ์ „์ฒด ํŒ๋งค๋Ÿ‰์˜ ๋Œ€๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•˜๊ณ , ๋งŽ์€ ์ˆ˜์˜ ๋น„์ธ๊ธฐ ๋„์„œ๊ฐ€ ์ ์€ ํŒ๋งค๋ฅผ ๊ธฐ๋กํ•˜๋Š” ๊ธด ๊ผฌ๋ฆฌ ๋ถ„ํฌ๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.

 

2.5 ์ŠคํŠœ๋˜ํŠธ t ๋ถ„ํฌ

โœ”๏ธ ํ‘œ๋ณธ์ด ์ž‘์„ ๋•Œ ์ •๊ทœ๋ถ„ํฌ ๋Œ€์‹  ์‚ฌ์šฉ!

 

1) ์ŠคํŠœ๋˜ํŠธ t ๋ถ„ํฌ๋ž€?

โ˜‘๏ธ ๊ทธ๋ฆผ๋ถ€ํ„ฐ ํ™•์ธํ•ด๋ณด๋ฉด!

  • ์ž์œ ๋„๊ฐ€ ์ปค์งˆ ์ˆ˜๋ก ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์›Œ์ง (์—ฌ๊ธฐ์„œ ์ž์œ ๋„๋ž€ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ์™€ ๊ด€๋ จ์ด ์žˆ๋Š” ๊ฐ’์ด๋ผ๊ณ  ์ดํ•ด!)

โ˜‘๏ธ ์ŠคํŠœ๋˜ํŠธ t ๋ถ„ํฌ

  • t๋ถ„ํฌ๋Š” ๋ชจ์ง‘๋‹จ์˜ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์•Œ ์ˆ˜ ์—†๊ณ  ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ(์ผ๋ฐ˜์ ์œผ๋กœ 30๋ฏธ๋งŒ)์— ์‚ฌ์šฉ๋˜๋Š” ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.
  • ์ •๊ทœ๋ถ„ํฌ์™€ ์œ ์‚ฌํ•˜์ง€๋งŒ, ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์„์ˆ˜๋ก ๊ผฌ๋ฆฌ๊ฐ€ ๋‘๊บผ์›Œ์ง€๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด ์ •๊ทœ๋ถ„ํฌ์— ๊ฐ€๊นŒ์›Œ์ง.

2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ๊ฒฝ์šฐ ์‚ฌ์šฉ

  • ์ž‘์€ ํ‘œ๋ณธ์˜ ํ‰๊ท  ๋น„๊ต
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‘ ๊ทธ๋ฃน์˜ ํ‰๊ท  ์‹œํ—˜ ์ ์ˆ˜๋ฅผ ๋น„๊ตํ•  ๋•Œ ํ‘œ๋ณธ ํฌ๊ธฐ๊ฐ€ ์ž‘๋‹ค๋ฉด t๊ฒ€์ •์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ๊ทธ๋ฃน์˜ ํ‰๊ท ์ด ์œ ์˜๋ฏธํ•˜๊ฒŒ ๋‹ค๋ฅธ์ง€ ๊ฒ€ํ† ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์•ฝ๋ฌผ ์‹œํ—˜
    • ์ƒˆ๋กœ์šด ์•ฝ๋ฌผ์˜ ํšจ๊ณผ๋ฅผ ํ…Œ์ŠคํŠธํ•  ๋•Œ, ์†Œ๊ทœ๋ชจ ์ž„์ƒ ์‹œํ—˜์—์„œ ๋‘ ๊ทธ๋ฃน ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋ถ„์„ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

2.6 ์นด์ด์ œ๊ณฑ๋ถ„ํฌ

โœ”๏ธ ๋…๋ฆฝ์„ฑ ๊ฒ€์ •์ด๋‚˜ ์ ํ•ฉ๋„ ๊ฒ€์ •์— ์‚ฌ์šฉ๋˜๋Š” ๋ถ„ํฌ!

1) ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋ž€?

  • ์—ฌ๊ธฐ์„œ K๊ฐ’์€ ์ž์œ ๋„ (์—ฌ๊ธฐ์„œ ์ž์œ ๋„๋ž€ ํ‘œ๋ณธ์˜ ํฌ๊ธฐ์™€ ๊ด€๋ จ์ด ์žˆ๋Š” ๊ฐ’์ด๋‹ค ์ •๋„๋กœ ์ดํ•ด!)

โ˜‘๏ธ ์นด์ด์ œ๊ณฑ๋ถ„ํฌ

  • ์นด์ด์ œ๊ณฑ๋ถ„ํฌ๋Š” ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์˜ ๋…๋ฆฝ์„ฑ ๊ฒ€์ •์ด๋‚˜ ์ ํ•ฉ๋„ ๊ฒ€์ •์— ์‚ฌ์šฉ๋˜๋Š” ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ์ž์œ ๋„์— ๋”ฐ๋ผ ๋ชจ์–‘์ด ๋‹ฌ๋ผ์ง.
  • ์ƒ๊ด€๊ด€๊ณ„๋‚˜ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ํŒ๋ณ„ํ•˜๊ณ ์ž ํ•˜๋Š” ์›์ธ์˜ ๋…๋ฆฝ๋ณ€์ˆ˜๊ฐ€ ‘์™„๋ฒฝํ•˜๊ฒŒ ์„œ๋กœ ๋‹ค๋ฅธ ์งˆ์  ์ž๋ฃŒ’์ผ ๋•Œ ํ™œ์šฉ
    • ex) ์„ฑ๋ณ„์ด๋‚˜ ๋‚˜์ด์— ๋”ฐ๋ฅธ ์„ ๊ฑฐ ํ›„๋ณด ์ง€์ง€์œจ
  • ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์‚ฌ์šฉ

2.7 ์ดํ•ญ๋ถ„ํฌ

โœ”๏ธ ๊ฒฐ๊ณผ๊ฐ€ 2๊ฐœ๊ฐ€ ๋‚˜์˜ค๋Š” ์ƒํ™ฉ์ผ ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ถ„ํฌ!

 

1) ์ดํ•ญ๋ถ„ํฌ๋ž€?

โ˜‘๏ธ ๊ทธ๋ฆผ๋ถ€ํ„ฐ ํ™•์ธํ•ด๋ณด๋ฉด!

  • ์ดํ•ญ๋ถ„ํฌ๋Š” ์—ฐ์†๋œ ๊ฐ’์„ ๊ฐ€์ง€์ง€ ์•Š๊ณ , ํŠน์ •ํ•œ ์ •์ˆ˜ ๊ฐ’๋งŒ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ „์„ 10๋ฒˆ ๋˜์งˆ ๋•Œ ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ํšŸ์ˆ˜๋Š” 0, 1, 2, ..., 10๊ณผ ๊ฐ™์€ ์ •์ˆ˜์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ดํ•ญ๋ถ„ํฌ๊ฐ€ ์—ฐ์†์ ์œผ๋กœ ๊ทธ๋ ค์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
  • ์ด๋Ÿฐ ์ดํ•ญ๋ถ„ํฌ์ฒ˜๋Ÿผ ์—ฐ์†๋œ ๊ฐ’์„ ๊ฐ€์ง€์ง€ ์•Š๋Š” ๋ถ„ํฌ๋ฅผ ์ด์‚ฐํ˜• ๋ถ„ํฌ๋ผ๊ณ  ์ง€์นญ ํ•˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

โ˜‘๏ธ ์ดํ•ญ๋ถ„ํฌ

  • ์„ฑ๊ณต/์‹คํŒจ์™€ ๊ฐ™์€ ๋‘ ๊ฐ€์ง€ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง€๋Š” ์‹คํ—˜์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณตํ–ˆ์„ ๋•Œ ์„ฑ๊ณต ํšŸ์ˆ˜์˜ ๋ถ„ํฌ ์ž…๋‹ˆ๋‹ค.
  • ๋…๋ฆฝ์ ์ธ ์‹œํ–‰์ด n๋ฒˆ ๋ฐ˜๋ณต๋˜๊ณ , ๊ฐ ์‹œํ–‰์—์„œ ์„ฑ๊ณต๊ณผ ์‹คํŒจ ์ค‘ ํ•˜๋‚˜์˜ ๊ฒฐ๊ณผ๋งŒ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ถ„ํฌ๋ผ๊ณ ๋„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๊ณต ํ™•๋ฅ ์„ p๋ผ ํ•  ๋•Œ, ์„ฑ๊ณต์˜ ํšŸ์ˆ˜๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ์‹คํ—˜ ํšŸ์ˆ˜(n)์™€ ์„ฑ๊ณต ํ™•๋ฅ (p)๋กœ ์ •์˜๋จ.

2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ๊ฒฐ๊ณผ๊ฐ€ 2๊ฐœ๋งŒ ๋‚˜์˜ค๋Š” ์ƒํ™ฉ์„ ์—ฌ๋Ÿฌ๋ฒˆ ํ•˜๋Š” ๊ฒฝ์šฐ

  • ๋™์ „ ๋˜์ง€๊ธฐ
    • ๋™์ „์„ 10๋ฒˆ ๋˜์กŒ์„ ๋•Œ, ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ํšŸ์ˆ˜๋Š” ์ดํ•ญ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.
  • ํ’ˆ์งˆ ๊ด€๋ฆฌ
    • ์ œ์กฐ์—…์ฒด๊ฐ€ ์ œํ’ˆ์˜ ๋ถˆ๋Ÿ‰๋ฅ ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•  ๋•Œ, ๋ฌด์ž‘์œ„๋กœ ์„ ํƒ๋œ 100๊ฐœ์˜ ์ œํ’ˆ ์ค‘ ๋ถˆ๋Ÿ‰ํ’ˆ์˜ ์ˆ˜๋Š” ์ดํ•ญ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŒŒ์ด์ฌ ์‹ค์Šต

# ์ดํ•ญ๋ถ„ํฌ ์ƒ์„ฑ (์˜ˆ: ๋™์ „ ๋˜์ง€๊ธฐ 10๋ฒˆ ์ค‘ ์•ž๋ฉด์ด ๋‚˜์˜ค๋Š” ํšŸ์ˆ˜)
binom_dist = np.random.binomial(n=10, p=0.5, size=1000)

# ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ์‹œ๊ฐํ™” plt.hist(binom_dist, bins=10, density=True, alpha=0.6, color='y')
plt.title('์ดํ•ญ ๋ถ„ํฌ ํžˆ์Šคํ† ๊ทธ๋žจ')
plt.show()

 

2.8 ํ‘ธ์•„์†ก ๋ถ„ํฌ

โœ”๏ธ ํฌ๊ท€ํ•œ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ถ„ํฌ!

  • 1) ํ‘ธ์•„์†ก ๋ถ„ํฌ๋ž€?

โ˜‘๏ธ ๊ทธ๋ฆผ๋ถ€ํ„ฐ ํ™•์ธํ•ด๋ณด๋ฉด!

  • ์ดํ•ญ ๋ถ„ํฌ์ฒ˜๋Ÿผ ์—ฐ์†๋œ ๊ฐ’์„ ๊ฐ€์ง€์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋ถ„ํฌ๋„ ์—ญ์‹œ ์ด์‚ฐํ˜• ๋ถ„ํฌ์— ํ•ด๋‹น๋ฉ๋‹ˆ๋‹ค.
  • ํ‰๊ท  ๋ฐœ์ƒ๋ฅ  λ๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋ฉด ์ •๊ทœ๋ถ„ํฌ์— ๊ทผ์‚ฌ
  • ํ‰๊ท  ๋ฐœ์ƒ๋ฅ ์ด๋ž€ ์ฃผ์–ด์‹  ์‹œ๊ฐ„์ด๋‚˜ ๊ณต๊ฐ„์—์„œ ์‚ฌ๊ฑด์ด ๋ช‡๋ฒˆ ๋ฐœ์ƒํ–ˆ๋Š”์ง€?
    • ex) ํ•œ ์‹œ๊ฐ„๋™์•ˆ ์ฝœ์„ผํ„ฐ์— ์ „ํ™”์˜ค๋Š” ๊ฑด์ˆ˜๊ฐ€ 10๊ฑด์ด๋ฉด λ๋Š” 10

โ˜‘๏ธ ํ‘ธ์•„์†ก ๋ถ„ํฌ

  • ๋‹จ์œ„ ์‹œ๊ฐ„ ๋˜๋Š” ๋‹จ์œ„ ๋ฉด์  ๋‹น ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด์˜ ์ˆ˜๋ฅผ ๋ชจ๋ธ๋งํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค.
  • ํ‘ธ์•„์†ก ๋ถ„ํฌ๋Š” ํ‰๊ท  ๋ฐœ์ƒ๋ฅ  λ๋ฅผ ๊ฐ€์ง„ ์‚ฌ๊ฑด์ด ์ฃผ์–ด์ง„ ์‹œ๊ฐ„ ๋˜๋Š” ๊ณต๊ฐ„ ๋‚ด์—์„œ ๋ช‡ ๋ฒˆ ๋ฐœ์ƒํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

โ˜‘๏ธ ํŠน์ง•

  • ํ‘ธ์•„์†ก ๋ถ„ํฌ๋Š” ๋‹จ์œ„ ์‹œ๊ฐ„ ๋˜๋Š” ๋‹จ์œ„ ๋ฉด์ ๋‹น ํฌ๊ท€ํ•˜๊ฒŒ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด์˜ ์ˆ˜๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

 

  • 2) ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉ๋˜์–ด์งˆ๊นŒ?

โ˜‘๏ธ ํŠน์ • ๊ณต๊ฐ„์ด๋‚˜ ํŠน์ • ์‹œ๊ฐ„์— ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ•˜๋Š” ๊ฒฝ์šฐ

    • ์ฝœ์„ผํ„ฐ
      • ํŠน์ • ์‹œ๊ฐ„ ๋™์•ˆ ์ฝœ์„ผํ„ฐ์— ๋„์ฐฉํ•˜๋Š” ์ „ํ™” ํ†ตํ™”์˜ ์ˆ˜.
    • ๊ตํ†ต์‚ฌ๊ณ 
      • ํŠน์ • ๋„๋กœ ๊ตฌ๊ฐ„์—์„œ ์ผ์ • ๊ธฐ๊ฐ„ ๋™์•ˆ ๋ฐœ์ƒํ•˜๋Š” ๊ตํ†ต์‚ฌ๊ณ ์˜ ์ˆ˜.
    • ๋ฌธ์ž ๋ฉ”์‹œ์ง€
      • ํŠน์ • ์‹œ๊ฐ„ ๋™์•ˆ ์ˆ˜์‹ ๋˜๋Š” ๋ฌธ์ž ๋ฉ”์‹œ์ง€์˜ ์ˆ˜.
    • ์›น์‚ฌ์ดํŠธ ํŠธ๋ž˜ํ”ฝ
      • ํŠน์ • ์‹œ๊ฐ„ ๋™์•ˆ ์›น์‚ฌ์ดํŠธ์— ๋„์ฐฉํ•˜๋Š” ๋ฐฉ๋ฌธ์ž์˜ ์ˆ˜.

โ˜‘๏ธ ํŒŒ์ด์ฌ ์‹ค์Šต

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import poisson

# ํ‘ธ์•„์†ก ๋ถ„ํฌ ํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •
lambda_value = 4  # ํ‰๊ท  ๋ฐœ์ƒ๋ฅ 
x = np.arange(0, 15)  # ์‚ฌ๊ฑด ๋ฐœ์ƒ ํšŸ์ˆ˜ ๋ฒ”์œ„

# ํ‘ธ์•„์†ก ๋ถ„ํฌ ํ™•๋ฅ  ์งˆ๋Ÿ‰ ํ•จ์ˆ˜ ๊ณ„์‚ฐ
poisson_pmf = poisson.pmf(x, lambda_value)

# ๊ทธ๋ž˜ํ”„ ๊ทธ๋ฆฌ๊ธฐ
plt.figure(figsize=(10, 6))
plt.bar(x, poisson_pmf, alpha=0.6, color='b', label=f'Poisson PMF (lambda={lambda_value})')
plt.xlabel('Number of Events')
plt.ylabel('Probability')
plt.title('Poisson Distribution')
plt.legend()
plt.grid(True)
plt.show()

2.9 ๋ถ„ํฌ ์ •๋ฆฌํ•˜๊ธฐ

โœ”๏ธ ์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์› ๋˜ ๋ถ„ํฌ๋“ค ์ตœ์ข… ์ •๋ฆฌํ•˜๊ธฐ!

 

1) ๋ถ„ํฌ๋“ค๊ฐ„์˜ ๊ด€๊ณ„

โ˜‘๏ธ ์‚ฌ์‹ค… ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์šด ๋ถ„ํฌ๋Š” ์ผ๋ถ€์— ๋ถˆ๊ณผ…

 

โ˜‘๏ธ ์—ฌ๊ธฐ ์ค‘์—์„œ ์šฐ๋ฆฌ๊ฐ€ ๋ฐฐ์› ๋˜ ๋ถ„ํฌ๋“ค๊ฐ„์˜ ๊ด€๊ณ„๋งŒ ๋ณธ๋‹ค๋ฉด…

 

  • ๊ฒฐ๊ตญ ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์—„์ฒญ ๋งŽ์•„์ง€๋ฉด ์ •๊ทœ๋ถ„ํฌ์— ์ˆ˜๋ ด (์ค‘์‹ฌ๊ทนํ•œ์ •๋ฆฌ)
  • ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ๋งŽ์œผ๋ฉด ๋ฌป์ง€๋„ ๋”ฐ์ง€์ง€๋„ ๋ง๊ณ  ๋ฐ”๋กœ ์ •๊ทœ๋ถ„ํฌ๋กœ ๊ฐ€์ •!
  • ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์„ ๊ฒฝ์šฐ ๊ฐ ์ƒํ™ฉ์— ๋งž๋Š” ๋ถ„ํฌ๋ฅผ ์„ ํƒ
  • ํŠนํžˆ, long tail distribution์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„๋„ ์ •๊ทœ๋ถ„ํฌ๊ฐ€ ๋˜์ง€ ์•Š๋Š” ๋ถ„ํฌ!

 

  • 2) ๋ถ„ํฌ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ณ ๋ฅด๋ฉด ๋ ๊นŒ?
  • โ˜‘๏ธ ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์ถฉ๋ถ„ํ•˜๋‹ค → (๋ฌด์กฐ๊ฑด) ์ •๊ทœ๋ถ„ํฌ
  • โ˜‘๏ธ ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ์ž‘๋‹ค → ์ŠคํŠœ๋˜ํŠธ t ๋ถ„ํฌ
  • โ˜‘๏ธ ์ผ๋ถ€ ๋ฐ์ดํ„ฐ๊ฐ€ ์ „์ฒด์ ์œผ๋กœ ํฐ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค → ๋กฑ ํ…Œ์ผ ๋ถ„ํฌ (ํŒŒ๋ ˆํ†  ๋ถ„ํฌ)
  • โ˜‘๏ธ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์˜ ๋…๋ฆฝ์„ฑ ๊ฒ€์ •์ด๋‚˜ ์ ํ•ฉ๋„ ๊ฒ€์ • → ์นด์ด ์ œ๊ณฑ ๋ถ„ํฌ
  • โ˜‘๏ธ ๊ฒฐ๊ณผ๊ฐ€ ๋‘ ๊ฐœ(์„ฑ๊ณต or ์‹คํŒจ)๋งŒ ๋‚˜์˜ค๋Š” ์ƒํ™ฉ → ์ดํ•ญ ๋ถ„ํฌ
  • โ˜‘๏ธ ํŠน์ • ์‹œ๊ฐ„, ๊ณต๊ฐ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์‚ฌ๊ฑด → ํ‘ธ์•„์†ก ๋ถ„ํฌ