๋‚ด์ผ๋ฐฐ์›€์บ ํ”„/๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ปTIL:Today I Learn

๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ดํ•ด์™€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ™œ์šฉ ๊ธฐ์ดˆ_2.ํšŒ๊ท€๋ถ„์„-์„ ํ˜•ํšŒ๊ท€

๊ธฐํš ์—ด์ •์˜ ํ•ญํ•ด! 2025. 1. 21. 20:52

3. visual studio code ์„ค์น˜ ๋ฐ ์„ค์ •

โœ”๏ธ ๋จธ์‹ ๋Ÿฌ๋‹์„ ๋ฐฐ์šฐ๊ธฐ ์œ„ํ•œ ํ”„๋กœ๊ทธ๋žจ์„ ์„ค์น˜ํ•ด๋ณด๊ณ , ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ํ™˜๊ฒฝ์ธ Jupyter Notebook์„ ์•Œ์•„๋ด…์‹œ๋‹ค.

 

3.1 ๋จธ์‹ ๋Ÿฌ๋‹ ์‹ค์Šต ์†Œํ”„ํŠธ์›จ์–ด

โ˜‘๏ธ ๋จธ์‹ ๋Ÿฌ๋‹์„ ํ™œ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€ํ‘œ ์†Œํ”„ํŠธ์›จ์–ด

  1. Visual Studio Code(a.k.a vscode) - ๋ณธ ๊ฐ•์˜ ์šฉ
    1. Microsoft๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์†Œ์Šค ์ฝ”๋“œ ์—๋””ํ„ฐ. Python ์™ธ์—๋„ R, C, Java๋“ฑ ํ˜„์กดํ•˜๋Š” ๋Œ€๋ถ€๋ถ„ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, Copilot ๋“ฑ ๋‹ค์–‘ํ•œ extension์ด ์žˆ๋Š” ๊ฒƒ์ด ์žฅ์ ์ž…๋‹ˆ๋‹ค. ๋กœ์ปฌ ์ปดํ“จํ„ฐ ์ž์›์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉํ•˜๋Š” ์ปดํ“จํ„ฐ ํ™˜๊ฒฝ์— ๋”ฐ๋ผ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ์‚ฌ์šฉ์ด ๋А๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. Google Colab
    1. Google์ด ๋งŒ๋“  Jupyter Notebookํ™˜๊ฒฝ์œผ๋กœ, ๋ฌด๋ฃŒ๋กœ GPU ๋“ฑ ๊ณ ์‚ฌ์–‘์˜ ํ™˜๊ฒฝ์„ ์ด์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฆฌ์†Œ์Šค๊ฐ€ ์ž„์˜๋กœ ์„ค์ •๋˜์–ด, ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ๋“ฑ ๋ฆฌ์†Œ์Šค๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•˜๋ ค๋ฉด ๊ณผ๊ธˆ์ด ํ•„์ˆ˜๋กœ ์š”๊ตฌ ๋ฉ๋‹ˆ๋‹ค.
  3. Anaconda
    1. ๋ฐ์ดํ„ฐ ๊ณผํ•™ ๋ฐ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„์•ผ์— ์ ํ•ฉํ•œ Python๊ณผ R์˜ ํŒจํ‚ค์ง€/์˜์กด์„ฑ ๋ฐ ๋ฐฐํฌ๋ฅผ ํŽธ๋ฆฌํ•˜๊ฒŒ ํ•ด์ฃผ๋Š” ์˜คํ”ˆ ์†Œ์Šค ํŒจํ‚ค์ง€์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๊ณผํ•™์— ์ดˆ์ ์ด ๋งž์ถฐ์ ธ ์žˆ์œผ๋ฉฐ, ์—ญ์‹œ ๋กœ์ปฌ ์ปดํ“จํ„ฐ ์ž์›์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

โ˜‘๏ธ Jupyter Notebook ์ด๋ž€?

  • Data Science๋ฅผ ์œ„ํ•œ ํ™˜๊ฒฝ์œผ๋กœ ์˜คํ”ˆ์†Œํ”„ํŠธ์›จ์–ด ์›น ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜
  • ์ฝ”๋“œ์ž‘์„ฑ, ์‹œ๊ฐํ™”, Markdown์„ ์ด์šฉํ•œ ๋ฌธ์„œ ์ž‘์„ฑ์ด ๊ฐ€๋Šฅ
  • Jupyter Notebook์˜ ๊ตฌ์„ฑ์š”์†Œ: Code Cell, Markdown Cell
์ž์—ฐ๊ณผํ•™, ๊ณต๊ณผ ๋Œ€ํ•™ ๋“ฑ ์‹คํ—˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์—ฐ๊ตฌ๋Š” ์—ฐ๊ตฌ๋…ธํŠธ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด script ์ฝ”๋“œ ํŒŒ์ผ์€ ์‹คํ—˜๊ณผ ์—ฐ๊ตฌ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚จ๊ธฐ๊ธฐ์—” ๋ฉ”๋ชจ์™€ ์‹œ๊ฐํ™” ๊ธฐ๋Šฅ์ด ์•ฝํ•˜์—ฌ cell ๊ธฐ๋ฐ˜์œผ๋กœ ์—ฐ๊ตฌ ๋…ธํŠธ๋ถ์˜ ํ˜•ํƒœ์ธ Jupyter Notebook์ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Jupyter Notebook์€ vscode, Colab(์ฃผํ”ผํ„ฐ๋…ธํŠธ๋ถ ๊ทธ ์ž์ฒด์ž„!), Anaconda ๋ชจ๋‘ ํƒ‘์žฌํ•˜์—ฌ์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์šฐ๋ฆฌ ๊ฐ•์˜์—์„œ๋Š” vscode๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์‹ค์Šตํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1. ํ•™์Šต ๋ชฉํ‘œ

โœ”๏ธ ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ธฐ๋ณธ! ํšŒ๊ท€๋ถ„์„์ด ๋ฌด์—‡์ธ์ง€, ํ‰๊ฐ€์ฒ™๋„๋Š” ๋ฌด์—‡์ธ์ง€ ์•Œ์•„๋ด…์‹œ๋‹ค.

 

2. ์„ ํ˜•ํšŒ๊ท€์˜ ์‚ฌ๋ก€

โœ”๏ธ ์—ฌ๋Ÿฌ๋ถ„์ด 1์ฐจ ๋ฐฉ์ •์‹์„ ๊ฐ“ ๋ฐฐ์šด ํ•™์ƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ์„ ํ˜•ํšŒ๊ท€๋ฅผ ์ ์šฉํ•ด๋ณด๋Š” ์‚ฌ๋ก€๋ฅผ ์ดํ•ดํ•ด๋ด…์‹œ๋‹ค.

 

2.1 ๋ชธ๋ฌด๊ฒŒ์™€ ํ‚ค ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ์ฐพ์•„๋‚ด๊ธฐ

๐Ÿ“Œ ๋ฐฉ์ •์‹์„ ๋ฐฐ์šด ๋จธ์‹ ์ด๋Š” ๋ชธ๋ฌด๊ฒŒ์™€ ํ‚ค์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํš๋“ํ–ˆ๋‹ค. ์ผ์ •ํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ํŒจํ„ด์ด ์žˆ์–ด์„œ ๋ฏธ๋ฆฌ ๋ชธ๋ฌด๊ฒŒ๋ฅผ ์•Œ๋ฉด ํ‚ค๋ฅผ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ–ˆ๋‹ค.
  • ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ ๊ฐ„์˜ ๋ฐ์ดํ„ฐ
weights = [87,81,82,92,90,61,86,66,69,69]
heights = [187,174,179,192,188,160,179,168,168,174]
  • ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ ๊ฐ„์˜ ์‚ฐ์ ๋„

๐Ÿ“Œ ์ค‘ํ•™๊ต 1ํ•™๋…„ ๋•Œ 1์ฐจ ๋ฐฉ์ •์‹์„ ๋ฐฐ์šด ๋จธ์‹ ์ด๋Š” ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋„ˆ๋ฌด ๋งŽ์•„์„œ ๋ฌด์Šจ ๋‘ ์ ์„ ์ด์–ด ์ง์„ ์„ ๋งŒ๋“ค์ง€ ๊ณ ๋ฏผ ๋˜์—ˆ์ง€๋งŒ, ์ˆ˜ ๋งŽ์€ ์ ๋“ค์„ ๊ด€ํ†ตํ•˜๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ง์„ ์„ ๋งŽ์ด ๊ทธ๋ ค๋ณด๊ธฐ๋กœ ํ–ˆ๋‹ค.

 

  • ์–ด๋–ค ์ง์„ ์ด ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ “์„ค๋ช…”ํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

๐Ÿ“Œ ๋จธ์‹ ์ด๋Š” 3๊ฐœ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ ค๋ณด๋‹ˆ, ์•„๋ฌด๋ž˜๋„ ์ดˆ๋ก์ƒ‰, ํŒŒ๋ž€์ƒ‰ ์ง์„ ๋ณด๋‹ค๋Š” ๋นจ๊ฐ„์ƒ‰ ๊ทธ๋ž˜ํ”„๊ฐ€ ์ ์ ˆํ•œ ๊ฒƒ ๊ฐ™๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ๋Œ€๊ฐ• ์ง์„ ์„ ๊ทธ๋ฆฌ๋‹ค ๋ณด๋ฉด ์ ์ ˆํ•œ ๊ทธ๋ž˜ํ”„๋ฅผ ์ฐพ๊ธฐ ์–ด๋ ค์šธ ๊ฒƒ ๊ฐ™์•„ ๊ณ ๋ฏผ์ด ๋น ์กŒ๋‹ค.

 

2.2 Data Scientific ํ•œ ๋ฐœ์ƒ

  • ๋ฐฉ๋ฒ•1) ์‹ค์ œ ๋ฐ์ดํ„ฐ ๊ฐ’ - ์ง์„ ์˜ ์˜ˆ์ธก ๊ฐ’ = Error
    • โ‘ ๋ฒˆ ์‹ค์ œ ๋ฐ์ดํ„ฐ:187, ์˜ˆ์ธก ๋ฐ์ดํ„ฐ: 187 Error: 0
    • โ‘ก๋ฒˆ ์‹ค์ œ ๋ฐ์ดํ„ฐ: 174, ์˜ˆ์ธก ๋ฐ์ดํ„ฐ: 181 Error: -7
    • โ‘ข๋ฒˆ ์‹ค์ œ ๋ฐ์ดํ„ฐ: 174, ์˜ˆ์ธก ๋ฐ์ดํ„ฐ : 169 Error: +5

๐Ÿ“Œ ํ•˜์ง€๋งŒ ๋ฌธ์ œ๊ฐ€ ๋˜ ์žˆ์—ˆ๋‹ค. ์„ ๋ถ„์„ ๊ธฐ์ค€์œผ๋กœ ์œ„์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋ฉด ์–‘์ˆ˜๊ฐ€ ๋˜๊ณ , ๋ฐ˜๋Œ€๋กœ ์•„๋ž˜์— ์žˆ๋Š” ๊ฒƒ์€ ์Œ์ˆ˜๊ฐ€ ๋œ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ชจ๋“  ์—๋Ÿฌ๋ฅผ ํ•ฉ์น˜๋ฉด ์„œ๋กœ ์ƒ์‡„๋˜๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์Œ์ˆ˜๋ฅผ ์–‘์ˆ˜๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ œ๊ณฑ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค๋Š” ๊ฑธ ์ƒ๊ฐํ•ด ๋ƒˆ๋‹ค.
  • ๋ฐฉ๋ฒ•2) ๊ฐ๊ฐ Error๋ฅผ ์ œ๊ณฑํ•˜์—ฌ ๋ชจ๋‘ ๋”ํ•˜๊ธฐ
    • โ‘ , โ‘ก,โ‘ข์˜ ์ œ๊ณฑ ํ•ฉ: 49 +25 = 71

๐Ÿ“Œ ๋ฌธ์ œ๋Š” ํ•˜๋‚˜ ๋” ์žˆ์—ˆ๋‹ค. ๋‚˜์ค‘์—๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ˆ˜์ง‘ํ•  ์˜ˆ์ •์ธ๋ฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋” ๋Š˜์–ด๋‚  ์ˆ˜๋ก(โ‘ฃ,โ‘ค) ์—๋Ÿฌ๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๊ฐ’์ด ์ปค์งˆ ์ˆ˜ ๋ฐ–์— ์—†๋Š” ๊ฒƒ์ด๋‹ค! ๊ทธ๋ž˜์„œ ๋ฐ์ดํ„ฐ์˜ ๊ฐฏ์ˆ˜๋กœ ๋‚˜๋ˆ„๊ธฐ๋กœ ํ–ˆ๋‹ค. ๋˜ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ œ๊ณฑ ๋˜์–ด ์žˆ๋˜ ๊ฒƒ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด root๋ฅผ ์”Œ์šฐ๊ธฐ๋กœ ํ–ˆ๋‹ค.

 

  • ๋ฐฉ๋ฒ•3) ์ „์ฒด ์—๋Ÿฌ ํ•ฉ์— ๋ฐ์ดํ„ฐ์˜ ๊ฐฏ์ˆ˜๋กœ ๋‚˜๋ˆ„๊ธฐ
    • โ‘ , โ‘ก,โ‘ข๋งŒ ๊ณ ๋ คํ•œ๋‹ค๋ฉด 71/3 → 23.7


3. ์„ ํ˜•ํšŒ๊ท€ ์ด๋ก 

โœ”๏ธ ๋จธ์‹ ์ด๊ฐ€ ํ•˜๋ ค๋Š” ๋ฐฉ๋ฒ•์ด ์ดํ•ด๊ฐ€ ์ž˜ ๋˜์—ˆ๋‚˜์š”? ์ด๋ฒˆ์—๋Š” ์‹ค์ œ ์ผ์ฐจ ๋ฐฉ์ •์‹์„ ํ†ตํ•ด ์ˆ˜์‹ํ™” ํ•ด๋ณผ๊ฒŒ์š”.

 

โ˜‘๏ธ ์„ ํ˜•ํšŒ๊ท€ ์šฉ์–ด ์ •๋ฆฌ

๐Ÿ“Œ ๋จธ์‹ ์ด๋Š” ๋ชธ๋ฌด๊ฒŒ๋ฅผ ์•Œ๋ฉด ํ‚ค๋ฅผ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ์ƒ๊ฐํ–ˆ์–ด์š”. ์ด๋ฅผ ์ด์šฉํ•ด์„œ ๋ฐฉ์ •์‹์„ ์„ธ์šฐ๊ณ  ์šฉ์–ด๋ฅผ ์ •๋ฆฌํ•ด๋ณผ๊ฒŒ์š”. ํ†ต๊ณ„ํ•™๊ณผ ์ปดํ“จํ„ฐ ๊ณตํ•™ ๋‘ ํ•™๋ฌธ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐœ์ „ํ•ด์™€์„œ ๊ฐ™์€ ์›๋ฆฌ์ง€๋งŒ ๋ถ€๋ฅด๋Š” ๋ช…์นญ์ด ์‚ด์ง ๋‹ฌ๋ผ์š”! ์šฉ์–ด๋ฅผ ์ •๋ฆฌํ•ด๋ณผ๊ฒŒ์š”
  • ๊ณตํ†ต
    • Y๋Š” ์ข…์† ๋ณ€์ˆ˜, ๊ฒฐ๊ณผ ๋ณ€์ˆ˜ (์•Œ๊ณ ์‹ถ์€ ๊ฐ’)
    • X๋Š” ๋…๋ฆฝ ๋ณ€์ˆ˜, ์›์ธ ๋ณ€์ˆ˜, ์„ค๋ช… ๋ณ€์ˆ˜
  • ํ†ต๊ณ„ํ•™์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์„ ํ˜•ํšŒ๊ท€ ์‹

  • ๋จธ์‹ ๋Ÿฌ๋‹/๋”ฅ๋Ÿฌ๋‹์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์„ ํ˜•ํšŒ๊ท€ ์‹

 

 ๐Ÿ“Œ ๊ฒฐ๊ตญ ๋‘ ์ˆ˜์‹์ด ์ „๋‹ฌํ•˜๋ ค๊ณ  ํ•˜๋Š” ์˜๋ฏธ๋Š” ๊ฐ™์•„์š”. ํšŒ๊ท€ ๊ณ„์ˆ˜ ํ˜น์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ’์„ ์•Œ๋ฉด X๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ Y๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด์ฃ ! ์šฐ๋ฆฌ๋Š” ํŽธ์˜๋ฅผ ์œ„ํ•ด X์˜ ๊ณ„์ˆ˜๋Š” ๊ฐ€์ค‘์น˜๋ผ๊ณ  ์ง€์นญํ• ๊ฒŒ์š”!
๐Ÿ“Œ (์Šคํฌ) ๋ชธ๋ฌด๊ฒŒ์™€ ํ‚ค ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด์„œ ์„ ํ˜•ํšŒ๊ท€ ์‹์„ ๋งŒ๋“ค๋ฉด, y = 0.86x + 109.37 ์ด ๋‚˜์™€์š”. ์ด ๋œป์€, 1kg ์ฆ๊ฐ€ํ• ๋•Œ๋งˆ๋‹ค ํ‚ค๊ฐ€ 0.86 cm ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์œผ๋กœ ํ•ด์„ ํ•  ์ˆ˜ ์žˆ์–ด์š”.

 

โ‰๏ธ ์งˆ๋ฌธ

  • Q1) β0โ€‹ ๋Š” 1์ฐจ ๋ฐฉ์ •์‹์˜ Y์ ˆํŽธ์— ํ•ด๋‹นํ•˜๋Š” ๊ฑธ ์•Œ๊ฒ ์–ด์š”. ๊ทธ๋Ÿฐ๋ฐ ε ์€ ์™œ ๋”ฐ๋กœ ์žˆ๋Š”๊ฑด๊ฐ€์š”?
    • ์šฐ๋ฆฌ๊ฐ€ ๋ชธ๋ฌด๊ฒŒ์™€ ํ‚ค์— ๋Œ€ํ•œ ์„ ํ˜•ํšŒ๊ท€์‹์„ ๋งŒ๋“ค์—ˆ์ง€๋งŒ, ํ•ด๋‹น ์‹์ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์„ค๋ช…ํ•  ์ˆ˜ ์—†์–ด์š”. ์ด๋•Œ ์™„๋ฒฝํ•œ ์„ค๋ช…์ด๋ž€ ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ’ = ์˜ˆ์ธก ๋ฐ์ดํ„ฐ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์–ด์š”. ๋‹ค์‹œ ๋งํ•ด ์—๋Ÿฌ(โ‘ก,โ‘ข)์˜ ๊ฐ’์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์žˆ๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค.
  • Q2) ๊ฐ€์ค‘์น˜(W)๋ฅผ ์•Œ๊ฒŒ ๋˜๋ฉด X๊ฐ’์— ๋Œ€ํ•˜์—ฌ Y๊ฐ’์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ์ดํ•ด๊ฐ€ ๋˜๋Š”๋ฐ, ๊ทธ๋Ÿผ ๊ฐ€์ค‘์น˜๋Š” ์–ด๋–ป๊ฒŒ ๊ตฌํ•˜์ฃ ?
    • ์ด๋Ÿฐ ๋ฌผ์Œ์ด ๋“ค์—ˆ๋‹ค๋ฉด ๋จธ์‹ ๋Ÿฌ๋‹์„ ๊ด€ํ†ตํ•˜๋Š” ์งˆ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ์žˆ๋‹ค๋ฉด ๊ฐ€์ค‘์น˜๋ฅผ “์ถ”์ •”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ฌํ™” ๋‚ด์šฉ์—์„œ ๋‹ค๋ฃจ๋„๋ก ํ• ๊ฒŒ์š”! ์ด ๋ถ€๋ถ„์€ ํ˜„์žฌ๋Š” ๊ทธ๋ž˜ํ”„๋ฅผ ์ˆ˜๋„ ์—†์ด ๊ทธ๋ ค์„œ ์—๋Ÿฌ๋ฅผ “์ตœ์†Œํ™””ํ•˜๋Š” ์ง์„ ์„ ๊ตฌํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

4. ํšŒ๊ท€๋ถ„์„ ํ‰๊ฐ€ ์ง€ํ‘œ

โœ”๏ธ ์„ ํ˜•(์ง์„ )ํšŒ๊ท€(๋Œ์•„๊ฐˆ๋ ค๊ณ ํ•˜๋Š”๊ฑฐ)๋ฅผ ์ˆ˜๋ฆฝํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์› ์œผ๋‹ˆ ํ•ด๋‹น ๋ชจ๋ธ์ด ์ข‹์€์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•๋„ ์•Œ์•„๋ด…์‹œ๋‹ค.

 

โ˜‘๏ธ ํšŒ๊ท€ ํ‰๊ฐ€์ง€ํ‘œ - MSE

๐Ÿ“Œ ๋จธ์‹ ์ด๊ฐ€ ๋˜‘๋˜‘ํ•˜๊ฒŒ ์—๋Ÿฌ๋ฅผ ์ •์˜ํ•œ ๊ฒƒ์„ ๋ฐ”ํƒ•์œผ๋กœ ํšŒ๊ท€์‹์˜ ํ‰๊ฐ€์ง€ํ‘œ๋ฅผ ๋งŒ๋“ค์–ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋จธ์‹ ์ด๊ฐ€ ์ •๋ฆฌํ•œ ๋‚ด์šฉ์„ ๋‹ค์‹œ ์จ๋ณผ๊นŒ์š”?
  • ์—๋Ÿฌ ์ •์˜๋ฐฉ๋ฒ•
    • ๋ฐฉ๋ฒ•1) ์—๋Ÿฌ = ์‹ค์ œ ๋ฐ์ดํ„ฐ - ์˜ˆ์ธก ๋ฐ์ดํ„ฐ ๋กœ ์ •์˜ํ•˜๊ธฐ
    • ๋ฐฉ๋ฒ•2) ์—๋Ÿฌ๋ฅผ ์ œ๊ณฑํ•˜์—ฌ ๋ชจ๋‘ ์–‘์ˆ˜๋กœ ๋งŒ๋“ค๊ธฐ, ๋‹ค ํ•ฉ์น˜๊ธฐ
    • ๋ฐฉ๋ฒ•3) ๋ฐ์ดํ„ฐ๋งŒํผ ๋‚˜๋ˆ„๊ธฐ

๐Ÿ“Œ y๊ฐ’์˜ ๋จธ๋ฆฌ์— ์žˆ๋Š” ^ ํ‘œ๊ธฐ๋ฅผ hat์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ์˜ˆ์ธก(ํ˜น์€ ์ถ”์ •)ํ•œ ์ˆ˜์น˜์— ํ‘œ๊ธฐํ•ด์š”! ์ˆ˜์‹ ์ „์ฒด๋ฅผ ๋ณด๋ฉด ์ดํ•ดํ•˜๊ธฐ ํž˜๋“ค ์ˆ˜ ์žˆ์ง€๋งŒ, ๋‹จ๊ณ„๋ณ„๋กœ ํ™•์ธํ•ด๋ณด๋ฉด ์–ด๋ ต์ง€ ์•Š์•„์š”! ์ฐฌ์ฐฌํžˆ ๋‹ค์‹œ ๊ณฑ์”น๋ด…์‹œ๋‹ค.

 

  • Mean Squared Erorr(MSE)๋ผ๊ณ  ์ •์˜ <Erorr์ธ๋ฐ ์ œ๊ณฑ์„ ํ–ˆ๊ณ  ํ‰๊ท ์„ ๋ƒˆ์–ด>

 

๐Ÿ“Œ ์•ž์œผ๋กœ ๋งŒ๋‚˜๋Š” ์ˆซ์ž ์˜ˆ์ธก ๋ฌธ์ œ๋Š” ๋ชจ๋ธ์„ ๋จธ์‹ ๋Ÿฌ๋‹์ด๋“  ๋”ฅ๋Ÿฌ๋‹์ด๋“  ์–ด๋–ค ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด๋„ ์œ„ MSE ์ง€ํ‘œ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰ํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๊ฒŒ ๋ ๊ฑฐ์—์š”!
  • ๊ธฐํƒ€ ํ‰๊ฐ€ ์ง€ํ‘œ

 

4.2 ์„ ํ˜•ํšŒ๊ท€๋งŒ์˜ ํ‰๊ฐ€ ์ง€ํ‘œ - R Square

๐Ÿ“Œ ์ˆซ์ž๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํšŒ๊ท€๋ถ„์„์—์„œ, ์„ ํ˜•ํšŒ๊ท€์—์„œ๋งŒ ํ‰๊ฐ€๋˜๋Š” ์ง€ํ‘œ๊ฐ€ 1๊ฐœ ๋” ์žˆ์–ด์š”. ๊ทธ๊ฑด ๋ฐ”๋กœ R Square ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. R Square(R^2)๋Š” ์ „์ฒด ๋ชจํ˜•์—์„œ ํšŒ๊ท€์„ ์œผ๋กœ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋„๋ฅผ ๋œปํ•ฉ๋‹ˆ๋‹ค.

์–ด๋–ค ๊ฐ’์„ “์˜ˆ์ธก”ํ•œ๋‹ค๋Š”๊ฑด ์–ด๋ฆผ์ง์ž‘์œผ๋กœ ํ‰๊ท ๊ฐ’๋ณด๋‹จ ์˜ˆ์ธก์„ ์ž˜ํ•ด์•ผํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ด์š”. ์˜ˆ์ปจ๋Œ€, ํ‚ค์˜ ํ‰๊ท  ๊ฐ’์ด 176.9์ธ๋ฐ ์ด ๊ฐ’์œผ๋กœ ๋ชจ๋‘ ์˜ˆ์ธกํ•œ ๊ฒƒ๋ณด๋‹ค๋Š” ์ž˜ํ•ด์•ผ๊ฒ ์ฃ ?

# ํšŒ๊ท€: ์ˆซ์ž(Y)๋ฅผ ๋งž์ถ”๋Š” ๊ฒƒ <->๋ถ„๋ฅ˜ : ๋ฒ”์ฃผ(Y=0์ธ๊ฐ€? Y=1์ธ๊ฐ€)๋ฅผ ๋งž์ถ”๋Š” ๊ฒƒ

 

 

  • 3๋ฒˆ์˜ ๋ฐ์ดํ„ฐ ๊ฐ’์€ SST = 174^2, SSR = 169^2
    • ํ•ด๋‹น ๊ฐ’์— ๋Œ€ํ•œ ์„ค๋ช…๋ ฅ = 94% ( 169^2/174^2)
    • ๋‹จ, ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์œ„ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰

5.1 ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์„ค์น˜ํ•˜๊ธฐ

๐Ÿ“Œ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ๋Œ€ํ‘œ์ ์ธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” scikit- learn ์ž…๋‹ˆ๋‹ค. ๊ทธ ์™ธ์—๋„ ์ž์ฃผ ์“ฐ์ด๋Š” ๋Œ€ํ‘œ์  ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์„ค์น˜ํ•ด๋ด…์‹œ๋‹ค. 

๐Ÿšจ์ฃผ์˜ : Python์—์„œ ํŒจํ‚ค์ง€ ์ด๋ฆ„์— ํ•˜์ดํ”ˆ(-)์ด ํฌํ•จ๋  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— scikit-learn์„ importํ•  ๋•Œ๋Š” ํŒจํ‚ค์ง€ ์ด๋ฆ„์„ sklearn์œผ๋กœ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ,  VS Code์—์„œ ํŒŒ์ด์ฌ์„ ์‚ฌ์šฉํ•  ๋•Œ๋Š” ํ•„์š”ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์ง์ ‘ ์„ค์น˜( ex. !pip install numpy )ํ•ด์ค˜์•ผ ํ•ฉ๋‹ˆ๋‹ค. VS Code๋Š” Colab์ฒ˜๋Ÿผ ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

 

โ˜‘๏ธ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

  • scikit-learn: Python ๋จธ์‹ ๋Ÿฌ๋‹ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
    import sklearn as sk (ํŒŒ์ด์ฌ์—์„œ๋Š”!)
  • numpy: Python ๊ณ ์„ฑ๋Šฅ ์ˆ˜์น˜ ๊ณ„์‚ฐ์„ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
  • pandas: ํ…Œ์ด๋ธ” ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ
  • matplotlib: ๋Œ€ํ‘œ์ ์ธ ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‹จ์ˆœํ•˜๊ณ  ์„ค์ • ์ž‘์—… ๋งŽ์Œ
  • seaborn: matplot: ๊ธฐ๋ฐ˜์˜ ๊ณ ๊ธ‰ ์‹œ๊ฐํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, ์ƒ์œ„ ์ˆ˜์ค€์˜ ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ๊ณต

โ˜‘๏ธ ์ž์ฃผ ์“ฐ๋Š” ํ•จ์ˆ˜

  • sklearn.linear_model.LinearRegression : ์„ ํ˜•ํšŒ๊ท€ ๋ชจ๋ธ ํด๋ž˜์Šค
    • coef_: ํšŒ๊ท€ ๊ณ„์ˆ˜
    • intercept: ํŽธํ–ฅ(bias)
    • fit: ๋ฐ์ดํ„ฐ ํ•™์Šต
    • predict: ๋ฐ์ดํ„ฐ ์˜ˆ์ธก

5.2 (์‹ค์Šต) ์„ ํ˜•ํšŒ๊ท€ ์‹ค์Šต

 โœ… ํšŒ๊ท€๋ถ„์„ ์‹ค์Šต์„ ํ•ด๋ด…์‹œ๋‹ค.

โ˜‘๏ธ ํ‚ค-๋ชธ๋ฌด๊ฒŒ ๋ฐ์ดํ„ฐ ์‹ค์Šต

  1. ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์„ค์น˜
  2. ์„ ํ˜•ํšŒ๊ท€ ๋ชจ๋ธ ๋ถˆ๋Ÿฌ์˜ค๊ณ  ํ›ˆ๋ จํ•˜๊ธฐ
  3. ์‚ฐ์ ๋„ ๊ทธ๋ฆฌ๊ธฐ
  4. ํ‰๊ฐ€

โ˜‘๏ธ tips๋กœ ์‹ค์Šต

โœ”๏ธ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ๋‚ด์žฅ๋˜์–ด ์žˆ๋Š” tip์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์‹ค์ œ ํšŒ๊ท€๋ถ„์„์„ ์ง„ํ–‰ํ•ด๋ด…์‹œ๋‹ค.
๐Ÿ“Œ ์‹๋‹น์—์„œ ํŒŒํŠธํƒ€์ž„์œผ๋กœ ์ผํ•˜๊ณ  ์žˆ๋Š” ๋จธ์‹ ์ด๋Š” ์ด๋ฒˆ์—๋Š” tip ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์ ์šฉํ•ด๋ณด๊ธฐ๋กœ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ˆ์„ ๋งŽ์ด ๋ฒŒ๊ณ  ์‹ถ์—ˆ๋˜ ๋จธ์‹ ์ด๋Š” ์ „์ฒด ๊ธˆ์•ก(X)๋ฅผ ์•Œ๋ฉด ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” ํŒ(Y)์— ๋Œ€ํ•œ ํšŒ๊ท€๋ถ„์„์„ ์ง„ํ–‰ํ•ด๋ณผ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

 

  1. ๋ฐ์ดํ„ฐ ํš๋“
  • tips_df.head()

  • ์ปฌ๋Ÿผ ์„ค๋ช…
    • total_bill: ์ „์ฒด ์ง€๋ถˆ๊ธˆ์•ก
    • tip: ํŒ ๊ธˆ๋งฅ
    • sex: ์„ฑ๋ณ„
    • smoker: ํก์—ฐ ์œ ๋ฌด
    • day: ์š”์ผ
    • time: ์‹์‚ฌ ์‹œ๊ฐ„(์ ์‹ฌ, ์ €๋…)
    • size: ์‹์‚ฌ ์ธ์›

2. ์„ ํ˜•ํšŒ๊ท€ ํ›ˆ๋ จํ•˜๊ธฐ

3. ํ‰๊ฐ€