๋‚ด์ผ๋ฐฐ์›€์บ ํ”„/๐Ÿ‘ฉ๐Ÿป‍๐Ÿ’ปTIL:Today I Learn

๋ฐ์ดํ„ฐ ๋ถ„์„ ์ž…๋ฌธ : 1. ๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ (๐Ÿ—จ๏ธ์ฒซ ํŒ€ํ”„๋กœ์ ํŠธ)_ํšŒ๊ณ  ๋ฐ ์ •๋ฆฌ

๊ธฐํš ์—ด์ •์˜ ํ•ญํ•ด! 2025. 1. 22. 15:09

์šฐ์„  ๋ฐ์ดํ„ฐ๋ถ„์„ ์—…๋ฌด๋ฅผ ํ•  ๋•, ์ด๋Ÿฐ ๊ณผ์ •์„ ๊ฑฐ์น˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•จ!


๐Ÿ”ฅ Intro: "ON AIR ๋ถ„์„ ์ ˆ์ฐจ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœํ•œ ํ”„๋กœ์ ํŠธ" - ๊ธฐ์ดˆ ํ”„๋กœ์ ํŠธ

 

 

1. Objective (๋ชฉํ‘œ)

  • ํ”„๋กœ์ ํŠธ ๋ชฉํ‘œ: ์ด ํ”„๋กœ์ ํŠธ์˜ ์ฃผ์š” ๋ชฉํ‘œ๋ฅผ ๋ช…ํ™•ํžˆ ๊ธฐ์ˆ ํ•ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š”์ง€ ๋˜๋Š” ์–ด๋–ค ๋น„์ฆˆ๋‹ˆ์Šค ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋ ค๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ˆ์ƒ ๊ฒฐ๊ณผ๋ฌผ: ์ด ํ”„๋กœ์ ํŠธ๋ฅผ ํ†ตํ•ด ๊ธฐ๋Œ€๋˜๋Š” ๊ฒฐ๊ณผ๋ฌผ๊ณผ ๋„์ถœํ•˜๊ณ ์ž ํ•˜๋Š” ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋ช…์‹œํ•ฉ๋‹ˆ๋‹ค.

2. Necessary data (๋ฐ์ดํ„ฐ)

  • ๋ฐ์ดํ„ฐ ์†Œ์Šค: ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์˜ ์ถœ์ฒ˜๋ฅผ ์„ค๋ช…ํ•˜๊ณ , ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜•๊ณผ ๋ฒ”์œ„๋ฅผ ๋ช…์‹œํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณ„ํš: ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ธฐ ์œ„ํ•œ ๊ณ„ํš๊ณผ ๋ฐฉ๋ฒ•์„ ๊ธฐ์ˆ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์˜ ์ •ํ™•์„ฑ๊ณผ ์™„์ „์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•œ ์กฐ์น˜๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.

3. Analytics (๋ถ„์„)

  • ๋ถ„์„ ๋ฐฉ๋ฒ•: ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฒ•๊ณผ ๋ชจ๋ธ์„ ์„ ์ •ํ•˜๊ณ , ๋ถ„์„์„ ์œ„ํ•œ ์ ˆ์ฐจ๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ: ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•˜๊ณ  ์ „์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ธฐ์ˆ ํ•˜๊ณ , ๋ถ„์„์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐํ™” ๊ณ„ํš: ๋ฐ์ดํ„ฐ๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•˜๋Š” ๊ณ„ํš์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

4. Interpretation (ํ•ด์„)

  • ๋ถ„์„ ๊ฒฐ๊ณผ ํ•ด์„: ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ํ•ด์„ํ•˜๊ณ , ๋น„์ฆˆ๋‹ˆ์Šค์— ์–ด๋–ป๊ฒŒ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์ธ์‚ฌ์ดํŠธ ๋„์ถœ: ๋ฐ์ดํ„ฐ์—์„œ ๋„์ถœ๋œ ์ธ์‚ฌ์ดํŠธ์™€ ํ–ฅํ›„ ์ „๋žต ์ˆ˜๋ฆฝ์„ ์œ„ํ•œ ์ œ์–ธ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

5. Report (๋ณด๊ณ )

  • ๋ณด๊ณ ์„œ ๊ตฌ์กฐ: ๋ณด๊ณ ์„œ์˜ ๊ตฌ์กฐ์™€ ํ˜•์‹์„ ์ •์˜ํ•˜๊ณ , ์–ด๋–ค ์ •๋ณด๋ฅผ ํฌํ•จํ•  ๊ฒƒ์ธ์ง€๋ฅผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.
  • ์‹œ๊ฐํ™” ํ™œ์šฉ: ๋ณด๊ณ ์„œ์— ์‚ฌ์šฉํ•  ์‹œ๊ฐํ™” ๋„๊ตฌ ๋ฐ ๋ฐฉ๋ฒ•์„ ๊ฒฐ์ •ํ•˜๊ณ , ๊ฐ•์กฐํ•  ์š”์†Œ๋ฅผ ๊ตฌ์ฒดํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ณด๊ณ ์„œ ์ž‘์„ฑ ์ผ์ •: ๋ณด๊ณ ์„œ ์ž‘์„ฑ ๋ฐ ๋ฐœํ‘œ ์ผ์ •์„ ๊ณ„ํšํ•˜๊ณ , ์ด๋ฅผ ๊ด€๋ฆฌํ•  ๋ฐฉ๋ฒ•์„ ๊ธฐ์ˆ ํ•ฉ๋‹ˆ๋‹ค.

ํ”„๋กœ์ ํŠธ ์‹œ ์ฐธ๊ณ  ์‚ฌํ•ญ

๐Ÿ“š ์ฃผ์š” ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ

  • Pandas: ๋ฐ์ดํ„ฐ ์กฐ์ž‘ ๋ฐ ๋ถ„์„
  • NumPy: ์ˆ˜์น˜ ์—ฐ์‚ฐ
  • Matplotlib: ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”
  • Seaborn: ํ†ต๊ณ„์  ์‹œ๊ฐํ™”
  • Altair: ์ƒํ˜ธ์ž‘์šฉํ˜• ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”

๐Ÿ” ์ฃผ์š” ํ•จ์ˆ˜

๋ฐ์ดํ„ฐ ๊ธฐ๋ณธ ์ •๋ณด ํ™•์ธ

  • display(), shape, dtypes, values, columns
  • info(): ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ์š”์•ฝ ์ •๋ณด
  • transpose(): ํ–‰๊ณผ ์—ด ์ „ํ™˜

๋ฐ์ดํ„ฐ ๊ธฐ์ˆ  ํ†ต๊ณ„ ๋ฐ ๊ฒฐ์ธก์น˜ ํ™•์ธ

  • describe(): ๊ธฐ๋ณธ ํ†ต๊ณ„ ์š”์•ฝ
  • isnull(): ๊ฒฐ์ธก๊ฐ’ ํƒ์ƒ‰
  • drop(): ๊ฒฐ์ธก๊ฐ’ ์ œ๊ฑฐ

๋ฐ์ดํ„ฐ ๊ฒฐํ•ฉ ๋ฐ ์žฌ๊ตฌ์„ฑ

  • join(), merge(), concat(), append(): ๋ฐ์ดํ„ฐ ๊ฒฐํ•ฉ
  • pivot_table(): ํ”ผ๋ฒ— ํ…Œ์ด๋ธ” ์ƒ์„ฑ

๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง ๋ฐ ์ง‘๊ณ„

  • where(), mask(): ์กฐ๊ฑด๋ถ€ ๋ฐ์ดํ„ฐ ์„ ํƒ
  • groupby(), agg(sum, min, max, count, nunique, mode): ๋ฐ์ดํ„ฐ ๊ทธ๋ฃนํ™” ๋ฐ ์š”์•ฝ

๋ฐ์ดํ„ฐ ์ •๋ฆฌ ๋ฐ ๋ณ€ํ™˜

  • sort_values(): ๊ฐ’ ๊ธฐ์ค€ ๋ฐ์ดํ„ฐ ์ •๋ ฌ
  • split(): ๋ฌธ์ž์—ด ๋ถ„๋ฆฌ
  • to_numeric(): ๋ฐ์ดํ„ฐ ํƒ€์ž… ๋ณ€ํ™˜
  • fillna(): ๊ฒฐ์ธก๊ฐ’ ๋Œ€์ฒด

๐Ÿงฉ ์ด์ƒ์น˜ ๋ฐ ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•

  • ์ด์ƒ์น˜ ํƒ์ƒ‰: Z-score์™€ IQR์„ ์‚ฌ์šฉํ•˜์—ฌ ๋น„์ •์ƒ์  ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ํƒ์ง€
  • ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ: KNN์„ ํ†ตํ•œ ๊ฒฐ์ธก๊ฐ’ ๋Œ€์ฒด

 

ํ”„๋กœ์ ํŠธ ํ‰๊ฐ€ ํ•ญ๋ชฉ


ํƒ€์ดํƒ€๋‹‰ํ˜ธ ์‚ฌ๊ณ  ์ƒ์กด ๊ด€๋ จ ๋ฐ์ดํ„ฐ๋ถ„์„ ํ”„๋กœ์ ํŠธ

ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(Exploratory Data Analysis: EDA)

“๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๋ฐ ํ†ต๊ณ„๋ถ„์„์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•˜๊ณ , ๊ฐ€์„ค์„ ์ˆ˜๋ฆฝํ•œ๋‹ค.”

 

EDA Tasks

1. ๋ฐ์ดํ„ฐ ๊ธฐ๋ณธ ์ •๋ณด ํ™•์ธ

• Data dictionary (๋ณ€์ˆ˜๋ช…, ๋ณ€์ˆ˜ ์œ ํ˜•, ๋ณ€์ˆ˜ ์ •์˜, input/output ๋“ฑ)

• Data shape

 

2. ๋ฐ์ดํ„ฐ ์ •์ œ

• ๊ฒฐ์ธก์น˜(missing values) ๋ฐ ์ด์ƒ์น˜(outliers)์˜ ํ™•์ธ ๋ฐ ์ฒ˜๋ฆฌ

 

3. ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ํ™•์ธ

• ๋‹จ๋ณ€๋Ÿ‰(univariate) ๋ฐ ๋‹ค๋ณ€๋Ÿ‰(multivariate) ๋ถ„ํฌ

• ๊ธฐ์ˆ ํ†ต๊ณ„(descriptive statistics) ๋ฐ ๋ถ„ํฌ ์‹œ๊ฐํ™”

 

4. ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ๊ฐ€์„ค ์ˆ˜๋ฆฝ

โญ ์ •์˜๋œ ๋ฌธ์ œ์˜ ํ•ด๊ฒฐ์— ๊ด€๋ จ๋œ ํŒจํ„ด์„ ์ถ”์ถœํ•˜๊ณ  ์ด์— ๋Œ€ํ•œ ๊ฐ€์„ค์„ ์ˆ˜๋ฆฝํ•œ๋‹ค โญ

• ํŠน์ด ํŠธ๋ Œ๋“œ ๊ด€์ฐฐ

• ๋ณ€์ˆ˜ ๊ฐ„ ์ƒ๊ด€๊ด€๊ณ„ ๋ถ„์„

1) ๋ฌธ์ œ ์ •์˜(Problem Definition)

ex) “ํƒ€์ดํƒ€๋‹‰ํ˜ธ ํƒ‘์Šน๊ฐ ๊ด€๋ จ ์ •๋ณด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ๊ณ  ํ›„ ์ƒ์กด์ž๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค.”

 

2) Data Dictionary

๋ฐ์ดํ„ฐ ๋”•์…”๋„ˆ๋ฆฌ(Data Dictionary)๋ฅผ ์ž‘์„ฑํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ํ™•์ธํ•œ๋‹ค.

 

3) ๊ฒฐ์ธก์น˜(Missing Data) ํ™•์ธ

 

4) ํƒ€๊ฒŸ ๋ณ€์ˆ˜ ๋ถ„์„

5) ์ž…๋ ฅ ๋ณ€์ˆ˜ ๋ถ„์„

6) ์ž…๋ ฅ ๋ณ€์ˆ˜ ๊ต์ฐจ ๋ถ„์„

 

 

ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„(EDA) ๊ฒฐ๊ณผ ์š”์•ฝ

 

 โ–ช ์„ฑ๋ณ„

   • ์—ฌ์„ฑ์ด ๋‚จ์„ฑ์— ๋น„ํ•ด ์ƒ์กด์œจ์ด ๋†’์Œ.

 

โ–ช ํ‹ฐ์ผ“ ๋“ฑ๊ธ‰

   • ํ‹ฐ์ผ“ ๋“ฑ๊ธ‰์ด ๋†’์„ ์ˆ˜๋ก ์ƒ์กด์œจ์ด ๋†’์Œ

 

 โ–ช ๋‚˜์ด

   • 5-10์„ธ์˜ ์ƒ์กด์œจ์ด ๊ฐ€์žฅ ๋†’์Œ.

   • 15-35์„ธ์˜ ์ƒ์กด์œจ์ด ๊ฐ€์žฅ ๋‚ฎ์Œ.

 

โ–ช ์Šน์„  ํ•ญ๊ตฌ

   • ์Šน์„  ํ•ญ๊ตฌ ๋ณ„๋กœ ํ‹ฐ์ผ“ ๋“ฑ๊ธ‰, ์„ฑ๋ณ„์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฆ„.

   • Cherbourg์—์„œ ํƒ‘์Šนํ•œ ์Šน๊ฐ์˜ ์ƒ์กด์œจ์ด ๊ฐ€์žฅ ๋†’์Œ.

 

โ–ช ๋™์Šน ๊ฐ€์กฑ

  • 1-2๋ช…์˜ ํ˜•์ œ์ž๋งค/๋ฐฐ์šฐ์ž, 1-3๋ช…์˜ ๋ถ€๋ชจ/์ž๋…€์™€ ํ•จ๊ป˜ ํƒ‘์Šนํ•œ ๊ฒฝ์šฐ ํ˜ผ์ž ํƒ‘์Šนํ•œ ๊ฒฝ์šฐ๋ณด๋‹ค ์ƒ์กด์œจ์ด ๋†’์Œ.