내일배움캠프/πŸ‘©πŸ»‍πŸ’»TIL:Today I Learn

[톡계학 기초]_4μ£Όμ°¨

기획 μ—΄μ •μ˜ ν•­ν•΄! 2025. 1. 20. 16:17

좜처: [슀파λ₯΄νƒ€μ½”λ”©ν΄λŸ½] νšŒκ·€(Regression)

 

[슀파λ₯΄νƒ€μ½”λ”©ν΄λŸ½] νšŒκ·€(Regression) | Notion

[μˆ˜μ—… λͺ©ν‘œ]

teamsparta.notion.site

[슀파λ₯΄νƒ€μ½”λ”©ν΄λŸ½] νšŒκ·€(Regression)

[μˆ˜μ—… λͺ©ν‘œ]

νšŒκ·€κ°€ 무엇인지에 λŒ€ν•΄ μ΄ν•΄ν•œλ‹€.
λ‹€μ–‘ν•œ νšŒκ·€μ˜ μ’…λ₯˜μ— λŒ€ν•΄μ„œ μ„€λͺ…ν•  수 있고 νŠΉμ§•μ„ μ΄ν•΄ν•œλ‹€.

4.1 λ‹¨μˆœμ„ ν˜•νšŒκ·€

βœ”οΈ ν•œκ°œμ˜ λ³€μˆ˜μ— μ˜ν•œ κ²°κ³Όλ₯Ό 예츑

 

λ‹¨μˆœμ„ ν˜•νšŒκ·€λž€ 무엇인가?

β˜‘οΈ λ‹¨μˆœμ„ ν˜•νšŒκ·€

  • ν•˜λ‚˜μ˜ 독립 λ³€μˆ˜(X)와 ν•˜λ‚˜μ˜ 쒅속 λ³€μˆ˜(Y) κ°„μ˜ 관계λ₯Ό μ§μ„ μœΌλ‘œ λͺ¨λΈλ§ν•˜λŠ” 방법

 

β˜‘οΈ νšŒκ·€μ‹

  • Y = β0 + β1X, μ—¬κΈ°μ„œ β0λŠ” 절편, β1λŠ” 기울기 (y=ax+bλž‘ λ˜‘κ°™μ•„)
  • 쀑학ꡐ λ•Œ λ°°μ› λ˜ 1μ°¨ν•¨μˆ˜λ₯Ό μƒκ°ν•˜λ©΄ μ΄ν•΄ν•˜κΈ° 쉬움!

β˜‘οΈ νŠΉμ§•

  • 독립 λ³€μˆ˜μ˜ 변화에 따라 쒅속 λ³€μˆ˜κ°€ μ–΄λ–»κ²Œ λ³€ν™”ν•˜λŠ”μ§€ μ„€λͺ…ν•˜κ³  예츑.
  • 데이터가 직선적 κ²½ν–₯을 λ”°λ₯Ό λ•Œ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • κ°„λ‹¨ν•˜κ³  해석이 μš©μ΄ν•©λ‹ˆλ‹€.
  • 데이터가 μ„ ν˜•μ μ΄μ§€ μ•Šμ„ 경우 μ ν•©ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

λ‹¨μˆœμ„ ν˜•νšŒκ·€λŠ” μ–΄λ–¨ λ•Œ μ‚¬μš©ν• κΉŒ?

β˜‘οΈ ν•˜λ‚˜μ˜ λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜μ™€μ˜ 관계λ₯Ό 뢄석 및 예츑

  • κ΄‘κ³ λΉ„(X)와 맀좜(Y) κ°„μ˜ 관계 뢄석.
  • ν˜„μž¬μ˜ κ΄‘κ³ λΉ„λ₯Ό λ°”νƒ•μœΌλ‘œ μ˜ˆμƒλ˜λŠ” λ§€μΆœμ„ 예츑 κ°€λŠ₯.

4.2 λ‹€μ€‘μ„ ν˜•νšŒκ·€

βœ”οΈ 두 개 μ΄μƒμ˜ λ³€μˆ˜μ— μ˜ν•œ κ²°κ³Όλ₯Ό 예츑

 

λ‹€μ€‘μ„ ν˜•νšŒκ·€λž€ 무엇인가?

β˜‘οΈ λ‹€μ€‘μ„ ν˜•νšŒκ·€

  • 두 개 μ΄μƒμ˜ 독립 λ³€μˆ˜(X1, X2, ..., Xn)와 ν•˜λ‚˜μ˜ 쒅속 λ³€μˆ˜(Y) κ°„μ˜ 관계λ₯Ό λͺ¨λΈλ§.

β˜‘οΈ νšŒκ·€μ‹

  • Y = β0 + β1X1 + β2X2 + ... + βnXn

β˜‘οΈ νŠΉμ§•

  • μ—¬λŸ¬ 독립 λ³€μˆ˜μ˜ λ³€ν™”λ₯Ό κ³ λ €ν•˜μ—¬ 쒅속 λ³€μˆ˜λ₯Ό μ„€λͺ…ν•˜κ³  예츑
  • μ’…μ†λ³€μˆ˜μ— 영ν–₯을 λ―ΈμΉ˜λŠ” μ—¬λŸ¬ λ…λ¦½λ³€μˆ˜κ°€ μžˆμ„ λ•Œ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • μ—¬λŸ¬ λ³€μˆ˜μ˜ 영ν–₯을 λ™μ‹œμ— 뢄석할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • λ³€μˆ˜λ“€ κ°„μ˜ 닀쀑곡선성 λ¬Έμ œκ°€ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€.

❓ 닀쀑곡선성이 λ¬΄μ—‡μΈκ°€μš”~?

  • 닀쀑곡선성(Multicollinearity)은 νšŒκ·€λΆ„μ„μ—μ„œ 독립 λ³€μˆ˜λ“€ 간에 높은 상관관계가 μžˆλŠ” 경우λ₯Ό λ§ν•©λ‹ˆλ‹€.
  • μ΄λŠ” νšŒκ·€λΆ„μ„ λͺ¨λΈμ˜ μ„±λŠ₯κ³Ό 해석에 μ—¬λŸ¬ κ°€μ§€ 문제λ₯Ό μΌμœΌν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
    • 독립 λ³€μˆ˜λ“€μ΄ μ„œλ‘œ κ°•ν•˜κ²Œ μƒκ΄€λ˜μ–΄ 있으면, 각 λ³€μˆ˜μ˜ κ°œλ³„μ μΈ 효과λ₯Ό 뢄리해내기 μ–΄λ €μ›Œμ Έ νšŒκ·€μ˜ 해석을 μ–΄λ ΅κ²Œ λ§Œλ“­λ‹ˆλ‹€.
    • λ‹€μ€‘κ³΅μ„ μ„±μœΌλ‘œ 인해 μ‹€μ œλ‘œ μ€‘μš”ν•œ λ³€μˆ˜κ°€ ν†΅κ³„μ μœΌλ‘œ μœ μ˜ν•˜μ§€ μ•Šκ²Œ λ‚˜νƒ€λ‚  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ–΄λ–»κ²Œ 진단할 수 μžˆμ„κΉŒμš”~?
    • κ°€μž₯ κ°„λ‹¨ν•œ λ°©λ²•μœΌλ‘œλŠ” μƒκ΄€κ³„μˆ˜λ₯Ό κ³„μ‚°ν•˜μ—¬ μƒκ΄€κ³„μˆ˜κ°€ 높은(μ•½ 0.7) λ³€μˆ˜λ“€μ΄ μžˆλŠ”μ§€ 확인해볼 수 μžˆμŠ΅λ‹ˆλ‹€.
    • 더 μ •ν™•ν•œ λ°©λ²•μœΌλ‘œλŠ” λΆ„μ‚° 팽창 κ³„μˆ˜ (VIF)λ₯Ό κ³„μ‚°ν•˜μ—¬ VIF값이 10이 높은지 ν™•μΈν•˜λŠ” λ°©λ²•μœΌλ‘œ 닀쀑곡선성이 λ†’λ‹€κ³  νŒλ‹¨ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 닀쀑곡선성 ν•΄κ²° 방법
    • κ°€μž₯ κ°„λ‹¨ν•œ λ°©λ²•μœΌλ‘œλŠ” 높은 κ³„μˆ˜λ₯Ό κ°€μ§„ λ³€μˆ˜ 쀑 ν•˜λ‚˜λ₯Ό μ œκ±°ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.
    • ν˜Ήμ€ μ£Όμ„±λΆ„ 뢄석(PCA)κ³Ό 같은 λ³€μˆ˜λ“€μ„ 효과적으둜 μ€„μ΄λŠ” 차원 뢄석 방법을 μ μš©ν•˜μ—¬ ν•΄κ²°ν•  μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€.

λ‹€μ€‘μ„ ν˜•νšŒκ·€λŠ” μ–΄λ–¨ λ•Œ μ‚¬μš©ν• κΉŒ?

β˜‘οΈ λ‘ 개 μ΄μƒμ˜ 독립 λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜μ™€μ˜ 관계λ₯Ό 뢄석 및 예츑

  • λ‹€μ–‘ν•œ κ΄‘κ³ λΉ„(TV, Radio, Newspaper)κ³Ό 맀좜 κ°„μ˜ 관계 뢄석.
  • ν˜„μž¬μ˜ κ΄‘κ³ λΉ„(TV, Radio, Newspaper)λ₯Ό λ°”νƒ•μœΌλ‘œ μ˜ˆμƒλ˜λŠ” λ§€μΆœμ„ 예츑 κ°€λŠ₯.

4.3 λ²”μ£Όν˜• λ³€μˆ˜

βœ”οΈ νšŒκ·€μ—μ„œ λ²”μ£Όν˜• λ³€μˆ˜μ˜ 경우 νŠΉλ³„νžˆ λ³€ν™˜μ„ ν•΄μ£Όμ–΄μ•Ό 함!

 

νšŒκ·€μ—μ„œμ˜ λ²”μ£Όν˜• λ³€μˆ˜

β˜‘οΈ λ²”μ£Όν˜• λ³€μˆ˜

  • μˆ˜μΉ˜ν˜• 데이터가 μ•„λ‹Œ 주둜 λ¬Έμžν˜• λ°μ΄ν„°λ‘œ 이루어져 μžˆλŠ” λ³€μˆ˜κ°€ λ²”μ£Όν˜• λ³€μˆ˜

β˜‘οΈ λ²”μ£Όν˜• λ³€μˆ˜ μ’…λ₯˜

  • 예λ₯Ό λ“€μ–΄ 성별(남, μ—¬), μ§€μ—­(λ„μ‹œ, μ‹œκ³¨) 등이 있으며, 더미 λ³€μˆ˜λ‘œ λ³€ν™˜ν•˜μ—¬ νšŒκ·€ 뢄석에 μ‚¬μš©.
    • μˆœμ„œκ°€ μžˆλŠ” λ²”μ£Όν˜• λ³€μˆ˜
      • 옷의 μ‚¬μ΄μ¦ˆ (L, M, …), 수λŠ₯ λ“±κΈ‰ (1λ“±κΈ‰, 2λ“±κΈ‰, ….)κ³Ό 같이 λ²”μ£Όν˜• λ³€μˆ˜λΌλ„ μˆœμ„œκ°€ μžˆλŠ” λ³€μˆ˜μ— ν•΄λ‹Ήν•œλ‹€
      • 이런 경우 각 문자λ₯Ό μž„μ˜μ˜ 숫자둜 λ³€ν™˜ν•΄λ„ λ¬Έμ œκ°€ μ—†λ‹€ (μˆœμ„œκ°€ 잘 반영될 수 있게 숫자둜 λ³€ν™˜)
      • ex) XL → 3, L → 2, M → 1, S → 0
    • μˆœμ„œκ°€ μ—†λŠ” λ²”μ£Όν˜• λ³€μˆ˜
      • 성별 (남,μ—¬), μ§€μ—­ (λΆ€μ‚°, λŒ€κ΅¬, λŒ€μ „, …) κ³Ό 같이 μˆœμ„œκ°€ μ—†λŠ” λ³€μˆ˜μ— ν•΄λ‹Ήν•œλ‹€
      • 2개 밖에 μ—†λŠ” 경우 μž„μ˜μ˜ 숫자둜 λ°”λ‘œ λ³€ν™˜ν•΄λ„ λ¬Έμ œκ°€ μ—†μ§€λ§Œ
      • 3개 이상인 κ²½μš°μ—λŠ” 무쑰건 원-ν•« 인코딩(ν•˜λ‚˜λ§Œ 1이고 λ‚˜λ¨Έμ§€λŠ” 0인 벑터)λ³€ν™˜μ„ ν•΄μ£Όμ–΄μ•Ό ν•œλ‹€ → pandas의 get_dummiesλ₯Ό ν™œμš©ν•˜μ—¬ μ‰½κ²Œ κ΅¬ν˜„ κ°€λŠ₯
      • ex) λΆ€μ‚° = [1,0,0,0], λŒ€μ „ = [0,1,0,0], λŒ€κ΅¬ = [0,0,1,0], κ΄‘μ£Ό = [0,0,0,1]

λ²”μ£Όν˜• λ³€μˆ˜λŠ” μ–΄λ–»κ²Œ μ‚¬μš©ν• κΉŒ?

β˜‘οΈ λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό μ°Ύκ³  더미 λ³€μˆ˜λ‘œ λ³€ν™˜ν•œ ν›„ νšŒκ·€ 뢄석 μˆ˜ν–‰

  • 성별, 근무 κ²½λ ₯κ³Ό 연봉 κ°„μ˜ 관계.
  • 성별과 근무 κ²½λ ₯μ΄λΌλŠ” μš”μΈλ³€μˆ˜ 쀑 성별이 λ²”μ£Όν˜• μš”μΈλ³€μˆ˜μ— ν•΄λ‹Ή
  • ν•΄λ‹Ή λ³€μˆ˜λ₯Ό 더미 λ³€μˆ˜λ‘œ λ³€ν™˜
  • νšŒκ·€ μˆ˜ν–‰

4.4 λ‹€ν•­νšŒκ·€, μŠ€ν”ŒλΌμΈ νšŒκ·€

βœ”οΈ 데이터가 훨씬 λ³΅μž‘ν•  λ•Œ μ‚¬μš©ν•˜λŠ” νšŒκ·€!

 

λ‹€ν•­νšŒκ·€, μŠ€ν”ŒλΌμΈ νšŒκ·€λž€ 무엇인가?

β˜‘οΈ λ‹€ν•­νšŒκ·€

  • 독립 λ³€μˆ˜μ™€ 쒅속 λ³€μˆ˜ κ°„μ˜ 관계가 μ„ ν˜•μ΄ 아닐 λ•Œ μ‚¬μš©. 독립 λ³€μˆ˜μ˜ 닀항식을 μ‚¬μš©ν•˜μ—¬ 쒅속 λ³€μˆ˜λ₯Ό 예츑.
  • 데이터가 곑선적 κ²½ν–₯을 λ”°λ₯Ό λ•Œ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • λΉ„μ„ ν˜• 관계λ₯Ό λͺ¨λΈλ§ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • κ³ μ°¨ λ‹€ν•­μ‹μ˜ 경우 과적합(overfitting) μœ„ν—˜μ΄ μžˆμŠ΅λ‹ˆλ‹€.

 

β˜‘οΈ μŠ€ν”ŒλΌμΈ νšŒκ·€

  • 독립 λ³€μˆ˜μ˜ κ΅¬κ°„λ³„λ‘œ λ‹€λ₯Έ νšŒκ·€μ‹μ„ μ μš©ν•˜μ—¬ λ³΅μž‘ν•œ 관계λ₯Ό λͺ¨λΈλ§
  • κ΅¬κ°„λ§ˆλ‹€ λ‹€λ₯Έ 닀항식을 μ‚¬μš©ν•˜μ—¬ μ „μ²΄μ μœΌλ‘œ λ§€λ„λŸ¬μš΄ 곑선을 μƒμ„±ν•©λ‹ˆλ‹€.
  • 데이터가 κ΅­λΆ€μ μœΌλ‘œ λ‹€λ₯Έ νŒ¨ν„΄μ„ 보일 λ•Œ μ‚¬μš©ν•©λ‹ˆλ‹€.
  • λ³΅μž‘ν•œ λΉ„μ„ ν˜• 관계λ₯Ό μœ μ—°ν•˜κ²Œ λͺ¨λΈλ§ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • μ μ ˆν•œ 맀듭점(knots)의 선택이 μ€‘μš”ν•©λ‹ˆλ‹€.

 

λ‹€ν•­νšŒκ·€λŠ” μ–΄λ–¨ λ•Œ μ‚¬μš©ν• κΉŒ?

β˜‘οΈ λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜μ˜ 관계가 λΉ„μ„ ν˜• 관계일 λ•Œ μ‚¬μš©

  • 주택 가격 예츑(면적과 가격 κ°„μ˜ λΉ„μ„ ν˜• 관계)
  •