๐ฅ Intro: "ON AIR ๋ถ์ ์ ์ฐจ๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ํ๋ก์ ํธ" - ๊ธฐ์ด ํ๋ก์ ํธ
1. Objective (๋ชฉํ)
- ํ๋ก์ ํธ ๋ชฉํ: ์ด ํ๋ก์ ํธ์ ์ฃผ์ ๋ชฉํ๋ฅผ ๋ช ํํ ๊ธฐ์ ํฉ๋๋ค. ์ด๋ค ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋์ง ๋๋ ์ด๋ค ๋น์ฆ๋์ค ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ค๋์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
- ์์ ๊ฒฐ๊ณผ๋ฌผ: ์ด ํ๋ก์ ํธ๋ฅผ ํตํด ๊ธฐ๋๋๋ ๊ฒฐ๊ณผ๋ฌผ๊ณผ ๋์ถํ๊ณ ์ ํ๋ ์ธ์ฌ์ดํธ๋ฅผ ๋ช ์ํฉ๋๋ค.
2. Necessary data (๋ฐ์ดํฐ)
- ๋ฐ์ดํฐ ์์ค: ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ถ์ฒ๋ฅผ ์ค๋ช ํ๊ณ , ํ์ํ ๋ฐ์ดํฐ ์ ํ๊ณผ ๋ฒ์๋ฅผ ๋ช ์ํฉ๋๋ค.
- ๋ฐ์ดํฐ ์์ง ๊ณํ: ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํ ๊ณํ๊ณผ ๋ฐฉ๋ฒ์ ๊ธฐ์ ํฉ๋๋ค. ๋ฐ์ดํฐ ์์ง์ ์ ํ์ฑ๊ณผ ์์ ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํ ์กฐ์น๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
3. Analytics (๋ถ์)
- ๋ถ์ ๋ฐฉ๋ฒ: ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฒ๊ณผ ๋ชจ๋ธ์ ์ ์ ํ๊ณ , ๋ถ์์ ์ํ ์ ์ฐจ๋ฅผ ์ค๋ช ํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ฒ๋ฆฌ: ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ณ ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๊ธฐ์ ํ๊ณ , ๋ถ์์ ํ์ํ ๋ฐ์ดํฐ์ ํ์ง์ ํ์ธํฉ๋๋ค.
- ์๊ฐํ ๊ณํ: ๋ฐ์ดํฐ๋ฅผ ์๊ฐ์ ์ผ๋ก ํํํ์ฌ ์ธ์ฌ์ดํธ๋ฅผ ๋์ถํ๋ ๊ณํ์ ์ ์ํฉ๋๋ค.
4. Interpretation (ํด์)
- ๋ถ์ ๊ฒฐ๊ณผ ํด์: ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๊ณ , ๋น์ฆ๋์ค์ ์ด๋ป๊ฒ ์ ์ฉํ ์ ์๋์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
- ์ธ์ฌ์ดํธ ๋์ถ: ๋ฐ์ดํฐ์์ ๋์ถ๋ ์ธ์ฌ์ดํธ์ ํฅํ ์ ๋ต ์๋ฆฝ์ ์ํ ์ ์ธ์ ์ ์ํฉ๋๋ค.
5. Report (๋ณด๊ณ )
- ๋ณด๊ณ ์ ๊ตฌ์กฐ: ๋ณด๊ณ ์์ ๊ตฌ์กฐ์ ํ์์ ์ ์ํ๊ณ , ์ด๋ค ์ ๋ณด๋ฅผ ํฌํจํ ๊ฒ์ธ์ง๋ฅผ ์ค๋ช ํฉ๋๋ค.
- ์๊ฐํ ํ์ฉ: ๋ณด๊ณ ์์ ์ฌ์ฉํ ์๊ฐํ ๋๊ตฌ ๋ฐ ๋ฐฉ๋ฒ์ ๊ฒฐ์ ํ๊ณ , ๊ฐ์กฐํ ์์๋ฅผ ๊ตฌ์ฒดํํฉ๋๋ค.
- ๋ณด๊ณ ์ ์์ฑ ์ผ์ : ๋ณด๊ณ ์ ์์ฑ ๋ฐ ๋ฐํ ์ผ์ ์ ๊ณํํ๊ณ , ์ด๋ฅผ ๊ด๋ฆฌํ ๋ฐฉ๋ฒ์ ๊ธฐ์ ํฉ๋๋ค.
ํ๋ก์ ํธ ์ ์ฐธ๊ณ ์ฌํญ
๐ ์ฃผ์ ๋ฐ์ดํฐ ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
- Pandas: ๋ฐ์ดํฐ ์กฐ์ ๋ฐ ๋ถ์
- NumPy: ์์น ์ฐ์ฐ
- Matplotlib: ๊ธฐ๋ณธ ๋ฐ์ดํฐ ์๊ฐํ
- Seaborn: ํต๊ณ์ ์๊ฐํ
- Altair: ์ํธ์์ฉํ ๋ฐ์ดํฐ ์๊ฐํ
๐ ์ฃผ์ ํจ์
๋ฐ์ดํฐ ๊ธฐ๋ณธ ์ ๋ณด ํ์ธ
- display(), shape, dtypes, values, columns
- info(): ๋ฐ์ดํฐ ๊ตฌ์กฐ ์์ฝ ์ ๋ณด
- transpose(): ํ๊ณผ ์ด ์ ํ
๋ฐ์ดํฐ ๊ธฐ์ ํต๊ณ ๋ฐ ๊ฒฐ์ธก์น ํ์ธ
- describe(): ๊ธฐ๋ณธ ํต๊ณ ์์ฝ
- isnull(): ๊ฒฐ์ธก๊ฐ ํ์
- drop(): ๊ฒฐ์ธก๊ฐ ์ ๊ฑฐ
๋ฐ์ดํฐ ๊ฒฐํฉ ๋ฐ ์ฌ๊ตฌ์ฑ
- join(), merge(), concat(), append(): ๋ฐ์ดํฐ ๊ฒฐํฉ
- pivot_table(): ํผ๋ฒ ํ ์ด๋ธ ์์ฑ
๋ฐ์ดํฐ ํํฐ๋ง ๋ฐ ์ง๊ณ
- where(), mask(): ์กฐ๊ฑด๋ถ ๋ฐ์ดํฐ ์ ํ
- groupby(), agg(sum, min, max, count, nunique, mode): ๋ฐ์ดํฐ ๊ทธ๋ฃนํ ๋ฐ ์์ฝ
๋ฐ์ดํฐ ์ ๋ฆฌ ๋ฐ ๋ณํ
- sort_values(): ๊ฐ ๊ธฐ์ค ๋ฐ์ดํฐ ์ ๋ ฌ
- split(): ๋ฌธ์์ด ๋ถ๋ฆฌ
- to_numeric(): ๋ฐ์ดํฐ ํ์ ๋ณํ
- fillna(): ๊ฒฐ์ธก๊ฐ ๋์ฒด
๐งฉ ์ด์์น ๋ฐ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๊ธฐ๋ฒ
- ์ด์์น ํ์: Z-score์ IQR์ ์ฌ์ฉํ์ฌ ๋น์ ์์ ๋ฐ์ดํฐ ํฌ์ธํธ ํ์ง
- ๊ฒฐ์ธก์น ์ฒ๋ฆฌ: KNN์ ํตํ ๊ฒฐ์ธก๊ฐ ๋์ฒด
ํ๋ก์ ํธ ํ๊ฐ ํญ๋ชฉ
ํ์ดํ๋ํธ ์ฌ๊ณ ์์กด ๊ด๋ จ ๋ฐ์ดํฐ๋ถ์ ํ๋ก์ ํธ
ํ์์ ๋ฐ์ดํฐ ๋ถ์(Exploratory Data Analysis: EDA)
“๋ฐ์ดํฐ ์๊ฐํ ๋ฐ ํต๊ณ๋ถ์์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ , ๊ฐ์ค์ ์๋ฆฝํ๋ค.”
EDA Tasks
1. ๋ฐ์ดํฐ ๊ธฐ๋ณธ ์ ๋ณด ํ์ธ
• Data dictionary (๋ณ์๋ช , ๋ณ์ ์ ํ, ๋ณ์ ์ ์, input/output ๋ฑ)
• Data shape
2. ๋ฐ์ดํฐ ์ ์
• ๊ฒฐ์ธก์น(missing values) ๋ฐ ์ด์์น(outliers)์ ํ์ธ ๋ฐ ์ฒ๋ฆฌ
3. ๋ฐ์ดํฐ ๋ถํฌ ํ์ธ
• ๋จ๋ณ๋(univariate) ๋ฐ ๋ค๋ณ๋(multivariate) ๋ถํฌ
• ๊ธฐ์ ํต๊ณ(descriptive statistics) ๋ฐ ๋ถํฌ ์๊ฐํ
4. ๋ฐ์ดํฐ ๋ถ์์ ์ํ ๊ฐ์ค ์๋ฆฝ
โญ ์ ์๋ ๋ฌธ์ ์ ํด๊ฒฐ์ ๊ด๋ จ๋ ํจํด์ ์ถ์ถํ๊ณ ์ด์ ๋ํ ๊ฐ์ค์ ์๋ฆฝํ๋ค โญ
• ํน์ด ํธ๋ ๋ ๊ด์ฐฐ
• ๋ณ์ ๊ฐ ์๊ด๊ด๊ณ ๋ถ์
1) ๋ฌธ์ ์ ์(Problem Definition)
ex) “ํ์ดํ๋ํธ ํ์น๊ฐ ๊ด๋ จ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๊ณ ํ ์์กด์๋ฅผ ์์ธกํ๋ค.”
2) Data Dictionary
๋ฐ์ดํฐ ๋์ ๋๋ฆฌ(Data Dictionary)๋ฅผ ์์ฑํ๊ณ ๋ฐ์ดํฐ๋ฅผ ํ์ธํ๋ค.
3) ๊ฒฐ์ธก์น(Missing Data) ํ์ธ
4) ํ๊ฒ ๋ณ์ ๋ถ์
5) ์ ๋ ฅ ๋ณ์ ๋ถ์
6) ์ ๋ ฅ ๋ณ์ ๊ต์ฐจ ๋ถ์
ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA) ๊ฒฐ๊ณผ ์์ฝ
โช ์ฑ๋ณ
• ์ฌ์ฑ์ด ๋จ์ฑ์ ๋นํด ์์กด์จ์ด ๋์.
โช ํฐ์ผ ๋ฑ๊ธ
• ํฐ์ผ ๋ฑ๊ธ์ด ๋์ ์๋ก ์์กด์จ์ด ๋์
โช ๋์ด
• 5-10์ธ์ ์์กด์จ์ด ๊ฐ์ฅ ๋์.
• 15-35์ธ์ ์์กด์จ์ด ๊ฐ์ฅ ๋ฎ์.
โช ์น์ ํญ๊ตฌ
• ์น์ ํญ๊ตฌ ๋ณ๋ก ํฐ์ผ ๋ฑ๊ธ, ์ฑ๋ณ์ ๋ถํฌ๊ฐ ๋ค๋ฆ.
• Cherbourg์์ ํ์นํ ์น๊ฐ์ ์์กด์จ์ด ๊ฐ์ฅ ๋์.
โช ๋์น ๊ฐ์กฑ
• 1-2๋ช ์ ํ์ ์๋งค/๋ฐฐ์ฐ์, 1-3๋ช ์ ๋ถ๋ชจ/์๋ ์ ํจ๊ป ํ์นํ ๊ฒฝ์ฐ ํผ์ ํ์นํ ๊ฒฝ์ฐ๋ณด๋ค ์์กด์จ์ด ๋์.
'๋ด์ผ๋ฐฐ์์บ ํ > ๐ฉ๐ปโ๐ปTIL:Today I Learn' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[์ฑ๋ฆฐ์ง]๋จธ์ ๋ฌ๋ ์คํฌ์ - ์์์ฌ ํํฐ (1) | 2025.02.03 |
---|---|
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ ๊ธฐ์ด_2.ํ๊ท๋ถ์-์ ํํ๊ท (0) | 2025.01.21 |
๋จธ์ ๋ฌ๋์ ์ดํด์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ ๊ธฐ์ด_1.๋จธ์ ๋ฌ๋์ ๊ธฐ์ด (0) | 2025.01.21 |
[ํต๊ณํ ๊ธฐ์ด]_6์ฃผ์ฐจ (0) | 2025.01.20 |
[ํต๊ณํ ๊ธฐ์ด]_5์ฃผ์ฐจ (0) | 2025.01.20 |