Skip to contents

Purpose

Datatoys ํŒจํ‚ค์ง€์˜ bloodTest ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•ด์„œ, โ€œ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค ์ˆ˜์น˜๊ฐ€ ๋†’์€์‚ฌ๋žŒ์ด ๋นˆํ˜ˆ ๋ฐ ๋‡Œํ˜ˆ๊ด€์งˆํ™˜์„ ์ง„๋‹จ๋ฐ›์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์€๊ฐ€? / ๋ฐœ์ƒํ•˜๋Š” ์ •๋„๊ฐ€ ์„ฑ๋ณ„๋ณ„๋กœ ์ฐจ์ด๊ฐ€ ์žˆ๋Š”๊ฐ€โ€ ๋ผ๋Š” ์ฃผ์ œ์˜ ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋ฌธ์„œ์—์„œ๋Š” ML์€ ๋‹ค๋ฃจ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

Data Loading and Modification

Load Data

๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์˜ต๋‹ˆ๋‹ค. ์›ํ•˜๋Š” ๋ฐ์ดํ„ฐ ์—…๋กœ๋“œ/์„ ํƒ ํ›„ Import Data๋‚˜ Load Example Data๋ฅผ ํด๋ฆญํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

๋ณธ ์˜ˆ์ œ์—์„œ๋Š” Datatoys ํŒจํ‚ค์ง€์˜ bloodTest(1,000,000 x 9) ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉ ํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋กœ๋“œ ํ›„ ์œ„ ์Šคํฌ๋ฆฐ์ƒท๊ณผ ๊ฐ™์€ ํ™”๋ฉด์ด ๋‚˜์˜ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

Update Data

์ฃผ์ œ์— ๋งž๊ฒŒ, ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ(SEX, TCHOL, ANE, STK)๋ฅผ ์ œ์™ธํ•˜๊ณ  ์ฒดํฌ๋ฅผ ํ•ด์ œํ•ฉ๋‹ˆ๋‹ค.

๋˜ ์œ„ ๋ฐ์ดํ„ฐ ์ค‘, SEX, ANE, STK๊ฐ’์ด Factor ์ด๋ฏ€๋กœ ํ•ด๋‹น ๊ฐ’์„์„ Factor๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

ํ•˜๋‹จ์˜ Update Data๋ฅผ ํด๋ฆญํ•˜๊ณ ,

์œ„์™€ ๊ฐ™์ด, ๊ฐ์ž์˜ ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์„ค์ •ํ•œ ๋‹ค์Œ ํ•˜๋‹จ์˜ Apply Changes ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜๋ฉด ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๊ฐ€ ๋ณ€๊ฒฝ๋ฉ๋‹ˆ๋‹ค.

์ฐธ๊ณ ๋กœ, Integer๊ณผ Numeric์˜ ์ฐจ์ด๋Š” Integer์€ ์ •์ˆ˜๋งŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ , Numeric์€ ์†Œ์ˆซ์  ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Transform Data

์„ฑ๋ณ„์ด 1, 2๋กœ ํ‘œ๊ธฐ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์›ํ™œํ•œ ๋ฐ์ดํ„ฐ ํŒŒ์•…์„ ์œ„ํ•ด, Transform Data ์˜ Replace ๊ธฐ๋Šฅ์„ ํ†ตํ•ด SEX column์˜ 1์„ M, 2๋ฅผ F๋กœ ๋ณ€๊ฒฝ ํ•ด ์ค๋‹ˆ๋‹ค.

Export Data

๊ฐ€๊ณตํ•œ ๋ฐ์ดํ„ฐ๋ฅผ Export Data ๊ธฐ๋Šฅ์œผ๋กœ ์ €์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ถ”ํ›„ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋‹ค์‹œ ์ž‘์—…ํ•  ๋•Œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

Visualization

๊ฐ„๋žตํ•œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํŒŒ์•…ํ•˜๊ธฐ ์œ„ํ•ด, Statgarten์— ํฌํ•จ๋œ Visualization ๊ธฐ๋Šฅ(colorpen ํŒจํ‚ค์ง€)๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์˜ค๋ฉด, ๊ธฐ๋ณธ์ ์œผ๋กœ Vis ํƒญ์œผ๋กœ ์ด๋™๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์Šคํฌ๋กค์„ ๋‚ด๋ ค X, Y์— ์›ํ•˜๋Š” ๊ฐ’์„ ๋“œ๋ž˜๊ทธํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ทธ๋ž˜ํ”„๋Š”, ๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค์„ Boxplot์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด๊ณ ,

์ด ๊ทธ๋ž˜ํ”„๋Š” ๋นˆํ˜ˆ ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค์„ Boxplot์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

<Vis ์ถ”๊ฐ€>

๊ทธ๋ž˜ํ”„ ์ƒ ํฐ ์ฐจ์ด๊ฐ€ ์—†๋Š” ๊ฒƒ์„ ์•Œ์•˜์œผ๋‹ˆ, ํ†ต๊ณ„์ ์œผ๋กœ๋„ ๊ทธ๋Ÿฌํ•œ์ง€ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

EDA

EDA์˜ Variablesํƒญ์—์„œ๋Š” ์กด์žฌํ•˜๋Š” column์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์š”์•ฝ์„ ๋ณด์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋นˆํ˜ˆ๊ณผ ๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ๋ณ€์ˆ˜์—์„œ, 0(์ง„๋‹จ ๋ฐ›์€ ์ด๋ ฅ ์—†์Œ)์ด ๊ฐ 92.2%, 93.7%๋กœ, 1(์ง„๋‹จ ๋ฐ›์€ ์ด๋ ฅ ์žˆ์Œ)์ด ๊ฐ 7.8%, 6.3%์ž„์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฐ์† ๋ณ€์ˆ˜๋Š” ๋ถ„ํฌ ๋˜ํ•œ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ, EDA์˜ Distribution ํƒญ์—์„œ ์—ฐ์† ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ•˜๋ฉด ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ ๋ถ„์„ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒƒ์„ ๋ณด์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋นˆํ˜ˆ ์—ฌ๋ถ€๋ฅผ ๊ธฐ์ค€์œผ๋กœ Table 1๋ฅผ ๊ตฌํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค. Table 1์ด๋ž€, ์—ฐ๊ตฌ์—์„œ ์ฃผ์š” ๋ณ€์ˆ˜๋ฅผ ํฌํ•จํ•˜๋Š” ์ „์ฒด ์—ฐ๊ตฌ ํ‘œ๋ณธ์— ๋Œ€ํ•œ ๊ธฐ์ˆ ํ†ต๊ณ„๋Ÿ‰์„ ๋‚˜ํƒ€๋‚ธ ํ‘œ์ž…๋‹ˆ๋‹ค.

๋นˆํ˜ˆ์„ ๊ธฐ์ค€์œผ๋กœ, ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค์˜ p๊ฐ’์ด 0.05๋ณด๋‹ค ์ž‘์œผ๋ฏ€๋กœ, ๋นˆํ˜ˆ ์—ฌ๋ถ€๊ณผ ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค ์–‘์€ ๊ด€๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ์—ฌ๋ถ€๋ฅผ ๊ธฐ์ค€์œผ๋กœ Table 1๋ฅผ ๊ตฌํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.

๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ์—ฌ๋ถ€๋ฅผ ๊ธฐ์ค€์œผ๋กœ, ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค์˜ p๊ฐ’์ด 0.05๋ณด๋‹ค ์ž‘์œผ๋ฏ€๋กœ, ๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ์—ฌ๋ถ€๊ณผ ์ด ์ฝœ๋ ˆ์Šคํ…Œ๋กค ์–‘์€ ๊ด€๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ์œผ๋กœ, ์„ฑ๋ณ„์— ๋”ฐ๋ฅธ Table 1์ž…๋‹ˆ๋‹ค.

๋‚จ์„ฑ๊ณผ ์—ฌ์„ฑ์˜ ๋นˆํ˜ˆ, ๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ๋ฐœ์ƒ ์ •๋„๊ฐ€ ์œ ์˜๋ฏธํ•œ ์ฐจ์ด๊ฐ€ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, ๋นˆํ˜ˆ๊ณผ ๋‡Œํ˜ˆ๊ด€์งˆํ™˜ ๋ฐœ์ƒ ์ •๋„ ๋ชจ๋‘ ์—ฌ์„ฑ์—์„œ ๋” ๋†’์•˜์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก