๋ฐ˜์‘ํ˜•

๋จธ์‹ ๋Ÿฌ๋‹ 12

๋ถ€์ŠคํŒ… AdaBoost, gradient boosting, XGBoost

๋ถ€์ŠคํŒ…์€ ์•ฝํ•œ ํ•™์Šต๊ธฐ๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์—ฐ๊ฒฐํ•˜์—ฌ ๊ฐ•ํ•œ ํ•™์Šต๊ธฐ๋ฅผ ๋งŒ๋“œ๋Š” ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋ถ€์ŠคํŒ… ๋ฐฉ๋ฒ• ์ค‘ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๊ฒƒ์€ ์—์ด๋‹ค๋ถ€์ŠคํŒ…๊ณผ ๊ทธ๋ž˜๋””์–ธํŠธ ๋ถ€์ŠคํŒ…(XGBoost, LightGBM)์ด๋‹ค. ์—์ด๋‹ค๋ถ€์ŠคํŠธ ์ด์ „ ์˜ˆ์ธก๊ธฐ๋ฅผ ๋ณด์™„ํ•˜๋Š” ๋ฐฉ์‹์€ ์ด์  ๋ชจ๋ธ์ด ๊ณผ์†Œ์ ํ•ฉํ–ˆ๋˜ ํ›ˆ๋ จ์ƒ˜ํ”Œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋” ๋†’์ด๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ƒˆ๋กœ์šด ์˜ˆ์ธก๊ธฐ๋Š” ์ด์ „์— ํ•™์Šต์ด ์ž˜ ์•ˆ๋๋˜ ์ƒ˜ํ”Œ์— ๋” ๋งž์ถฐ์ง€๊ฒŒ ๋œ๋‹ค. ์—์ด๋‹ค๋ถ€์ŠคํŠธ๋Š” ์ด ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์—์ด๋‹ค๋ถ€์ŠคํŠธ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋งŒ๋“ค ๋•Œ๋Š” ๋จผ์ € ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์ฒซ ๋ฒˆ์งธ ๋ถ„๋ฅ˜๊ธฐ(์˜ˆ; ๊ฒฐ์ • ํŠธ๋ฆฌ)๋ฅผ ํ›ˆ๋ จ์„ธํŠธ์—์„œ ํ›ˆ๋ จ์‹œํ‚ค๊ณ  ์˜ˆ์ธก์„ ๋งŒ๋“ ๋‹ค. ๊ทธ ๋‹ค์Œ์— ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์žฅ๋ชป ๋ถ„๋ฅ˜ํ•œ ํ›ˆ๋ จ์ƒ˜ํ”Œ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์ธ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋ถ„๋ฅ˜๊ธฐ๋Š” ์—…๋ฐ์ดํŠธ๋จ ๊ฐ€์ค‘์น˜๋กœ ํ›ˆ๋ จ์„ธํŠธ์—์„œ ํ›ˆ๋ จํ•˜๊ณ  ๋‹ค์‹œ ์˜ˆ์ธกํ•œ๋‹ค. ๋˜ ๊ฐ€์ค‘..

์•™์ƒ๋ธ”ํ•™์Šต๊ณผ ๋ฐฐ๊น…

์•™์ƒ๋ธ” ํ•™์Šต์€ ๋‹ค์–‘ํ•œ ์˜ˆ์ธก๊ธฐ๋ฅผ ๊ฒฐํ•ฉํ•ด ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์•™์ƒ๋ธ”์˜ ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” ํ›ˆ๋ จ์…‹์œผ๋กœ๋ถ€ํ„ฐ ๋ฌด์ž‘์œ„๋กœ ๋‹ค๋ฅธ ์„œ๋ธŒ์…‹์„ ๋งŒ๋“ค์–ด ์ผ๋ จ์˜ ๊ฒฐ์ •ํŠธ๋ฆฌ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ์ธก์„ ํ•˜๋ ค๋ฉด ๋ชจ๋“  ๊ฐœ๋ณ„ํŠธ๋ฆฌ์˜ ์˜ˆ์ธก์„ ๊ตฌํ•˜๊ณ  ๊ฐ€์žฅ ๋งŽ์€์„ ํƒ์„ ๋ฐ›์€ ํด๋ž˜์Šค๋ฅผ ์˜ˆ์ธก์œผ๋กœ ์‚ผ์Šต๋‹ˆ๋‹คvoting. ๊ฒฐ์ • ํŠธ๋ฆฌ์˜ ์•™์ƒ๋ธ”์€ ๋žœ๋คํฌ๋ ˆ์ŠคํŠธ์ž…๋‹ˆ๋‹ค. ์•™์ƒ๋ธ” ๋ฐฉ๋ฒ•์€ ํ›จ์”ฌ ๋” ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ๊น… ํ›ˆ๋ จ์…‹์—์„œ ์ค‘๋ณต์„ ํ—ˆ์šฉํ•˜์—ฌ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹ ํŽ˜์ด์ŠคํŒ… ํ›ˆ๋ จ์…‹์—์„œ ์ค‘๋ณต์„ ํ—ˆ์šฉํ•˜์ง€ ์•Š๊ณ  ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋ฐฉ์‹ ๋‘ ๋ฐฉ๋ฒ• ๋ชจ๋‘ ๊ฐ™์€ ํ›ˆ๋ จ์ƒ˜ํ”Œ์„ ์—ฌ๋Ÿฌ ์˜ˆ์ธก๊ธฐ์— ๊ฑธ์ณ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๋ฐฐ๊น…๋งŒ์ด ํ•œ ์˜ˆ์ธก๊ธฐ๋ฅผ ์œ„ํ•ด ๊ฐ™์€ ํ›ˆ๋ จ์ƒ˜ํ”Œ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ถ€ํŠธ์ŠคํŠธ๋žฉ(bootstrap) ๋ถ€ํŠธ์ŠคํŠธ๋žฉ(bootstrap)์€ ํ†ต๊ณ„ํ•™์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์šฉ์–ด..

python numpy, pandas ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ž€, ์ฐจ์ด

๊ณตํ†ต์  : ์™ธ๋ถ€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ด๊ธฐ์— ์‚ฌ์šฉ ์ „ import ํ•ด์ค˜์•ผํ•œ๋‹ค. import numpy as np import pandas as pd Pandas: ์‰ฌ์šด ๋ฐ์ดํ„ฐ ์กฐ์ž‘๊ณผ ๋ถ„์„์„ ์œ„ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋ฐ์ดํ„ฐ์˜ ๋น ๋ฅธ ๋กœ๋“œ, ์ •๋ ฌ, ์กฐ์ž‘ ๋ฐ ๋ณ‘ํ•ฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. - ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ์ƒ์„ฑ, ์Šฌ๋ผ์ด์‹ฑ, ๋ฐ์ดํ„ฐ ํด๋ Œ์ง•, ๋ฐ์ดํ„ฐ ์ฑ„์šฐ๊ธฐ, ๋ฐ์ดํ„ฐ ๋ณ‘ํ•ฉ ๋ฐ ์กฐ์ธ ์˜ˆ์‹œ Numpy: ๋”ฅ๋Ÿฌ๋‹์„ ๊ตฌํ˜„ํ•˜๋‹ค๋ณด๋ฉด ๋ฐฐ์—ด์ด๋‚˜ ํ–‰๋ ฌ ์—ฐ์‚ฐ์ด ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค. ๋„˜ํŒŒ์ด๋Š” ํ–‰๋ ฌ์ด๋‚˜ ๋Œ€๊ทœ๋ชจ n์ฐจ์› ๋ฐฐ์—ด์„ ์‰ฝ๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜๋Š” ํŒŒ์ด์ฌ์˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ ์™ธ์—๋„ ์ˆ˜์น˜ ๊ณ„์‚ฐ์„ ์œ„ํ•ด ํšจ์œจ์ ์œผ๋กœ ๊ตฌํ˜„๋œ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค. ๋„˜ํŒŒ์ด์˜ ๋ฐฐ์—ด ํด๋ž˜์Šค์ธ numpy.array์—๋Š” ํŽธ๋ฆฌํ•œ ๋ฉ”์„œ๋“œ๋“ค์ด ๋งŽ์ด ..

๋น„์ง€๋„ํ•™์Šต - ๊ตฐ์ง‘, k-means, ์‹ค๋ฃจ์—ฃ์ ์ˆ˜ ์‚ฌ์ดํ‚ท๋Ÿฐ

์ด๋ฒˆ์—๋Š” ์ง€๋„ํ•™์Šต๊ณผ ๋‹ค๋ฅธ, ์ •๋‹ต ๋ ˆ์ด๋ธ”์ด ์ฃผ์–ด์ง€์ง€์•Š๋Š” ๋น„์ง€๋„ ํ•™์Šต์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋น„์ง€๋„ํ•™์Šต์—๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒƒ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค. 1. ๊ตฐ์ง‘(clustering) ๋น„์Šทํ•œ ์ƒ˜ํ”Œ์€ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋ฌถ์Šต๋‹ˆ๋‹ค. ๊ตฐ์ง‘์€ ๊ณ ๊ฐ๋ถ„๋ฅ˜ -> ์ถ”์ฒœ์‹œ์Šคํ…œ - ๋™์ผํ•œ ํด๋Ÿฌ์Šคํ„ฐ ๋‚ด ์‚ฌ์šฉ์ž๊ฐ€ ์ข‹์•„ํ•˜๋Š” ์ปจํ…์ธ ๋ฅผ ์ถ”์ฒœํ•˜๋Š” ์ถ”์ฒœ ์‹œ์Šคํ…œ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค ์ค€์ง€๋„ํ•™์Šต - ๋ ˆ์ด๋ธ”๋œ ์ƒ˜ํ”Œ์ด ์ ๋‹ค๋ฉด ๊ตฐ์ง‘์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋™์ผํ•œ ํด๋Ÿฌ์Šคํ„ฐ์— ์žˆ๋Š” ๋ชจ๋“  ์ƒ˜ํ”Œ์— ๋ ˆ์ด๋ธ”๋ง์„ ํ•  ์ˆ˜ ์žˆ์‹ญ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ์ด์–ด์ง€๋Š” ์ง€๋„ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ํ•„์š”ํ•œ ๋ ˆ์ด๋ธ”์ด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ๋ถ„ํ•  - ์ƒ‰์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ”ฝ์…€์„ ํด๋Ÿฌ์Šคํ„ฐ๋ง์ž…๋‹ˆ๋‹ค. ๊ทธ๋‹ค์Œ ํ”ฝ์…€ ์ƒ‰์„ ํ•ด๋‹น ํดใ„น๋Ÿฌ์Šคํ„ฐ์˜ ํ‰๊ท  ์ƒ‰์œผ๋กœ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋ฏธ์ง€์— ์žˆ๋Š” ์ƒ‰์ƒ์˜ ์ข…๋ฅ˜๋ฅผ ํฌ๊ฒŒ ์ค„์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒํ•˜..

๋จธ์‹ ๋Ÿฌ๋‹ ๋ถ„๋ฅ˜ ์„ฑ๋Šฅ ์ธก์ •

๋จธ์‹ ๋Ÿฌ๋‹์—์„œ์˜ ํ•™์Šต์˜ ์ข…๋ฅ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด 3๊ฐ€์ง€์ด๊ณ , ๊ฐ๊ฐ ํ•ด๋‹นํ•˜๋Š” ์ž‘์—…์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ง€๋„ ํ•™์Šต ์ค‘์—์„œ ๋ถ„๋ฅ˜ ์ž‘์—…๊ณผ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ ์ธก์ •์— ๋Œ€ํ•ด ๋‹ค๋ฃจ๊ฒ ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ ๋‹ค์–‘ํ•œ ๋ถ„๋ฅ˜๋ชจ๋ธ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ถ„๋ฅ˜๋Š” ํšŒ๊ท€๋ณด๋‹ค ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ ์ง€ํ‘œ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. 1. ๊ต์ฐจ๊ฒ€์ฆ์„ ํ™œ์šฉํ•œ ์ •ํ™•๋„ ์ธก์ • ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ cross_val_score()๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํด๋“œ๊ฐ€ 3๊ฐœ์ธ k-๊ฒน ๊ต์ฐจ ๊ฒ€์ฆ์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ์˜ˆ์‹œ from sklearn.model_selection import cross_val_score cross_val_score(ํ›ˆ๋ จํ•œ๋ชจ๋ธ,X_train,y_train, cv=3,scoring="accuracy") ๊ทธ๋Ÿฌ๋‚˜ ์ •ํ™•๋„๋Š” ๋ถ„๋ฅ˜๊ธฐ ์„ฑ๋Šฅ ์ธก์ •์ง€ํ‘œ๋กœ๋Š” ์„ ํ˜ธ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค...

์ฐจ์› ์ถ•์†Œ, PCA python ์‚ฌ์ดํ‚ท๋Ÿฐ

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋งŽ์€ ๋ฌธ์ œ๋Š” train sample ์ด ์ˆ˜์ฒœ์—์„œ ์ˆ˜๋ฐฑ๋งŒ๊ฐœ์˜ ํŠน์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‚ฌ๋žŒ์€ 3์ฐจ์› ๊ณต๊ฐ„์—์„œ ์‚ด๊ณ  ์žˆ๊ธฐ์— ์šฐ๋ฆฌ๊ฐ€ ๋ณด๊ณ  ๋Š๋‚„ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๋“ค์€ 1,2,3์ฐจ์› ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ๋Š” ๋‹ค๋ฃจ๋Š” ์ฐจ์›์˜ ์ˆ˜๊ฐ€ ์ •๋ง ํฝ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ๋งค์šฐ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ์ด๋”๋ผ๋„ ์ฐจ์›์˜ ์ˆ˜๊ฐ€ ๋†’์•„์ง€๋ฉด ์ดํ•ดํ•  ์ˆ˜ ์—†์–ด์ง‘๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋งŽ์€ ํŠน์„ฑ์€ triain ์‹œ๊ฐ„์„ ๋Š๋ฆฌ๊ฒŒ ํ•  ๋ฟ๋งŒ์•„๋‹ˆ๋ผ, ์ข‹์€ ์†”๋ฃจ์…˜์„ ์ฐพ๊ธฐ ํž˜๋“ค๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ข…์ข… ์ด๋Ÿฐ ๋ฌธ์ œ๋ฅผ ์ฐจ์›์˜ ์ €์ฃผ(CURSE OF DIMENSIONALITY)๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํŠน์„ฑ ์ˆ˜๋ฅผ ํฌ๊ฒŒ ์ค„์—ฌ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์„ ์šฐ๋ฆฌ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ €์ฐจ์›์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ์ˆ ์„ ์—ฐ๊ตฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ dimensionality reduction์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด..

๋‹ค์ค‘ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ (์†Œํ”„ํŠธ๋งฅ์Šค ํšŒ๊ท€)

์•ž์„œ ๋ถ„๋ฅ˜๊ฐ€ 2๊ฐœ์ธ(1์•„๋‹ˆ๋ฉด 0)์ธ ์ด์ง„ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์— ๊ด€ํ•ด ๋ฐฐ์› ๋‹ค. ๋งŒ์•ฝ ๋ถ„๋ฅ˜ํ•ญ๋ชฉ์ด 2๊ฐœ๊ฐ€ ์•„๋‹Œ ๊ทธ ์ด์ƒ์ด๋ผ๋ฉด ์–ด๋–ป๊ฒŒ ํ• ๊นŒ? ์•ž์„  ์˜ˆ์ œ์—์„œ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ์—๋Š” ๋ถ“๊ฝƒ์˜ ํ’ˆ์ข…์ด virginica, versicolor,setosa๋กœ ์„ธ๊ฐ€์ง€์˜€์ง€๋งŒ ์šฐ๋ฆฌ๋Š” versicolor์ธ๊ฐ€ ์•„๋‹Œ๊ฐ€๋กœ๋งŒ ํŒ๋‹จ์„ ํ–ˆ์—ˆ๋‹ค. ์ด๋ฒˆ์—๋Š” ํ•œ ๋ถ“๊ฝƒ์˜ ๊ฝƒ์žŽ์˜ ๋„ˆ๋น„์™€ ๊ธธ์ด๋ฅผ ๊ฐ€์ง€๊ณ  ์„ธ๊ฐ€์ง€ ํ’ˆ์ข…์ค‘ ์–ด๋Š ํ’ˆ์ข…์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋‹ค์ค‘ ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋ฅผ ํ•ด๋ณด๊ฒ ๋‹ค. ๋‹ค์ค‘ ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋Š” ์ƒ˜ํ”Œ x๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๊ฐ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์ ์ˆ˜๋ฅผ ์†Œํ”„ํŠธ๋งฅ์Šค ํšŒ๊ท€๋ชจ๋ธ์ด ๊ณ„์‚ฐํ•˜๊ณ  ๊ทธ ์ ์ˆ˜์— ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์ ์šฉํ•ด ๊ฐ ํด๋ž˜์Šค์˜ ํ™•๋ฅ ์„ ์ถ”์ •ํ•œ๋‹ค. : ๋กœ์ง“๋ณ€ํ™˜ ๊ฒฐ๊ณผ๋Š” ์„ ํ˜•๊ฒฐํ•ฉํ•œ ํ˜•ํƒœ๋กœ ๋œ๋‹ค. trainํ•  ๋•Œ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”์ •์€ ํฌ๋กœ์Šค ์—”ํŠธ๋กœํ”ผ๊ฐ€ ์ตœ์†Œ = log(liklihood fun..

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ sklearn logistic regression iris python

ํšŒ๊ท€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ถ„๋ฅ˜์—์„œ๋„ ์‚ฌ์šฉ๋œ๋‹ค. ๋ถ„๋ฅ˜์˜ ์˜๋ฏธ๋Š” ์ •ํ•ด์ ธ ์žˆ๋Š” ๋ฒ”์ฃผ๋“ค ์ค‘ ํ•˜๋‚˜๋กœ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์นด๋“œ๊ฑฐ๋ž˜ ์ด์ƒ ์œ ๋ฌด, ์ŠคํŒธ๋ฉ”์ผ์—ฌ๋ถ€, ๊ณ ๊ฐ ์ดํƒˆ ์—ฌ๋ถ€, ๋ฐฑํ˜ˆ๋ณ‘ ์—ฌ๋ถ€ ๋“ฑ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์ƒ˜ํ”Œ์ด ํŠน์ • ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š”๋ฐ ๋„๋ฆฌ ์‚ฌ์šฉ๋œ๋‹ค. ์ถ”์ •ํ™•๋ฅ ์ด 50%๊ฐ€ ๋„˜์œผ๋ฉด ๊ทธ ์ƒ˜ํ”Œ์ด ํ•ด๋‹น ํด๋ž˜์Šค์— ์†ํ•œ๋‹ค๊ณ  ์–˜๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค. ํด๋ž˜์Šค์— ์†ํ•œ๋‹ค๋Š” ๊ฒƒ์€, ๋ ˆ์ด๋ธ”์ด 1์ธ ์–‘์„ฑํด๋ž˜์Šค(positive class), ํด๋ž˜์Šค์— ์†ํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์€ ๋ ˆ์ด๋ธ”์ด 0์ธ ์Œ์„ฑ ํด๋ž˜์Šค(negative class0๋ผ๊ณ  ํ•œ๋‹ค. ์ด๋ฅผ ์ด์ง„ ๋ถ„๋ฅ˜๊ธฐ๋ผ ํ•œ๋‹ค. ํ”ํžˆ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์ข…์†๋ณ€์ˆ˜๊ฐ€ ์ดํ•ญํ˜• ๋ฌธ์ œ(์ฆ‰, ์œ ํšจํ•œ ๋ฒ”์ฃผ์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋‘๊ฐœ์ธ ๊ฒฝ์šฐ)๋ฅผ ์ง€์นญํ•  ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค. ์ด์™ธ์—, ๋‘ ๊ฐœ ์ด์ƒ์˜ ๋ฒ”์ฃผ๋ฅผ ๊ฐ€์ง€๋Š” ..

[๋จธ์‹ ๋Ÿฌ๋‹4] Logistic Regression ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ pyhton

binary classification์€ ์ข…๋ฅ˜๊ฐ€ 2๊ฐœ๋กœ ๋‚˜๋‰˜์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๊ณ  ์ด๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋Š” ์˜ˆ์ธก ๊ฐ’์ด ์—ฐ์†์ ์ธ ๊ฐ’์ด ์•„๋‹Œ 0 ๋˜๋Š” 1์ž…๋‹ˆ๋‹ค. ์˜ˆ์‹œ ์ด๋ฉ”์ผ : ์ŠคํŒธ์ธ๊ฐ€ / ์•„๋‹Œ๊ฐ€? ์˜จ๋ผ์ธ ๊ฑฐ๋ž˜: Fraudulent Financial Statement (FFS)์ธ๊ฐ€ / ์•„๋‹Œ๊ฐ€? ์ข…์–‘ : ์•…์„ฑ์ข…์–‘(์•”)์ธ๊ฐ€ / ์–‘์„ฑ์ธ๊ฐ€? ์ด๋•Œ๋Š” ์šฐ๋ฆฌ์˜ ์˜ˆ์ธก ๊ฐ’์„ ํ™•๋ฅ  ๊ฐ’์œผ๋กœ ๋งŒ๋“  ๋‹ค์Œ์— ํ™•๋ฅ  ๊ฐ’์ด ์šฐ๋ฆฌ์˜ ๊ธฐ์ค€๋ณด๋‹ค ๋†’์œผ๋ฉด 1, ์•„๋‹ˆ๋ฉด 0์œผ๋กœ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๋ฐฉ๋ฒ•์„ logistic regression์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋ˆ„๋Š” ์ข…๋ฅ˜๊ฐ€ 3๊ฐœ์ด์ƒ์ด๋ฉด - multi classification Logistic regression์„ ์ง„ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถœ๋ ฅ ๊ฐ’์„ 0๊ณผ 1์˜ ๊ฐ’์œผ๋กœ ๋งž์ถฐ์ฃผ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ..

[๋จธ์‹ ๋Ÿฌ๋‹3] Multiple Linear Regression ๋‹ค์ค‘์„ ํ˜•ํšŒ๊ท€ python

์‹ค์ œ๋กœ ์˜ˆ์ธก์„ ํ•˜๊ณ ์ž ํ•  ๋–„ ๋ณดํ†ต ํ•˜๋‚˜ ์ด์ƒ์˜ ๋ณ€์ˆ˜๋“ค์„ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. multiple linear regression์€ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ๋ณ€์ˆ˜๋“ค์„ ์‚ฌ์šฉํ•˜๋Š” ์˜ˆ์ธก๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์œ„ ์ด๋ฏธ์ง€๋ฅผ ์˜ˆ๋กœ ์„ค๋ช…ํ•˜๋ฉด, ์ง‘๊ฐ€๊ฒฉ(y)๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค๊ณ  ํ•  ๋•Œ, x1(์นจ์‹ค์ˆ˜), x2=์ธต ์ˆ˜, x3=์ง€์–ด์ง„์—ฐ์ˆ˜, x4=ํฌ๊ธฐ 4๊ฐ€์ง€ feature(n=4)๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค . feature= dimension=attribute x(2)๋Š” =[3 2 40 127](์—ด๋ฒกํ„ฐ๋กœ)๊ฐ€ ๋˜๊ณ , x3(2)๋Š” 30 ์ž…๋‹ˆ๋‹ค default๋Š” ํ•œ์ƒ ์—ด๋ฒกํ„ฐ์ด๊ณ , row vector ์ฆ‰ [3 2 40 127]๋กœ ํ‘œํ˜„ํ•˜๊ณ  ์‹ถ๋‹คํ•˜๋ฉด, transpose๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก ๋ชจ๋ธ ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์„ธํƒ€0,1,2,3์€ ๊ฐ ๋ณ€์ˆ˜์˜ ๊ฐ€์ค‘์น˜์ด๊ณ , x1,2,3๋Š” ๊ฐ fea..

๋ฐ˜์‘ํ˜•