λ”₯λŸ¬λ‹/Today I learned :

λ¨Έμ‹ λŸ¬λ‹ μ •μ˜μ™€ λΆ„λ₯˜

주영 🐱 2021. 6. 4. 15:59
728x90
λ°˜μ‘ν˜•

β–· λ¨Έμ‹ λŸ¬λ‹μ€ λͺ…μ‹œμ μΈ ν”„λ‘œκ·Έλž˜λ° 없이 컴퓨터가 ν•™μŠ΅ν•˜λŠ” λŠ₯λ ₯을 κ°–μΆ”κ²Œ ν•˜λŠ” 연ꡬ λΆ„μ•Όλ‹€.

 

β–· μ–΄λ–€ μž‘μ—… T에 λŒ€ν•œ ν”„λ‘œκ·Έλž¨μ˜ μ„±λŠ₯을 P둜 μΈ‘μ •ν–ˆμ„ λ•Œ κ²½ν—˜ E둜 인해 μ„±λŠ₯이 ν–₯상됐닀면,

이 ν”„λ‘œκ·Έλž¨μ€ T와 P에 λŒ€ν•΄ E둜 ν•™μŠ΅ν•œ 것이닀.

 

 

슀팸 ν•„ν„° - μŠ€νŒΈλ©”μΌ ꡬ뢄 λ¨Έμ‹ λŸ¬λ‹ ν”„λ‘œκ·Έλž¨

 

μ‹œμŠ€ν…œμ΄ ν•™μŠ΅ν•˜λŠ”λ° μ‚¬μš©ν•˜λŠ” μƒ˜ν”Œ = ν›ˆλ ¨μ„ΈνŠΈ training set

각 ν›ˆλ ¨ 데이터 = training instance | μƒ˜ν”Œ

이 경우 μž‘μ—…T = μƒˆ 메일이 μŠ€νŒ¬μΈμ§€ κ΅¬λΆ„ν•˜λŠ” 것

κ²½ν—˜ E = ν›ˆλ ¨λ°μ΄ν„°

μ„±λŠ₯ μΈ‘μ •PλŠ” 직접 μ •μ˜ν•΄μ•Ό ν•œλ‹€. (ex - μ •ν™•νžˆ λΆ„λ₯˜λœ λ©”μΌμ˜ λΉ„μœ¨) = 정확도 accuracy , λΆ„λ₯˜ μž‘μ—…μ— μ‚¬μš©λœλ‹€.

 

 

λ¨Έμ‹ λŸ¬λ‹μ€ λ‹€μŒ 뢄야에 λ›°μ–΄λ‚˜λ‹€ :

  • κΈ°μ‘΄ μ†”λ£¨μ…˜μœΌλ‘œλŠ” λ§Žμ€ μˆ˜λ™ μ‘°μ •κ³Ό κ·œμΉ™μ΄ ν•„μš”ν•œ 문제 : ν•˜λ‚˜μ˜ λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ΄ μ½”λ“œλ₯Ό κ°„λ‹¨ν•˜κ²Œ λ§Œλ“€κ³  전톡적인 방법보닀 더 잘 μˆ˜ν–‰λ˜λ„λ‘ ν•  수 μžˆλ‹€.
  • 전톡적인 λ°©λ²•μœΌλ‘œλŠ” ν•΄κ²° 방법이 μ—†λŠ” λ³΅μž‘ν•œ 문제 : κ°€μž₯ λ›°μ–΄λ‚œ λ¨Έμ‹ λŸ¬λ‹ κΈ°λ²•μœΌλ‘œ ν•΄κ²° 방법을 찾을 수 μžˆλ‹€
  • μœ λ™μ μΈ ν™˜κ²½ : μƒˆλ‘œμš΄ 데이터에 적응할 수 μžˆλ‹€
  • λ³΅μž‘ν•œ λ¬Έμ œμ™€ λŒ€λŸ‰μ˜ λ°μ΄ν„°μ—μ„œ μΈμ‚¬μ΄νŠΈ μ–»κΈ°

 

ꡬ체적인 λ¨Έμ‹ λŸ¬λ‹ μž‘μ—…μ˜ 사둀 : 

  • 생산 λΌμΈμ—μ„œ μ œν’ˆ 이미지λ₯Ό 뢄석해 μžλ™μœΌλ‘œ λΆ„λ₯˜ν•˜κΈ° :이미지 λΆ„λ₯˜, CNN μ‚¬μš©
  • λ‡Œ μŠ€μΊ”ν•˜μ—¬ μ’…μ–‘ μ§„λ‹¨ν•˜κΈ° : μ‹œλ§¨ν‹± λΆ„ν•  μž‘μ—…,CNN으둜 μ΄λ―Έμ§€μ˜ 각 ν”½μ…€ λΆ„λ₯˜
  • λ‰΄μŠ€ 기사 μžλ™ λΆ„λ₯˜ : μžμ—°μ–΄ 처리 (NLP), ν…μŠ€νŠΈ λΆ„λ₯˜ μž‘μ—…. RNN,CNN,트랜슀포머둜 ν•΄κ²°
  • ν† λ‘  ν¬λŸΌμ—μ„œ 뢀정적 μ½”λ©˜νŠΈ μžλ™μœΌλ‘œ ꡬ뢄 : NLP
  • κΈ΄ λ¬Έμ„œ μžλ™ μš”μ•½ : NLP
  • 챗봇 : NLU , NLP μ»΄ν¬λ„ŒνŠΈ
  • λ‹€μ–‘ν•œ μ„±λŠ₯ μ§€ν‘œ 기반으둜 νšŒμ‚¬μ˜ 내년도 수읡 μ˜ˆμΈ‘ν•˜κΈ° : νšŒκ·€ λͺ¨λΈ μ‚¬μš©
  • μŒμ„± λͺ…령에 λ°˜μ‘ν•˜λŠ” μ•± : RNN, CNN 트랜슀포머
  • μ‹ μš©μΉ΄λ“œ λΆ€μ •κ±°λž˜ 감지 : μ΄μƒμΉ˜ 탐지 μž‘μ—…
  • ꡬ맀 이λ ₯을 기반으둜 고객을 λ‚˜λˆ„κ³  각 집합에 λ§žλŠ” λ§ˆμΌ€νŒ… μ „λž΅ : ꡰ집 μž‘μ—…
  • λ³΅μž‘ν•œ 데이터셋을 λͺ…ν™•ν•œ κ·Έλž˜ν”„λ‘œ ν‘œν˜„ν•˜κΈ° : 데이터 μ‹œκ°ν™” , 차원 μΆ•μ†Œ 기법
  • κ³Όκ±° ꡬ맀 이λ ₯을 기반으둜 고객이 관심을 κ°€μ§ˆ 수 μžˆλŠ” μƒν’ˆ μΆ”μ²œ : κ³Όκ±° ꡬ맀 이λ ₯을 인곡 신경망에 μ£Όμž…ν•˜κ³  λ‹€μŒμ— ꡬ맀할 κ°€λŠ₯성이 κ°€μž₯ 높은 μƒν’ˆ 좜λ ₯
  • 지λŠ₯ν˜• κ²Œμž„ 봇bot : 보톡 κ°•ν™”ν•™μŠ΅RL ,ex μ•ŒνŒŒκ³ 

 

λ¨Έμ‹ λŸ¬λ‹ μ‹œμŠ€ν…œμ˜ μ’…λ₯˜

 

ν•™μŠ΅ν•˜λŠ” λ™μ•ˆμ˜ 감독 ν˜•νƒœλ‚˜ μ •λ³΄λŸ‰μ— 따라

μ§€λ„ν•™μŠ΅, λΉ„μ§€λ„ν•™μŠ΅, 쀀지도 ν•™μŠ΅, κ°•ν™”ν•™μŠ΅

 

지도 ν•™μŠ΅  supervised learning 

μ•Œκ³ λ¦¬μ¦˜μ— μ£Όμž…ν•˜λŠ” ν›ˆλ ¨ 데이터에 λ ˆμ΄λΈ”μ΄λΌλŠ” μ›ν•˜λŠ” 닡이 ν¬ν•¨λœλ‹€

 

 - λΆ„λ₯˜(ex μŠ€νŒΈν•„ν„°)

 - νšŒκ·€ (μ˜ˆμΈ‘λ³€μˆ˜λΌ λΆ€λ₯΄λŠ” νŠΉμ„±,속성(주행거리, 연식, λΈŒλžœλ“œ..)듀을 μ΄μš©ν•΄ 쀑고차 가격같은 νƒ€κ²Ÿ 수치λ₯Ό 예츑)

 - 일뢀 νšŒκ·€ μ•Œκ³ λ¦¬μ¦˜μ€ λΆ„λ₯˜μ— μ‚¬μš© ν˜Ήμ€ κ·Έ λ°˜λŒ€ (λ‘œμ§€μŠ€ν‹± νšŒκ·€λŠ” λΆ„λ₯˜μ— μ‚¬μš© - ν΄λž˜μŠ€μ— 속할 ν™•λ₯ μ„ 좜λ ₯ν•œλ‹€.)

 

 μ€‘μš”ν•œ μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ : 

  • k- μ΅œκ·Όμ ‘ 아웃
  • μ„ ν˜• νšŒκ·€
  • λ‘œμ§€μŠ€ν‹± νšŒκ·€
  • μ„œν¬νŠΈ 벑터 λ¨Έμ‹ 
  • κ²°μ • 크리와 랜덀 포레슀트
  • 신경망

 

비지도 ν•™μŠ΅  unsupervised learning 

μ•Œκ³ λ¦¬μ¦˜μ— μ£Όμž…ν•˜λŠ” ν›ˆλ ¨ 데이터에 λ ˆμ΄λΈ”μ΄ μ—†μŒ. μ•Œμ•„μ„œ ν•™μŠ΅

 

μ€‘μš”ν•œ λΉ„μ§€λ„ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ : 

  • ꡰ집
    • k- 평균
    • DBSCAN
    • 계측 ꡰ집 뢄석
    • μ΄μƒμΉ˜ 탐지, 특이치 탐지
    • 원-클래슀
  • μ‹œκ°ν™”μ™€ 차원 μΆ•μ†Œ, νŠΉμ„± μΆ”μΆœ
    • μ£Όμ„±λΆ„ 뢄석
    • 컀널PCA
    • 지역적 μ„ ν˜• μž„λ² λ”©
    • t-SNE
  • μ—°κ΄€ κ·œμΉ™ ν•™μŠ΅
    • Apriori
    • Eclat

 

쀀지도 ν•™μŠ΅  semisupervised learning 

μΌλΆ€λ§Œ λ ˆμ΄λΈ”μ΄ μžˆλŠ” 데이터λ₯Ό λ‹€λ£¨λŠ” μ•Œκ³ λ¦¬μ¦˜

지도+비지도 ν•™μŠ΅

 

 

κ°•ν™” ν•™μŠ΅  reinforcement learning 

맀우 λ‹€λ₯Έ μ’…λ₯˜μ˜ μ•Œκ³ λ¦¬μ¦˜

ν•™μŠ΅ν•˜λŠ” μ‹œμŠ€ν…œ = μ—μ΄μ „νŠΈ , ν™˜κ²½μ„ κ΄€μ°°ν•΄ 행동을 μ‹€ν–‰ν•˜κ³  κ·Έ 결과둜 보상 ν˜Ήμ€ νŒ¨λ„ν‹°λ₯Ό λ°›λŠ”λ‹€

μ‹œκ°„μ΄ μ§€λ‚˜λ©΄μ„œ μ΅œμƒμ˜ μ „λž΅μΈ 정책을 슀슀둜 ν•™μŠ΅ν•œλ‹€, 

정책은 상황 속 μ—μ΄μ „νŠΈκ°€ μ–΄λ–€ 행동을 선택해야할지λ₯Ό μ •μ˜ν•œλ‹€.

(보행 λ‘œλ΄‡ λ§Œλ“€κΈ° ,μ•ŒνŒŒκ³ )

 

λ°˜μ‘ν˜•