UX/Today I learned :

데이터(λ²”μ£Όν˜• λ³€μˆ˜)의 데이터 집산과 μ‹œκ°ν™”

주영 🐱 2021. 5. 10. 21:45
728x90
λ°˜μ‘ν˜•

λ²”μ£Όν˜• λ³€μˆ˜(dimension)λž€ κ°œλ³„ ν•­λͺ©(category)으둜 κ΅¬λΆ„λ˜λŠ” 데이터 값을 κ°–λŠ” λ³€μˆ˜λ₯Ό λ§ν•©λ‹ˆλ‹€.

 

λ²”μ£Όν˜• λ³€μˆ˜μ˜ μœ ν˜• – ν…μŠ€νŠΈ, λ‚ μ§œ, 지역, 숫자

일반적으둜 값은 ν…μŠ€νŠΈ, λ‚ μ§œ ν˜•νƒœλ₯Ό λ±λ‹ˆλ‹€. κ°„ν˜Ή 숫자 ν˜•νƒœμ˜ 값을 κ°–λŠ” λ³€μˆ˜λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜λ‘œ ν™œμš©ν•˜κΈ°λ„ ν•˜λŠ”λ°, 이 경우 μˆ˜ν•™μ μœΌλ‘œ 계산할 수 μ—†λ‹€λŠ” μ μ—μ„œ μˆ˜μΉ˜ν˜• λ³€μˆ˜μ™€ κ΅¬λ³„λ©λ‹ˆλ‹€. 이λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜μ˜ μ’…λ₯˜λ‘œ μ„€λͺ…ν•  수 μžˆλŠ”λ°, μ’€ 더 μ„ΈλΆ„ν™”ν•΄

β‘  ν…μŠ€νŠΈ β‘‘ 지역 β‘’ λ‚ μ§œ β‘£ 숫자 4κ°€μ§€λ‘œ 정리할 수 μžˆμŠ΅λ‹ˆλ‹€.

λ²”μ£Όν˜• λ³€μˆ˜μ˜ 데이터 집산은 전체 데이터λ₯Ό ‘μ—¬λŸ¬ 그룹으둜 λ‚˜λˆ„λŠ” 것’을 μ˜λ―Έν•©λ‹ˆλ‹€.

전체 데이터λ₯Ό 성별, 연령별, 지역별 그룹으둜 λ‚˜λˆˆ 것이 μ˜ˆμž…λ‹ˆλ‹€. μ΄λŠ” ‘μˆ˜ν•™μ  계산’ 과정을 톡해 데이터λ₯Ό μ§‘μ‚°ν•˜λŠ” μˆ˜μΉ˜ν˜• λ³€μˆ˜μ˜ 데이터 집산과 κ΅¬λ³„λ©λ‹ˆλ‹€. μ‹œκ°ν™” μ°¨νŠΈλŠ” λ²”μ£Όν˜• λ³€μˆ˜μ™€ μˆ˜μΉ˜ν˜• λ³€μˆ˜μ˜ 데이터 집산 κ²°κ³Όλ₯Ό μ‹œκ°μ  μš”μ†Œλ‘œ ν‘œν˜„ν•œ κ²ƒμž…λ‹ˆλ‹€.

전체 데이터λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜ κΈ°μ€€μœΌλ‘œ μ—¬λŸ¬ 그룹으둜 λ‚˜λˆ„κ³ , κ·Έλ£Ήλ³„λ‘œ μˆ˜μΉ˜ν˜• λ³€μˆ˜μ˜ 값을 κ³„μ‚°ν•œ κ²°κ³Όλ₯Ό μ‹œκ°μ μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€.

μ‹œκ°ν™” 차트λ₯Ό ν™œμš©ν•΄ 데이터λ₯Ό 뢄석할 λ•Œ, λ²”μ£Όν˜• λ³€μˆ˜μ˜ 데이터 집산을 ν™œμš©ν•˜λ©΄ λ‹€μ–‘ν•œ κ΄€μ μ—μ„œ 데이터λ₯Ό νƒμƒ‰ν•˜κ³  μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 ν•˜λ‚˜μ— μ—¬λŸ¬ 개의 λ²”μ£Όν˜• λ³€μˆ˜κ°€ ν¬ν•¨λœ κ²½μš°κ°€ λŒ€λ‹€μˆ˜μ΄λ©°, 이λ₯Ό μ–΄λ–»κ²Œ ν™œμš©ν•˜λŠλƒμ— λ”°λΌμ„œ μˆ˜μ‹­ 개 ν˜Ήμ€ κ·Έ μ΄μƒμ˜ κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό λ‚˜λˆŒ 수 있기 λ•Œλ¬Έμž…λ‹ˆλ‹€. 각기 λ‹€λ₯Έ κΈ°μ€€μœΌλ‘œ μ§‘μ‚°ν•œ κ²°κ³Ό λ°μ΄ν„°λ‘œ μ‹œκ°ν™” 차트λ₯Ό λ§Œλ“€λ©΄, μ„œλ‘œ λ‹€λ₯Έ μ‹œκ°μ  νŒ¨ν„΄μ„ 근거둜 λ‹€μ–‘ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

μœ„ μžλ£ŒλŠ” 1912λ…„ 타이타닉 μΉ¨λͺ° 사고 λ‹Ήμ‹œ νƒμŠΉκ° 뢄포 μ‹œκ°ν™”μž…λ‹ˆλ‹€.

4개의 λ²”μ£Όν˜• λ³€μˆ˜(생쑴 μ—¬λΆ€, 성별, μ—°λ Ή, λ“±κΈ‰)λ³„λ‘œ μ§‘μ‚°ν•œ κ²°κ³Όλ₯Ό ν•œ λ²ˆμ— μ‹œκ°ν™”ν–ˆμŠ΅λ‹ˆλ‹€. 이와 같은 μ‹œκ°ν™” μœ ν˜•μ„ 패럴렐 μ„ΈνŠΈ(Parallel Sets)라고 ν•˜λŠ”λ°, 각 λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό κΈ°μ€€μœΌλ‘œ νƒ‘μŠΉκ°μ˜ 비쀑이 μ–΄λ–»κ²Œ λ‹¬λΌμ§€λŠ”μ§€ ν•œλˆˆμ— μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 생쑴 μ—¬λΆ€λ₯Ό κΈ°μ€€μœΌλ‘œ 전체 νƒ‘μŠΉκ°μ˜ 그룹을 λ‚˜λˆ„μ–΄λ³΄λ©΄ μƒμ‘΄μžλ³΄λ‹€ μ‚¬λ§μžκ°€ λ§Žμ•˜μŒμ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 또 μ—¬μ„±λ³΄λ‹€λŠ” λ§Žμ€ 남성이 νƒ‘μŠΉν•΄ μžˆμ—ˆμœΌλ©°, μ•„μ΄λ³΄λ‹€λŠ” μ–΄λ₯Έμ˜ 비쀑이 μ••λ„μ μ΄μ—ˆμŠ΅λ‹ˆλ‹€. νƒ‘μŠΉκ° λ“±κΈ‰λ³„λ‘œ 그룹을 λ‚˜λˆ΄μ„ λ•ŒλŠ” 선원이 κ°€μž₯ λ§Žμ•˜μŠ΅λ‹ˆλ‹€. λ²”μ£Όν˜• λ³€μˆ˜ κΈ°μ€€λ³„λ‘œ 각기 λ‹€λ₯Έ 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ‹€μ–‘ν•œ 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜κΈ° μœ„ν•΄μ„œ μ—¬λŸ¬ λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό κΈ°μ€€μœΌλ‘œ 데이터 집산을 ν•΄λ΄μ•Όν•©λ‹ˆλ‹€.

 

 

μ–΄λ–€ μ‹œκ°ν™” 차트둜 그릴 것인가, 효과적인 μ‹œκ°μ  뢄석을 μœ„ν•œ μ΅œμ„ μ˜ 선택은?


효과적인 μ‹œκ°μ  뢄석을 μœ„ν•΄ λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό ν™œμš©ν•œ 데이터 집산 κ²°κ³Όλ₯Ό μ–΄λ–€ μ‹œκ°ν™” μœ ν˜•μœΌλ‘œ λ§Œλ“€μ§€ 생각해봐야 ν•©λ‹ˆλ‹€. μ…€ 수 없이 λ§Žμ€ μ‹œκ°ν™” μœ ν˜• 쀑 λ²”μ£Όν˜• λ³€μˆ˜μ˜ νŠΉμ§•μ„ μ§κ΄€μ μœΌλ‘œ ν‘œν˜„ν•΄ μΈμ‚¬μ΄νŠΈ λ„μΆœμ— 도움이 λ˜λŠ” μ‹œκ°ν™” μœ ν˜•μ€ λ¬΄μ—‡μΌκΉŒμš”?

 

 

 

λ²”μ£Όν˜• λ³€μˆ˜ μœ ν˜•μ— λ”°λ₯Έ μ ν•©ν•œ μ‹œκ°ν™” μœ ν˜•(1차원/2차원)의 예

μ•žμ„œ λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό κ·Έ κ°’μ˜ ν˜•νƒœλ‚˜ μ˜λ―Έμ— 따라 μ„ΈλΆ€ μœ ν˜•,

즉 β‘  ν…μŠ€νŠΈ(λ•Œμ— 따라 ordinal), β‘‘ 지역(Geographic), β‘’ λ‚ μ§œ(Temporal), β‘£ 숫자(Numeric)둜 λ‚˜λˆŒ 수 μžˆλ‹€κ³  ν–ˆλŠ”λ°μš”.

λ²”μ£Όν˜• λ³€μˆ˜μ˜ μ„ΈλΆ€ μœ ν˜•μ— λ”°λΌμ„œ μ ν•©ν•œ μ‹œκ°ν™” μœ ν˜•μ΄ λ‹¬λΌμ§‘λ‹ˆλ‹€. κ°„λ‹¨νžˆ λ¨Όμ € μ΄μ•ΌκΈ°ν•˜λ©΄ 지역 정보λ₯Ό ν¬ν•¨ν•œ λ²”μ£Όν˜• λ³€μˆ˜λΌλ©΄ 지도 μ‹œκ°ν™”, μ‹œκ³„μ—΄ 정보λ₯Ό ν¬ν•¨ν•œ λ²”μ£Όν˜• λ³€μˆ˜λΌλ©΄ μ‹œκ³„μ—΄μ— μ ν•©ν•œ μ‹œκ°ν™” μœ ν˜•μ„ μ‚¬μš©ν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. (λ¬Όλ‘  데이터λ₯Ό λΉ„κ΅ν•˜λŠ”λ° κΈ°λ³Έμ΄λ©΄μ„œλ„ κ°€μž₯ 효과적인 μ‹œκ°ν™” μœ ν˜•μ„ λ§‰λŒ€ 차트라고 μƒκ°ν•©λ‹ˆλ‹€. λ‹€λ§Œ μ—¬κΈ°μ„œ ‘μ ν•©ν•œ μ‹œκ°ν™” μœ ν˜•’μ΄λž€ λ²”μ£Όν˜• λ³€μˆ˜ μ„ΈλΆ€ μœ ν˜•λ³„ νŠΉμ§•μ— μ΄ˆμ μ„ 맞좰 데이터λ₯Ό 효과적으둜 ν‘œν˜„ν•  수 μžˆλŠ” μ‹œκ°ν™” μœ ν˜•μž…λ‹ˆλ‹€.)

μ§€κΈˆλΆ€ν„° λ²”μ£Όν˜• λ³€μˆ˜μ˜ μ„ΈλΆ€ μœ ν˜•λ³„ 데이터 집산과 ν™œμš© κ°€λŠ₯ν•˜λ©° μ ν•©ν•œ μ‹œκ°ν™” μœ ν˜•μ€ 무엇인지 사둀λ₯Ό 톡해 μžμ„Ένžˆ μ•Œμ•„λ³΄λ„λ‘ ν•˜κ² μŠ΅λ‹ˆλ‹€.

 

 

 

1. ‘ν…μŠ€νŠΈ λ³€μˆ˜’λ₯Ό ν™œμš©ν•œ 데이터 집산과 μ‹œκ°ν™”


ν…μŠ€νŠΈ λ³€μˆ˜λŠ” λ²”μ£Όν˜• λ³€μˆ˜ κ°€μš΄λ° ν…μŠ€νŠΈ ν˜•νƒœμ˜ 값을 λ°μ΄ν„°λ‘œ κ°–λŠ” 경우λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€. λ”°λΌμ„œ 데이터값은 독립적인 ν•­λͺ©(category)으둜 κ΅¬λΆ„λ©λ‹ˆλ‹€. 이λ₯Ό ν™œμš©ν•΄ μ‹œκ°ν™” 차트λ₯Ό λ§Œλ“œλŠ” 방법은, λ²”μ£Όν˜• λ³€μˆ˜μ˜ ν•­λͺ©λ³„λ‘œ μ‹œκ°ν™” μš”μ†Œλ₯Ό ν‘œν˜„ν•˜λ˜, κ·Έ ν¬κΈ°λ‚˜ 색을 μˆ˜μΉ˜ν˜• λ³€μˆ˜μ˜ 데이터 집산 결과에 λ”°λ₯΄λŠ” κ²ƒμž…λ‹ˆλ‹€.

 

 

λ―Έκ΅­ 의회 νˆ¬ν‘œ μ˜μ‚¬ 결정에 κ°€μž₯ 큰 영ν–₯을 λ―ΈμΉ˜λŠ” 것은 λ¬΄μ—‡μΌκΉŒ? - κΈ°μ€€ ν•­λͺ©λ³„(λ²”μ£Όν˜• λ³€μˆ˜) νˆ¬ν‘œ κ°€λŠ₯ μ •λ‹Ή 비쀑 비ꡐ

μœ„ μ‚¬λ‘€λŠ” λ²”μ£Όν˜• λ³€μˆ˜(쒅ꡐ, 인쒅, 성적 μ·¨ν–₯, ꡐ윑, 인ꡬ, 성별, 지역, μ†Œλ“ λ“±) 12개λ₯Ό κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό 집산, κ·Έ κ²°κ³Όλ₯Ό μ‹œκ°ν™”ν•œ κ²ƒμž…λ‹ˆλ‹€. μΈκ΅¬ ν”ΌλΌλ―Έλ“œ 차트(Population Pyramid chart)와 μœ μ‚¬ν•΄ λ³΄μ΄λ‚˜, μ •ν™•ν•˜κ²ŒλŠ” λ‚˜λΉ„ 차트(butterfly chart)μž…λ‹ˆλ‹€. 2개의 데이터 값을 κ°–λŠ” λ²”μ£Όν˜• λ³€μˆ˜ ν•˜λ‚˜λ₯Ό ν™œμš©ν•΄ 닀이버징 λ°” 차트(Diverging bar chart)λ₯Ό κ·Έλ¦° λ’€, 같은 λ°©μ‹μœΌλ‘œ κ·Έλ¦° 12개의 닀이버징 λ°” 차트λ₯Ό 일렬둜 λ‚˜μ—΄ν•˜μ˜€μŠ΅λ‹ˆλ‹€. λ²”μ£Όν˜• λ³€μˆ˜ κΈ°μ€€λ³„λ‘œ 데이터 집산 κ²°κ³Όκ°€ λ‹€λ₯΄λ‹€λŠ” 것을 ν•œλˆˆμ— νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. λ―Έκ΅­ 의회 νˆ¬ν‘œμ—μ„œ λ°±μΈλ³΄λ‹€λŠ” 흑인, 쒅ꡐ가 μ—†λŠ” μ‚¬λžŒμ˜ κ²½μš°μ— 민주당에 νˆ¬ν‘œν•  κ°€λŠ₯성이 ν¬λ„€μš”.

νŠΉμ • ν…μŠ€νŠΈ λ³€μˆ˜μ˜ 경우 데이터값이 κ°–λŠ” 의미 정보λ₯Ό κΈ°μ€€μœΌλ‘œ νŠΉμ§•μ„ μ„ΈλΆ„ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μˆœμ„œ(ordinal)μƒμ˜ μ˜λ―Έκ°€ μžˆλŠ” κ²½μš°κ°€ λŒ€ν‘œμ μž…λ‹ˆλ‹€. κ³„μ ˆμ„ λ– μ˜¬λ¦¬λ©΄ μ‰½κ²Œ 이해할 수 μžˆλŠ”λ°μš”. ν…μŠ€νŠΈ ν˜•νƒœμ˜ 값인 λ™μ‹œμ— ‘λ΄„, 여름, 가을, 겨울’μ΄λΌλŠ” 의미적 μˆœμ„œκ°€ μžˆμŠ΅λ‹ˆλ‹€. 이 경우 ν•­λͺ©λ³„ κ°œλ³„ μ‹œκ°ν™” μš”μ†Œλ‘œ 데이터λ₯Ό ν‘œν˜„ν•˜λŠ” μ‹œκ°ν™” μœ ν˜•μ„ μ‚¬μš©ν•˜λ˜, ν•­λͺ©μ˜ μˆœμ„œλ₯Ό κ³ λ €ν•΄ μš”μ†Œλ₯Ό λ°°μΉ˜ν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. 데이터 자체의 의미적인 νŠΉμ„±μ΄ 고렀된 μ‹œκ°ν™” μ°¨νŠΈμ΄λ―€λ‘œ, 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό μ°ΎλŠ”λ° λ”μš± νš¨κ³Όμ μž…λ‹ˆλ‹€.

 

 

 



또 ν…μŠ€νŠΈ λ³€μˆ˜ 2개 이상이 μ˜λ―Έμƒ 계측(hierarchy) ꡬ쑰λ₯Ό κ°–λŠ” κ²½μš°λ„ μžˆμŠ΅λ‹ˆλ‹€. 계측 ꡬ쑰λ₯Ό κ°–λŠ” ν…μŠ€νŠΈ λ³€μˆ˜ 2개 이상을 ν™œμš©ν•œ 데이터 집산 κ²°κ³Όλ₯Ό μ‹œκ°ν™”ν•  경우, 계측 ꡬ쑰λ₯Ό ν‘œν˜„ν•˜λŠ”λ° 효과적인 μ‹œκ°ν™” μœ ν˜•μ„ ν™œμš©ν•©λ‹ˆλ‹€.

 

 μš°μšΈμ¦ ν•­μš°μšΈμ œ 처방 ν˜„ν™©(2015) - ν•­μš°μšΈμ œ 계열별 μ„±λΆ„ (좜처=λ‰΄μŠ€μ €λ¦¬, λŒ€ν•œλ―Όκ΅­ 우울증 λ³΄κ³ μ„œ)

μœ„ μ‹œκ°ν™”λŠ” 2015λ…„ κΈ°μ€€ κ΅­λ‚΄ 우울증 ν™˜μžμ—κ²Œ 처방된 ν•­μš°μšΈμ œλ₯Ό 계열별, 성뢄별 비쀑을 λ³΄μ—¬μ€λ‹ˆλ‹€. 두 개의 ν…μŠ€νŠΈ λ³€μˆ˜(계열, μ„±λΆ„)λ₯Ό κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό 집산해 μ‹œκ°ν™”ν•œ κ²ƒμž…λ‹ˆλ‹€. 첫 번째 ν…μŠ€νŠΈ λ³€μˆ˜μΈ 계열(SSRI, TCAs, SNRI, SSRE, MAOI, 기타)을 κΈ°μ€€μœΌλ‘œ ν•  λ•Œ SSRI 계열(남색)의 ν•­μš°μšΈμ œκ°€ κ°€μž₯ 많이 처방된 것을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 두 번째 ν…μŠ€νŠΈ λ³€μˆ˜μΈ 성뢄을 κΈ°μ€€μœΌλ‘œ 보면, SSRI 계열 ν•­μš°μšΈμ œ μ€‘μ—μ„œλ„ ‘μ—μŠ€μ‹œνƒˆλ‘œν”„λžŒ’ μ„±λΆ„ 처방이 κ°€μž₯ λ§Žμ•˜μŒμ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. 이처럼 κ³„μΈ΅ν˜• 데이터 μ‹œκ°ν™” μœ ν˜•μ€ λ°μ΄ν„°μ˜ 계측 ꡬ쑰와 계측별 데이터 비쀑을 ν•œ λ²ˆμ— λ³Ό 수 μžˆλ‹€λŠ” μž₯점이 μžˆμŠ΅λ‹ˆλ‹€.

 


 
2. ‘지역 λ³€μˆ˜’λ₯Ό ν™œμš©ν•œ 데이터 집산과 μ‹œκ°ν™”


ν…μŠ€νŠΈ λ³€μˆ˜ μ€‘μ—μ„œλ„ 지역 이름이 데이터값인 경우, ‘지역 λ³€μˆ˜’둜 κ΅¬λΆ„ν•©λ‹ˆλ‹€. 지역 λ³€μˆ˜λ₯Ό ν™œμš©ν•˜λ˜ 각 μ§€μ—­μ˜ 지리적 정보(μœ„μΉ˜, μ˜μ—­ λ“±)λ₯Ό μ ‘λͺ©ν•˜μ—¬ λ‹€μ–‘ν•œ 지도 μ‹œκ°ν™” μœ ν˜•μ„ λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. λ‹¨μˆœνžˆ 지역별 λ°μ΄ν„°μ˜ 크기λ₯Ό λΉ„κ΅ν•˜λŠ” λ°μ„œ λ‚˜μ•„κ°€, μ§€μ—­μ˜ μœ„μΉ˜μ  νŠΉμ„±, μ˜μ—­(면적)의 νŠΉμ„± 등을 κ³ λ €ν•΄ 보닀 쒅합적인 μΈμ‚¬μ΄νŠΈλ₯Ό 찾을 수 μžˆμŠ΅λ‹ˆλ‹€.

 

λŒ€ν‘œμ μΈ 지도 μ‹œκ°ν™” μœ ν˜•μ€ λ„ν˜• ν‘œν˜„λ„(Symbol map)와 단계 ꡬ뢄도(Choropleth map)μž…λ‹ˆλ‹€.

λ„ν˜• ν‘œν˜„λ„λŠ” 지역별 λ°μ΄ν„°μ˜ 크기λ₯Ό μ‹œκ°ν™” μš”μ†Œ(원, μ‚¬κ°ν˜•, λ§‰λŒ€, 파이 차트 λ“±)둜 ν‘œν˜„ν•©λ‹ˆλ‹€. 반면, 단계 κ΅¬λΆ„λ„λŠ” μ§€μ—­μ˜ μ˜μ—­ λ²”μœ„λ§ˆλ‹€ λ°μ΄ν„°μ˜ 크기λ₯Ό μƒ‰μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€.

 

λ”λΆˆμ–΄ 지역 λ³€μˆ˜λŠ” κ·Έ 자체둜 계측적인 의미 정보λ₯Ό κ°–κ³  μžˆμœΌλ―€λ‘œ, 이λ₯Ό λ°”νƒ•μœΌλ‘œ λ‹€μ–‘ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό μ‚΄νŽ΄λ³ΌκΉŒμš”. μ„œμšΈμ‹œ μžμΉ˜κ΅¬λ³„ 인ꡬ수 데이터λ₯Ό 단계 κ΅¬λΆ„λ„λ‘œ μ‹œκ°ν•΄λ΄…λ‹ˆλ‹€. λ²”μ£Όν˜• λ³€μˆ˜μΈ 자치ꡬλ₯Ό κΈ°μ€€μœΌλ‘œ 인ꡬ수λ₯Ό ν•©μ‚°ν•œ κ²°κ³Όλ₯Ό μ‹œκ°ν™”ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 자치ꡬ의 μ˜μ—­μ— 인ꡬ 수의 크기에 λ”°λΌμ„œ 색을 달리 ν‘œν˜„ν•©λ‹ˆλ‹€. λ‚˜μ•„κ°€μ„œ κ°œλ³„ 자치ꡬλ₯Ό λ²”μ£Όν™”ν•  수 μžˆλŠ” μƒμœ„ 계측 λ‹¨μœ„μΈ ‘μ‹œ/도’, ‘μƒν™œ κΆŒμ—­’λ³„λ‘œλ„ 데이터λ₯Ό μ§‘μ‚°ν•˜κ³  μ‹œκ°ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 결과적으둜 μ–΄λ–€ 지역 계측 λ‹¨μœ„λ‘œ μ‹œκ°ν™”ν•˜λŠλƒμ— λ”°λΌμ„œ 같은 데이터λ₯Ό μ‚¬μš©ν•˜λ”λΌλ„ μ„œλ‘œ λ‹€λ₯Έ μ‹œκ°μ  νŒ¨ν„΄μ„ λ³΄μ΄λŠ” μ‹œκ°ν™”λ₯Ό 근거둜 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 
3. ‘λ‚ μ§œ λ³€μˆ˜’λ₯Ό ν™œμš©ν•œ 데이터 집산과 μ‹œκ°ν™”


λ²”μ£Όν˜• λ³€μˆ˜ 쀑 λ‚ μ§œ ν˜•νƒœμ˜ 값을 κ°–λŠ” λ³€μˆ˜λ₯Ό ‘λ‚ μ§œ λ³€μˆ˜’둜 κ΅¬λΆ„ν•©λ‹ˆλ‹€. ‘λ‚ μ§œ’λΌκ³ λŠ” ν•˜μ§€λ§Œ, κ²½μš°μ— λ”°λΌμ„œ μ‹œκ°„ 정보λ₯Ό ν¬ν•¨ν•˜λŠ” κ²½μš°λ„ μžˆμŠ΅λ‹ˆλ‹€. ‘λ‚ μ§œ λ³€μˆ˜’λ₯Ό ν¬ν•¨ν•œ λ°μ΄ν„°λŠ” μ‹œκ°„μ— 따라 데이터λ₯Ό μˆ˜μ§‘ν•œ κ²ƒμœΌλ‘œ, μ‹œκ³„μ—΄(time series) λ°μ΄ν„°λΌκ³ λ„ ν•©λ‹ˆλ‹€.


 

 

λ‚ μ§œ λ³€μˆ˜ μ—­μ‹œ κ·Έ 자체둜 계측적인 의미 정보λ₯Ό κ°–λŠ”λ°μš”. μ˜ˆλ₯Ό λ“€μ–΄ μΌκ°„μœΌλ‘œ μˆ˜μ§‘λœ 데이터라도 이λ₯Ό λ²”μ£Όν™”ν•  수 μžˆλŠ” μ£Ό, μ›”, λΆ„κΈ°, κ³„μ ˆ, μ—° λ“±μ˜ 계측을 κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό 집산해 λ‹€μˆ˜μ˜ μ‹œκ°ν™” 차트λ₯Ό λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. λ¬Όλ‘  각 기쀀에 λ”°λΌμ„œ 차트의 μ‹œκ°μ  νŒ¨ν„΄μ΄ 달라지고 이λ₯Ό 근거둜 λ‹€μ–‘ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. μœ„ μ‚¬λ‘€λŠ” μ§€λ‚œ 2016λ…„ 12μ›” μ„œμšΈμ‹œμ˜ μ½œνƒμ‹œ 이용 건수 데이터λ₯Ό ν™œμš©ν•΄ λ§Œλ“  μ„  μ°¨νŠΈμž…λ‹ˆλ‹€. μΌκ°„μœΌλ‘œ μˆ˜μ§‘λœ λ°μ΄ν„°μ΄μ§€λ§Œ, μ§‘μ‚°μ˜ 기쀀이 λ˜λŠ” 계측을 λ‹€λ₯΄κ²Œ ν•˜μ—¬, μš”μΌλ³„ 이용 건수, 주별 이용 건수 ν˜„ν™©μ„ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 


λ‚ μ§œ λ³€μˆ˜μ˜ 데이터 집산 κ²°κ³Όλ₯Ό μ‹œκ°ν™”ν•˜λŠ” λ°©λ²•μœΌλ‘œ μš°λ¦¬μ—κ²Œ λ‹€μ†Œ λ‚―μ„€μ§€λ§Œ μœ μš©ν•œ μ‹œκ°ν™” μœ ν˜•λ„ μžˆλŠ”λ°μš”. λͺ‡ 가지 사둀λ₯Ό 톡해 κ°„λ‹¨νžˆ μ•Œμ•„λ΄…μ‹œλ‹€.

 

κ°€μž₯ λ¨Όμ € μ‹œκ³„μ—΄ 데이터 μ‹œκ°ν™” μœ ν˜• 쀑 ν•˜λ‚˜λ‘œ μΊ˜λ¦°λ” 차트(Calendar Chart)λ₯Ό 이야기할 수 μžˆμŠ΅λ‹ˆλ‹€. μΊ˜λ¦°λ” μ°¨νŠΈλŠ” 일 λ‹¨μœ„μ˜ 데이터 μˆ˜μΉ˜κ°’μ„ 달λ ₯κ³Ό 같은 ν˜•νƒœλ‘œ μ‹œκ°ν™”ν•œ κ²ƒμž…λ‹ˆλ‹€. λ°μ΄ν„°μ˜ ν¬κΈ°λŠ” 일별 μ˜μ—­μ˜ μƒ‰μœΌλ‘œ ν‘œν˜„ν•©λ‹ˆλ‹€. 일반적으둜 색이 μ§„ν•˜λ©΄ λ°μ΄ν„°μ˜ 크기도 큰 것을 μ˜λ―Έν•©λ‹ˆλ‹€.

 

연도별 미ꡭ의 λ²šκ½ƒ κ°œν™” 일자 μ‹œκ°ν™”

μΊ˜λ¦°λ” μ°¨νŠΈμ™€ λΉ„μŠ·ν•΄ λ³΄μ΄μ§€λ§Œ μ•Œκ³  보면 λ‹€λ₯Έ XY 히트맡(XY heatmap)도 μ‹œκ³„μ—΄ 데이터λ₯Ό μ‹œκ°ν™”ν•˜λŠ” 데 μœ μš©ν•©λ‹ˆλ‹€. λ‚ μ§œ λ³€μˆ˜μ˜ 데이터 집산 계측 쀑 2가지λ₯Ό 선택해 XY 히트맡으둜 μ‹œκ°ν™”ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μœ„ μ‚¬λ‘€λŠ” μ§€λ‚œ 1924λ…„λΆ€ν„° 2018λ…„κΉŒμ§€ 미ꡭ의 λ²šκ½ƒ κ°œν™” μ‹œκΈ°λ₯Ό XY 히트맡과 μœ μ‚¬ν•œ ν˜•νƒœλ‘œ μ œμž‘ν•œ κ²ƒμž…λ‹ˆλ‹€. λ³΄ν†΅μ˜ νžˆνŠΈλ§΅μ€ λ°μ΄ν„°μ˜ 크기λ₯Ό X, Y의 값별 μ˜μ—­μ˜ 색을 달리해 ν‘œν˜„ν•˜λŠ”λ°, μ—¬κΈ°μ—μ„œλŠ” λ²šκ½ƒμ΄ 처음 ν•€ μ‹œκΈ°λ§Œ λΆ„ν™μƒ‰μœΌλ‘œ ν‘œμ‹œν–ˆμŠ΅λ‹ˆλ‹€. X좕은 연도(year), Y좕은 일(day, 3~4μ›”)을 μ˜λ―Έν•©λ‹ˆλ‹€. 연도별, μΌμžλ³„ 데이터λ₯Ό νŒŒμ•…ν•  수 μžˆμ„ 뿐만 μ•„λ‹ˆλΌ μΆ”μ„Έμ„ (trend line)을 λ°”νƒ•μœΌλ‘œ λ²šκ½ƒ κ°œν™” μ‹œκΈ°κ°€ μ•žλ‹Ήκ²¨μ§€κ³  μžˆμŒμ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€.

λ‚˜μ•„κ°€ μ΅œκ·Όμ—λŠ” μ‹œκ³„μ—΄ 데이터λ₯Ό λ°©μ‚¬ν˜• μ„  차트(Radial Line Chart)둜 ν‘œν˜„ν•œ 사둀λ₯Ό 자주 λ³Ό 수 μžˆλŠ”λ°μš”. λ°©μ‚¬ν˜• μ„  μ°¨νŠΈλŠ” 일반적인 μ„  차트λ₯Ό λ™κ·Έλž—κ²Œ 말아 놓은 것과 같은 ν˜•νƒœμž…λ‹ˆλ‹€.

 

 μš”일별×μ‹œκ°„λ³„ μžμ „κ±° 이용 기둝 μ‹œκ°ν™”

μœ„ μ‚¬λ‘€λŠ” λ‚ μ§œ λ³€μˆ˜ 데이터 집산 κΈ°μ€€μœΌλ‘œ ‘μš”μΌ’κ³Ό ‘μ‹œκ°„’을 ν™œμš©ν•΄ 데이터 집산 κ²°κ³Όλ₯Ό λ°©μ‚¬ν˜• μ„  차트둜 μ‹œκ°ν™”ν•œ κ²ƒμž…λ‹ˆλ‹€. μ• λ‹ˆλ©”μ΄μ…˜ 효과λ₯Ό μ‚¬μš©ν•΄ μ›”μš”μΌλΆ€ν„° μΌμš”μΌκΉŒμ§€μ˜ 데이터가 μžλ™μœΌλ‘œ μ‹œκ°ν™”λ˜λ„λ‘ ν–ˆμŠ΅λ‹ˆλ‹€. μ‹œκ³„ λ°©ν–₯에 따라 μš”μΌλ³„ 데이터λ₯Ό μ°¨λ‘€λŒ€λ‘œ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€. 그뿐만 μ•„λ‹ˆλΌ μš”μΌλ³„ 데이터λ₯Ό μ‹œκ°„λŒ€λ³„λ‘œλ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. μ„ μ˜ ν˜•νƒœλ₯Ό 근거둜 주쀑과 주말의 데이터가 μ„œλ‘œ λ‹€λ₯Έ νŒ¨ν„΄μ„ λ³΄μ΄λŠ” 것을 μ‰½κ²Œ νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

μ‹œκ°„μ— 흐름에 λ”°λ₯Έ λ°μ΄ν„°μ˜ λ³€ν™”λ₯Ό μ• λ‹ˆλ©”μ΄μ…˜ 효과λ₯Ό μ‚¬μš©ν•΄ λ³΄μ—¬μ£ΌλŠ” κ²½μš°λ„ μžˆμ§€λ§Œ, μ‹œκ°„λ³„ κ°œλ³„ 차트λ₯Ό κ·Έλ¦° λ’€ ν•œ λ²ˆμ— λ‚˜μ—΄ν•˜λŠ” 방식도 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό μŠ€λͺ° λ©€ν‹°ν”Œμ¦ˆ(Small Multiples)라고 ν•˜λŠ”λ°μš”.

 

μ§€λ‚œ 30λ…„κ°„ λ―Έκ΅­μ—μ„œ λ°œμƒν•œ μ£Όμš” ν™μˆ˜ ν˜„ν™© μ‹œκ°ν™”

슀λͺ° λ©€ν‹°ν”Œμ¦ˆλž€ 같은 μ‹œκ°ν™” μœ ν˜•μ„ ν™œμš©ν•˜λ˜, μ‹œμ λ³„ ν˜Ήμ€ ν•­λͺ©λ³„λ‘œ κ°œλ³„ 차트λ₯Ό κ·Έλ¦° λ’€ λ‚˜μ—΄ν•œ κ²ƒμž…λ‹ˆλ‹€. μœ„ μ‚¬λ‘€λŠ” λ―Έκ΅­μ—μ„œ λ°œμƒν•œ 연도별 μ£Όμš” ν™μˆ˜ ν˜„ν™© 데이터λ₯Ό 슀λͺ° λ©€ν‹°ν”Œμ¦ˆλ₯Ό ν™œμš©ν•œ 지도 μ‹œκ°ν™”λ‘œ ν‘œν˜„ν•œ κ²ƒμž…λ‹ˆλ‹€. 연도별 데이터λ₯Ό κ°œλ³„ μ§€λ„λ‘œ ν‘œν˜„ν•œ λ’€ μ°¨λ‘€λŒ€λ‘œ λ‚˜μ—΄ν•΄ λ°°μΉ˜ν–ˆμŠ΅λ‹ˆλ‹€. μ‹œμ μ— λ”°λ₯Έ λ°μ΄ν„°μ˜ λ³€ν™”λ₯Ό μ§κ΄€μ μœΌλ‘œ 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

 
4. ‘숫자 λ³€μˆ˜’λ₯Ό ν™œμš©ν•œ 데이터 집산과 μ‹œκ°ν™”


μ•žμ„œ μ–ΈκΈ‰ν–ˆλ“― λ²”μ£Όν˜• λ³€μˆ˜μ˜ λŒ€λΆ€λΆ„μ€ ν…μŠ€νŠΈλ‚˜ λ‚ μ§œ ν˜•νƒœμ˜ 값을 κ°–μŠ΅λ‹ˆλ‹€. μ˜ˆμ™Έμ μœΌλ‘œ 숫자 ν˜•νƒœμ˜ 값을 가진 숫자 λ³€μˆ˜λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜λ‘œ ν™œμš©ν•΄ μ‹œκ°ν™”ν•˜λŠ” κ²½μš°κ°€ μžˆμŠ΅λ‹ˆλ‹€. μ΄λ•Œ 주둜 ν™œμš©ν•˜λŠ” μ‹œκ°ν™” μœ ν˜•μ€ νžˆμŠ€ν† κ·Έλž¨(Histogram)μž…λ‹ˆλ‹€. νžˆμŠ€ν† κ·Έλž¨μ€ μ–΄λ–€ λ³€μˆ˜μ— λŒ€ν•΄ ꡬ간(bin)별 λΉˆλ„μˆ˜λ₯Ό μ‹œκ°ν™”ν•œ κ²ƒμΈλ°μš”. 사둀λ₯Ό 톡해 μžμ„Ένžˆ μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.

 

 

 

 

2017λ…„ κ΅­λ‚΄ 인ꡬ수 데이터λ₯Ό ν™œμš©ν•΄ λ§Œλ“  3개의 νžˆμŠ€ν† κ·Έλž¨μž…λ‹ˆλ‹€. 숫자 λ³€μˆ˜μΈ λ‚˜μ΄λ₯Ό κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό μ§‘μ‚°ν–ˆμŠ΅λ‹ˆλ‹€. 같은 데이터λ₯Ό ν™œμš©ν•΄ λ§Œλ“  3개의 νžˆμŠ€ν† κ·Έλž¨μ€ 무엇이 λ‹€λ₯ΌκΉŒμš”? 연령을 λ‚˜λˆ„λŠ” λ²”μœ„λ₯Ό 1μ„Έ, 5μ„Έ, 10μ„Έλ‘œ λ‹¬λ¦¬ν–ˆμŠ΅λ‹ˆλ‹€. 0μ„ΈλΆ€ν„° 100μ„Έ 이상인 κ²½μš°κΉŒμ§€λ₯Ό μ‹œκ°ν™”ν•  λ•Œ, 1μ„Έλ₯Ό κΈ°μ€€μœΌλ‘œ ν•˜λ©΄ μ΅œμ†Œ 100개의 λ§‰λŒ€λ₯Ό 그리고, 1세별 인ꡬ수λ₯Ό λ§‰λŒ€μ˜ 길이둜 ν‘œν˜„ν•΄μ•Ό ν•©λ‹ˆλ‹€. 5μ„Έλ₯Ό κΈ°μ€€μœΌλ‘œ ν•˜λ©΄ 0μ„ΈλΆ€ν„° 4μ„ΈκΉŒμ§€μ˜ 데이터λ₯Ό ν•©μΉœ λ’€ ν•˜λ‚˜μ˜ λ§‰λŒ€λ‘œ ν‘œν˜„ν•˜κ²Œ λ˜λŠ”λ°, 이 경우 νžˆμŠ€ν† κ·Έλž¨μ—λŠ” 총 20개의 λ§‰λŒ€κ°€ ν‘œν˜„λ©λ‹ˆλ‹€. 10μ„Έλ₯Ό κΈ°μ€€μœΌλ‘œ ν•˜λ©΄ 같은 λ°©μ‹μœΌλ‘œ 데이터λ₯Ό 집산, κ·Έ κ²°κ³Όλ₯Ό 10개의 λ§‰λŒ€λ‘œ ν‘œν˜„ν•˜κ²Œ λ©λ‹ˆλ‹€.

 

즉, 연령별 인ꡬ수λ₯Ό μ‹œκ°ν™”ν•œλ‹€κ³  ν•  λ•Œ, μ—°λ Ήμ˜ λ²”μœ„λ₯Ό μ–΄λ–»κ²Œ ν•˜λŠλƒμ— λ”°λΌμ„œ μ„œλ‘œ λ‹€λ₯Έ μ‹œκ°μ  ν˜•νƒœλ₯Ό λ³΄μ΄λŠ” μ°¨νŠΈκ°€ λ§Œλ“€μ–΄μ§€λŠ” 것을 μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€.

 

 

νžˆμŠ€ν† κ·Έλž¨μ˜ ꡬ간(bin) λ²”μœ„(width)λ₯Ό 변경함에 따라 μ‹œκ°ν™”μ˜ νŒ¨ν„΄(λ§‰λŒ€μ˜ μˆ˜μ™€ 길이)이 달라진닀.

이처럼 숫자 λ³€μˆ˜λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜λ‘œ ν™œμš©ν•˜λ©΄ κ°œλ³„ κ°’ λ‹¨μœ„λ‘œ μ‹œκ°ν™”ν•  수 μžˆμ„ 뿐만 μ•„λ‹ˆλΌ 데이터λ₯Ό λ¬ΆλŠ” λ²”μœ„λ₯Ό κΈ°μ€€μœΌλ‘œλ„ μ‹œκ°ν™”ν•  수 μžˆλŠ”λ°μš”. 이λ₯Ό 데이터 λ³€μˆ˜μ˜ ꡬ간(bin, interval)을 μ„€μ •ν•œλ‹€κ³  ν•©λ‹ˆλ‹€. ꡬ간 값을 μ–΄λ–»κ²Œ ν•˜λŠλƒμ— λ”°λΌμ„œ νžˆμŠ€ν† κ·Έλž¨μ—μ„œμ˜ μ‹œκ°μ  νŒ¨ν„΄μ΄ 달라지고, 이λ₯Ό 근거둜 λ‹€μ–‘ν•œ 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 



μ§€κΈˆκΉŒμ§€ λ²”μ£Όν˜• λ³€μˆ˜μ˜ 데이터 집산에 λŒ€ν•΄ μžμ„Ένžˆ μ•Œμ•„λ³΄μ•˜μŠ΅λ‹ˆλ‹€. λ²”μ£Όν˜• λ³€μˆ˜μ˜ 데이터 집산은 데이터λ₯Ό μ—¬λŸ¬ 그룹으둜 λ‚˜λˆ„λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€. μ–΄λ–€ κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό λ‚˜λˆ„λŠ”μ§€μ— λ”°λΌμ„œ 같은 λ°μ΄ν„°λ‘œλ„ λ‹€μ–‘ν•œ μ‹œκ°ν™” 차트λ₯Ό λ§Œλ“€κ³  μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•  수 μžˆμŠ΅λ‹ˆλ‹€. 여기에 λ²”μ£Όν˜• λ³€μˆ˜μ˜ μ„ΈλΆ€ μœ ν˜•μ˜ νŠΉμ„±μ„ κ³ λ €ν•œ μ‹œκ°ν™” 차트λ₯Ό ν™œμš©ν•˜λ©΄ μΈμ‚¬μ΄νŠΈ λ„μΆœμ— λ”μš± νš¨κ³Όμ μž…λ‹ˆλ‹€.

 

λ²”μ£Όν˜• λ³€μˆ˜ κ°€μš΄λ° μ˜λ―Έμƒ 계측적 성격을 κ°–λŠ” 경우 계측 ꡬ쑰λ₯Ό μ§κ΄€μ μœΌλ‘œ νŒŒμ•…ν•  수 μžˆλŠ” μ‹œκ°ν™” μœ ν˜•μ„ ν™œμš©ν•©λ‹ˆλ‹€. 지역 정보λ₯Ό κ°–λŠ” λ³€μˆ˜λΌλ©΄, 지도 μ‹œκ°ν™”λ₯Ό μ΄μš©ν•˜λ©΄ λ”μš± νš¨κ³Όμ μž…λ‹ˆλ‹€. μ˜ˆμ™Έμ μœΌλ‘œ 숫자 λ³€μˆ˜λ₯Ό λ²”μ£Όν˜• λ³€μˆ˜λ‘œ ν™œμš©ν•  경우 νžˆμŠ€ν† κ·Έλž¨μœΌλ‘œ μ‹œκ°ν™”ν•˜λŠ” 것이 μΌλ°˜μ μž…λ‹ˆλ‹€. μ΄λ•Œ 데이터 μ§‘μ‚°μ˜ 기쀀이 λ˜λŠ” ꡬ간 λ²”μœ„λ₯Ό μ–΄λ–»κ²Œ ν•˜λŠλƒμ— 따라 μ„œλ‘œ λ‹€λ₯Έ μ‹œκ°μ  νŒ¨ν„΄μ„ λ³΄μ΄λŠ” 차트λ₯Ό 확인할 수 μžˆμŠ΅λ‹ˆλ‹€.

 

κ³„μΈ΅ν˜• 데이터 λ³€μˆ˜λ₯Ό ν™œμš©ν•œ μ‹œκ°μ  집산

ν•œ μ‹œκ°ν™” λ³΄κ³ μ„œμ—μ„œλŠ” 데이터 집산 κ²°κ³Όκ°€ μ‹œκ°ν™” κ²°κ³Όλ¬Ό ν˜•νƒœμ˜ λ³€ν™”λ‘œ μ΄μ–΄μ§€λŠ” 것을 ‘μ‹œκ°μ  집산(Visual Aggregation)’으둜 ν‘œν˜„ν–ˆμŠ΅λ‹ˆλ‹€. 데이터 μ‹œκ°ν™” 차트의 μ‹œκ°μ  νŒ¨ν„΄μ„ 근거둜 μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜λŠ” 것이 μ‹œκ°μ  λΆ„μ„μž„μ„ κ³ λ €ν•˜λ©΄, μ‹œκ°μ  집산을 ν™œμš©ν•œ 데이터 탐색과 μΈμ‚¬μ΄νŠΈ λ„μΆœμ„ μ‹œκ°μ  뢄석이라고 μž¬μ •μ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 쉽고 λΉ λ₯΄κ²Œ 데이터 μΈμ‚¬μ΄νŠΈλ₯Ό 찾을 수 μžˆλŠ” μ‹œκ°μ  뢄석을 ν•˜κ³ μž ν•œλ‹€λ©΄, μ‹œκ°μ  집산에 λŒ€ν•œ 이해가 ν•„μš”ν•˜λ‹€λŠ” 것을 μ˜λ―Έν•˜κΈ°λ„ ν•©λ‹ˆλ‹€.

같은 λ§₯λ½μ—μ„œ μ—¬λŸ¬ 데이터 μ‹œκ°ν™” μ†”λ£¨μ…˜μ— 데이터 집산을 μ‰½κ²Œ ν•  수 μžˆλŠ” κΈ°λŠ₯이 μžˆλŠ” 이유λ₯Ό μ‹œκ°μ  집산을 μœ„ν•œ 것이라고 μ„€λͺ…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 데이터 μ •μ œ κ³Όμ • 없이 집산 기쀀에 λ”°λ₯Έ κ²°κ³Όλ₯Ό λ°”λ‘œ μ‹œκ°ν™” 차트둜 확인할 수 μžˆμœΌλ‹ˆ, μ‹œκ°μ  뢄석을 ν•˜κ³ μž ν•˜λŠ” μ‚¬λžŒλ“€μ—κ²Œ 맀우 μœ μš©ν•©λ‹ˆλ‹€. μ‹œκ°μ  집산을 ν™œμš©ν•œ 데이터 λΆ„μ„μ—μ„œ ‘차트’λŠ” μš°λ¦¬κ°€ ν”νžˆ μƒκ°ν•˜λ˜ ‘보여 주기용’이 μ•„λ‹ˆλΌ 데이터λ₯Ό νƒμƒ‰ν•˜κ³  μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜κΈ° μœ„ν•œ ‘뢄석 방법’으둜 μ€‘μš”ν•œ 역할을 ν•©λ‹ˆλ‹€. 이 글을 톡해 μ—¬λŸ¬λΆ„μ—κ²Œλ„ ‘차트’κ°€ 데이터 뢄석을 μœ„ν•΄ ν•„μš”ν•œ μ‘΄μž¬κ°€ 됐길 바라며, ‘데이터 집산을 ν™œμš©ν•œ μ‹œκ°μ  뢄석’을 주제둜 ν•œ λ§ˆμ§€λ§‰ 글을 λ§ˆλ¬΄λ¦¬ν•©λ‹ˆλ‹€.

λ°˜μ‘ν˜•