Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

Contents

1000마디의 말보다 한장의 그림!!

경험과 지혜에서 엑기스를 뽑아낸 다음 (구전을 통해서) 전승하기 쉽게 압축한게 격언이다. 데이터 시각화가 왜 필요한지를 가장 잘 나타내는 격언은 1000마디의 말 보다 한장의 그림이 더 많은 것을 보여준다일 것이다.

1973년 통계학자인 Francis Anscombe 의 시연은 데이터 그래픽화의 중요성을 보여준다. Anscombe's Quarrtet는 통계적 특성이 같아 보이는 데이터가 정작 그래프[[FootNote(함수를 좌표평면에서 처음으로 그래프로 나타내려고 한 사람은 프랑스의 수학자 데카르트 -1596년 3월 31일 ~ 1650년 2월 11일 -이다. 수를 그래프상의 점으로 방정식을 기하학적인 도형으로, 혹은 도형을 방정식으로 나타내는 해석기하학을 발전시켰다.)]]를 그려보면, 전혀 다른 데이터라는 걸 알 수 있다.

Anscombe's Quartet Data Table
Data Set A Data Set B Data Set C Data Set D
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.16 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Ansombe's Quartet 테이블을 분석한 결과다.
Property Value
각 데이터셋의 Mean of x 9
각 데이터셋의 Variance of x 11
각 데이터셋의 Mean of y 7.50
각 데이터셋의 Variance of y 4.122 or 4.127
Correlation between x and y in each data set 8.816
Linear regression line for each data set y = 3.00 + 0.500x
Anscombe's Quartet 테이블을 그래프로 나타낸 그림

통계적인 방식으로 분석한 결과는 모든 테이블이 비슷비슷한 정보를 가지고 있는 것으로 나왔다. 반면 이것을 그래프형식으로 시각화 하자, 테이블의 차이점이 분명히 들어난다. 시각화의 힘이다.

데이터 시각화의 유명한 활용 사례 하나 더

1854년 런던에는 콜레라가 유행했으며, 이로인해 600명 이상이 생명을 잃었다. 이때까지 질병에 대한 지배적인 견해는 하수구나 늪의 부패에 의한 독성기체 때문에 콜레라가 발생한다는 miasma theory였다.

John Snow는 콜레라가 런던 시내의 Broad Street와 Golden Square 주변의 특정 지역에 국한되어 발생한다는 것에 주목했다. 이에 환자들을 지도에 점으로 표시하고 그 결과 사망자의 대부분이 Broad Street 주변의 Southwark & Vauxhall 회사에서 공급한 물을 마시고 있다는 공통점을 발견했다. 이에 독성기체가 아닌 오염된 음식물과 같은 특정 물질에 의해서 germ theory 를 주장했다. Germ theroy는 현미경을 통해서만 볼 수 있는 미생물이나 유기체가 몸안에 들어옴으로서 병이 생긴다는 이론으로 miasma theory와는 큰 차이가 있었다. 물론 많은 사람들의 비판을 받았다.

이에 John Snow는 자신의 가설을 검증하기 위해서 추가적인 연구를 진행한다. 즉 지도상에 회사의 상수도와 펌프, 사망자를 표시해서 도표를 만들어서 분석한다. 결국 Southwark & Vauxhall 회사의 물을 마신 주민의 사망률이 현격히 높은 것을 발견하고, 문제가 되는 하수도와 펌프를 폐쇄하는 것으로 콜레라의 전염/확산을 막았다.

http://www.dashingd3js.com/assets/643px-John-Snow-cholera-map-1-4fcd090a4d0a6b1b024f9c90ed97ba99.jpg

이 작업은 최초의 현대적인 역학조사로 평가 받는다.

데이터의 현재와 미래

우리는 데이터의 홍수 속에 살고 있으며, 매일 매일 엄청난 양의 데이터가 만들어진다고 한다. 하지만 얼마나 많은 데이터가 만들어지는 지는 실감하기가 쉽지 않다. 아래 인포 그래픽은 2012년 런던 하계 올림픽기간 동안 얼마나 많은 데이터가 만들어졌는지를 보여준다.

http://www.dashingd3js.com/assets/2012_olympics_big-data-infographic-d945b622773fdffe05de413a400492a1.png

한번의 이벤트로 만들어지는 데이터가 대략 저러하다.

데이터는 새로운 석유

참고

  • http://www.dashingd3js.com/why-data-visualizations
  • http://blog.naver.com/PostView.nhn?blogId=kim_dae_hee&logNo=20125151954
  • http://preview.britannica.co.kr/bol/topic.asp?mtt_id=50104