통계학: 자료 시각화하기
학습단위 1: 대량의 자료를 사용해 감각 만들기: 자료 시각화의 미(美)
우리는 정보 과부하나 자료 과다로부터 비롯된 모든 괴로움에 있는 것을 느낀다.
좋은 소식은 그것에 대한 쉬운 해결이 있을지도 모른다는 것이고, 그것은 우리의 눈을 더 사용하는 것이다. - David McCandless
From TED:
2010 TEDTalk “David McCandless: 자료 시각화의 미(美)”를 보라. 정보 시대에서, “자료는 새로운 토양이다”, 라고 David McCandless는 선언한다. 저널리스트에서 디자이너에 이르기까지 이 토양에서 - 그것이 군용으로 쓰이는 것이거나 Facebook 상태를 업데이트 하는 것이든지 - 놀라운 방법으로 뒤섞인 정보를 시각화하여 수집하는 일을 한다.
주요 키워드: |
|
절대 량 Absolute quantities |
절대량은 조절 없이, 원본 척도로 측정되어 진다. 예를 들어, 국가에서의 군대에서 쓰이는 절대 량은 국가에서 군용에서 소비한 전체의 dollar 총액이다. “absolute 절대"라는 것은 상대 량과 구별된다. |
상대 량 Relative quantities |
상대적인 분량은 합계의 백분율과 같은 양으로 주어진다. 우리는 어떤 전체 총액으로부터 절대 값의 분량을 나누는 것에 의한 상대적인 분량을 찾는다. 예를 들어, 국가에서의 군용 소비에 대한 상대적인 분량은 국가에서의 소비 합계의 백분율에 있을 것이다. 예를 들어, 국가에서의 군용 소비를 위한 상대평가의 분량은 국가에서 군용에 대해 소비했던 것에서 전체의 소비에 대한 백분율에 있을 수 있다. 우리는 국가의 예산 합계로부터 절대 값을 나누는 것에 의한 상대 량을 찾는다. |
Per capita |
라틴어의 표현은 “per person 사람에 따라서”를 의미하는 것. 연구 과제 문제 #3의 아래를 보라. |
자료 모으기 Scraping data |
web에서 하나 이상의 출처로부터 자료를 발췌하고 더 쉽게 분석되어지는 형식에 그것을 재구성하라. |
자료 조사하기 Data mining |
거대한 데이터 셋들에서 패턴, 그리고 다른 흥미로운 현상을 발견하라. |
풍선 진행 도표 Balloon race diagram |
풍선의 높이에서 자료를 표시하는 것의 방법은 하나의 변수를 표시하고, 왼쪽에서 오른쪽 풍선의 위치는 다르게 표시할 수 있고, 풍선의 크기는 다른 변수를 표시하고, 표시는 시간이 지나며 변화한다. 또한 추가의 변수에 의한 색-부호화가 있을 수도 있다. 이것은 또한 동작 도표나 역동적 기포 도표라고도 불려진다(뒤따르는 Hans Rosling에 의한 TEDTalk를 보라). |
연구 과제 문제:
1. McCandless는 정보 과부하, 회의론, 신뢰의 붕괴, 투명도와 신뢰도의 결핍을 포함한, 우리 사회에 정보 문제가 많이 있다고 생각한다. 가장 효과 있는/있을 문제가 되는 것이 어떤 것이라고 생각하는가?
2. 영양 보충에 대한 그의 정보도표를 디자인하기 위해서, McCandless를 1,000개 의 의학 연구에 대해 재고하고 시각을 디자인하는 것에 한 달이 걸렸다. 이 놀라운 노력의 수준에 대해서, 그것이 가치라고 생각하는가? McCandless의 웹사이트에서 인터렉티브 버전을 시험해보라.
Snake Oil
http://www.informationisbeautiful.net/visualizations/snake-oil-supplements/
무엇이 마음을 끌거나 놀라게 하는가? 어떤 것이든 사용자 경험을 향상시키기 위해서 변화하게 하는가? 간단 리뷰를 써 보아라.
3. McCandless에 의해 제공된 시각의 많은 것이 숫자를 표시하는 모양은 2차원 영역을 사용한다. 예를 들어, 그의 “10억 Dollar o-Gram"은 직사각형의 영역과 같은 매우 큰 dollar 총액을 표시한다. 대륙으로부터의 인구에 대한 아래의 자료를 고려하라.
대륙 |
인구수 (Billions) |
아시아 |
4.22 |
아프리카 |
1.07 |
북/남 아메리카 |
0.94 |
유럽 |
0.74 |
오세아니아 |
0.04 |
4. 정사각형의 영역과 같은 각각의 대륙의 인구를 표시하는 두 가지 도표를 만들라 (이 도표는 쉽게 손으로 만드나, 더 큰 자료집합을 위해서는 기술이 도울 수 있다!)
a) 서로의 옆에 각각의 대륙을 위한 정사각형을 표시하라
b) 서로의 안쪽에 차례로 끼워 정사각형을 배치하라(McCandless에 의해 사용된 “Sensory Bandwith" 시각에 유사한 것).
5. 자료를 표시하는 것에 가끔 다양한 방법이 있고, “최선”의 방법은 가끔 어떠한 주어지는 데이터셋에 대한 의견의 문제를 제시하는 것이다. 대륙 인구에 대한 자료의 두 가지 추가적 디스플레이를 고려하라, 막대도표(c)와 파이차트(d).
당신의 견해로 본다면, 어떤 그래프(a, b, c or d)가 가장 효과적으로 정보를 표시하는가?
이 자료를 위한 다른 시각 디스플레이에 대해 생각할 수 있는가?
6. MacCandless는 얼마나 절대 값의 숫자(군용 예산과 각 국가의 상비 군대와 같 은)가 오해하게 할 수 있는지를 보여준다. 가끔 그것의 GDP에 대한 백분율처럼 국가의 군용 예산과 같은 상대적인 숫자, 또는 전체의 인구에 대한 백분율 같은 군대 는 더 의미가 있다. 상세하게, 절대 값의 분량은 사람들에 대한 전체의 숫자에 의해 나눌 때 사람들의 집단을 묘사하는 것에 더 의미 있을 수 있다; 라틴어의 표현 per capita(거칠게 번역하여 “사람에 따라서”)는 가끔 그러한 상대적인 분량을 묘사하는 것에 사용되어진다.
아래에 각각의 분량이 얼마나 더 의미 있는 상대적인 비교를 위해 허락하는 것에 기준화될 수 있는지 묘사하라. (하나 이상의 조건에 맞는 답이 있을 수 있다!)
a) 리터(liter)로, 국가 안에서 날마다 소비된 커피에 대한 전체의 총액
b) 핸드폰 사용자가 가진 부재중 전화에 대한 전체의 숫자.
c) 사람들이 자선에 기부한 돈에 대한 전체의 총액.
d) 농구 선수가 만드는 자유 투구에 대한 전체의 숫자.
7. McCandless는 절대 값의 숫자는 상대적인 숫자처럼 뜻이 있지 않다고 말하고 그는 군용 소비에 대한 자료와 그의 점수를 만드는 것에 군대 크기를 사용한다[10:26]. 당신은 매체에서 보고된 가장 큰 숫자에 대해 어떻게 생각하는가? 당신이 얼마나 매체가 더 높은 교육에 대한 통계학을 보고하는지를 고려할 때, 절대 값과 상대적인 숫자가 다른 결론을 끌어내는 것에 사람들을 얼마나 이끄는지에 대한 예가 있는가? 몇몇을 조사하고, 예를 찾아내고, 객관적으로 보고한 집합에서 표시를 디자인하라.
8. 그들의 전후관계를 반영하는 방법으로 데이터의 자료가 돕는다. 예를 들어, McCandless는 국가의 군대의 크기를 설명하는 것에 장난감 군인의 크기 사용한다. 그는 또한 US 경제의 상대적인 크기를 설명하는 것에 대한 미국 대륙의 영역처럼 독일, 영국, 중국 그리고 일본의 GDP를 표시한다. 이러한 시각화는 표준 도표가 하지 못하는 방법에서 자료의 전후관계에 직접 연결한다.
국가, 국토, 도시, 등에 대한 자료 상황을 설명하는 것에 좋은 방법은 지도를 사용하는 것에 있다. 예와 마찬가지로, 우리는 지도에서 몇몇의 남미 국가의 per capita GDP를 표시하는 것에 Google에 의한 토지 도표 시각화 도구를 사용할 것이다. 이 단계를 따르라:
a) Internet browser에서 Google Code Playground를 열어라:
https://code.google.com/apis/ajax/playground/?type=visualization#geo_chart
b) 부호화 영역 수정에서, 아래에 본문을 복사하고 붙여넣으라.
function drawVisualization() {
var data = google.visualization.arrayToDataTable([
['Country', '2011 GDP per Capita (US $)'],
['Argentina',10941],
['Bolivia', 2421],
['Brazil',12594],
['Chile',14394],
['Columbia',7067],
['Ecuador',4569]
]);
var options = {region: '005', displaymode: 'region', heig ht: 650};
var geochart = new google.visualization.GeoChart(
document.getElementById('visualization'));
geochart.draw(data,options);
}
c) 연속 부호 단추를 누르라. per capita GDP에 의해 색-부호화된 남미의 상호작용 지도는 window 출력에서 나타날 수 있다. 당신이 당신의 cursor를 국가 위에 움직일 때, 국가의 per capita GDP가 나타날 것이다.
d) 위에 도표는 불완전하다. Peru, Paraguay, Uruguay 그리고 Venezuela의 per capita GDP를 포함한 것 또한 그 이상으로 부호를 수정하라. 세계 은행으로부터의 2011 per capita GDP에 대한 자료를 사용하라.
http://data.worldbank.org/indicator/NY.GDP.PCAP.CD.
e) (임의의) 여기 지침을 읽어라:
https://developers.google.com/chart/interactive/docs/gallery/geochart.
그 다음에, 당신을 흥미롭게 하는 자료로부터 당신만의 토지도표를 만들어라!
더 많은 읽기와 관련 자료
•. David McCandless http://www.davidmccandless.com/ •. McCandless, D. (2009). The Visual Miscellaneum: A Colorful Guide to the World’s Most Consequential Trivia. New York: Harper Design. •. Fleming, J. (Host) and McCandless, D. (Interviewee). (2011). To The Best of Our Knowledge: TMI? [Audiobook]. Wisconsin Public Radio. •. Yau, N. (2011). Visualize This: The FlowingData Guide to Design, Visualization and Statistics. London: Wiley. •. Few, S. (2010, March/April/May). “Our irresistible fascination with all things circular.” [critique of McCandless’s “Colours in Cultures” infographic]. Visual Business Intelligence Newsletter. •. Few, S. (2007). Information Dashboard Design: The Effective Visual Communication of Data. California: O’Reilly Media. •. FastCompany: Infographic of the Day http://www.fastcodesign.com/section/infographic-of-the-day •. Interactive Things: Datavisualization.ch http://datavisualization.ch/ •. Visual.ly http://visual.ly/ •. Google Developers: Google Chart Tools https://developers.google.com/chart/interactive/docs/index |
강의 자료 영문 출처 : http://www.wiley.com/WileyCDA/Section/id-814251.html
번역 : 김지희 교육조교(숙대 음악치료대학원) 번역감수: 이지선 교수(숙대 시각영상디자인학과)
관련 TED 강의 모음 링크 : http://www.ted.com/playlists/56/making_sense_of_too_much_data.html