통계학: 자료 시각화하기
학습단위 2: 자료 이동하기 - 당신의 세계관을 바꾸는 통계학
스웨덴의 수석 학생들은 침팬지보다 못하게 세계에 대하여 더 낮게 통계적 유의도를 이해한다. – Hans Rosling
From TED:
2006 TEDTalk “Han Rosling: 한스 로슬링이 이제껏 보지 못했던 최고의 통계를 보여준다.”을 보라. 통계학 권위자 Han Rosling은 공적자금를 자유롭게하고 에니메이션(움직여서 보여주는) 것에 대한 사명을 가지고 있다. 이러한 경이로운 대중적이고 장난스런 TEDTalk, Rosling의 상호작용의 묘사는 세계를 개발하는 것에 대한 신화를 폭로하는 아동의 사망률, 출생률, GDP과 더 많은 다른 자료의 수 십년간 을 활성화여 보여준다.
주요 키워드: |
|
산점도 Scatterplot |
두 수의 변수를 위해 자료를 도표에 표시한다. 도표는 각각의 변수에 대한 하나의, 적합한 수의 척도와 함께 축의 한 쌍을 포함한다. 각각의 사례를 위해 짝지은 자료는 산점도(scatterplot) 위에 점과 같이 분할된다. 색-부호화(coding)는 또한 자료에 대한 추가의 면을 표시하는 것에 사용되어지곤 한다. |
버블 차트 Bubble chart |
각각의 작은 점의 면적인 산점도(scatterplot)은 세 번째 수의 변수에 대해 비례한다. |
모션차트 Motion chart |
역동적 산점도(scatterplot) 또는 버블차트가 시간에 따라 어떻게 자료가 변하는지를 보여준다. |
신뢰구간 Confidence interval |
구간은 알 수 없는 값을 포함하는 것에 대해 우리가 예정한 표본 자료로부터 계산되었다. 신뢰구간은 시간에 의해 명세서에 기입된 몫인 (보통 95%) 실재 값을 획득할 방법으로 사용하는 것으로 구성되어진다. |
통계상 유의도 Statistically significant |
자료로부터 관찰된 효과는 단일의 랜덤 기회로부터 발생되는것과는 다르다는 것을 가리킨다. |
연구과제 문제:
1. Rosling이 아동 사망률과 세계를 개발하는 것에 대한 그의 학생들의 이해에 대해 이야기할 때, 그는 “무지가 문제가 아니라; 그것은 편견 때문이였다.”는 문제를 말한다. 그가 그의 학생들에게 주었던 시험의 결과는 이것을 어떻게 뒷받침 하는가?
2. Rosling은 인터넷상의 “자유롭고” 그리고 “에니메이션 되는” 공적자금에 대한 열의에 찬 옹호자이다. 인터넷상에서 비교되어 있수 있는 (교육, 보건, 식품 생산, 환경 등) 하나 선택하고, 인터넷의 이러한 영역에서 당신의 생각하기에 이러한 영역에 대하여 가장 좋은 출처라고 정하라. 이러한 출처의 목록에 대한 가이드를 창조하고 각각에 대한 간결한 리뷰를 제공하라.
만약 이러한 자료 저장소의 관리자가 어떻게 모바일 장치 또는 사회 매체를 통하여 사용자가 데이터가 관여하는지를 생각하고 있다면, 리뷰에 이것을 기록하라. 만약 현재 관리자가 이러한 영역에서 어떠한 것도 하지 않고 있다면, 모바일 장치와 사회 매체가 사용자의 경험을 향상할 수 있을지에 대해 당신은 어떻게 생각하는가?
3. Rosling의 Gapminder World software에서 국가의 자원과 보건 도표를 열어라. 이 도표를 단순화하기 위하여, 오른쪽의 모퉁이 밑바닥에서 ‘Size’ 탭 아래의 ‘One Size’를 선택하라. 2011년 에 대한 자료를 표시하는 도표가 만들어짐을 명심하라. (연도는 도표의 바닥에서 슬라이더를 사용하여 변화시킬수 있다.)
이것은 두 가지 수의 변수(생활 기대 값과 1인당 GDP)를 위해 자료를 표시한, 산점도(scatterplot)에 대한 보기이다. 도표는 각각의 변수를 위한 하나의, 적합한 수의 척도와 함께 축의 한 쌍을 포함한다. 각각의 국가를 위해 짝지은 자료는 흩뿌려진-도면 위에 점과 같이 위치가 결정되어진다.
국가의 이름을 표시한 도표에서 점 위의 표시화면 내용을 순차적으로 올려라.
a) 어떤 국가가 2011년에 최저의 1인당 GDP를 가졌는가?
b) 어떤 국가가 2011년에 가장 높은 생활 기대 값을 가졌는가?
c) 일반적으로, 높은 1인당 GDP를 가진 국가는 더 높거나 더 낮은 생활 기대 값을 가지는 경향이 있는가?
4. 도표 위쪽의 오른쪽 구석 아래에서 ‘Size’ 태그 아래에, ‘지표’ -> ‘인구’ -> ‘인구, 합계’ (‘Indicators’ -> ‘Population’ -> ‘Population, total’) 를 선택하라. 현재, 각각의 작은 점의 영역이 국가의 인구 총합과 비례한다. 각각의 작은 점의 영역과 같은 (인구) 새로운 변수를 포함하는 것으로 부터, 우리는 버블차트를 만들었다.
a) 어떤 국가가 2011년에 더 큰 인구를 가졌는가?
b) 만 달러보다 큰 1인당 GDP를 가진 어떤 국가가 2011년에 더 큰 인구를 가졌는가?
5. 1800년부터 현 시대까지 자료가 얼마나 변하는지를 보기 위해 도표의 왼쪽 아래에서 ‘Play’ 아이콘을 클릭하라. 이 모션차트는 한 번에 몇몇의 변수 (기대 수명, 1인당 GDP, 인구, 시간) 사이에 관계를 탐험하는 것에 우리를 허락한다.
a) 어떤 국가가 1900년부터 1929년까지 가장 높은 1인당 GDP를 가졌는가?
b) 일반적으로, 1800년부터 2011년까지 기대 수명은 증진하거나 감소하는 경향이 있는가?
c) 일반적으로, 1800년부터 2011년까지 인구는 증가 또는 감소한 경향이 있는가?
d) 이 도표는 지나간 200년에 이르는 자원과 보건에 대한 많은 정보를 전달한다. 당신이 특히 흥미롭거나 놀랍게 찾은 도표에서의 정보에 대한 한 부분은 무엇인가? (옳고 그름의 답이 없다.)
다음 연구과제 문제는 신뢰구간과 통계 유의도를 소개한다. 이것은 통계학에서 중요한 개념이고, 충분히 이해하는 것에 시간을 취할 수 있다. 만약 당신이 더 배우는 것에 흥미롭다면, 아래에 추가의 출처를 조사하여 확인하라.
6. Rosling은 5가지 문제로 이루어진 하나의 퀴즈를 수업에 주고, 이 학생들이 1.8점의 옳은 문제에 대한 평균을 얻는다. 만약 Rosling이 이 수업에서 학생의 다른 한 조에게 같은 퀴즈를 준다면, 그들의 평균 점수가 다시 정확하게 1.8점이 될 가망은 없다. 약간 더 높거나 약간 더 낮을 수 있다. 우리는 자료에서의 변이성이 있는 민감한 결과를 어떻게 측정할지에 신뢰구간(CI)을 사용할 수 있다. 표시는
우리가 실재 평균 점수(말하자면, 전 세계의 보건에 대한 스웨덴의 대학생 초기 교육과정에 있어서)가 1.4점과 2.2점 사이의 어딘가에 있다는 것을 제외할 수 있다는 것을 우리에게 말한다. 전형적으로, 이러한 것과 같은 신뢰-구간은 시간에 대한 실재 값 95%를 획득할 방법을 사용하는 것으로 구성되어지고, 우리는 이 구간 안에 있는 실재 평균인 “95% 신뢰”가 있다.
a) 신뢰-구간 위에 기초하여, 스웨덴의 학생이 이러한 다섯 가지 문제가 주어졌을 때 무작위로 추측하는 것이 가능한가? (무작위 추측하는 것이 2.5의 평균 점수에서 결과로서 일어나는 것을 기록하라)
b) 가능하다고 생각되는 투표자의 작은 조사에 기초하여, 정치의 후보자를 위해 투표하는 것을 계획하는 사람들의 백분율을 위한 신뢰-구간은 52%±5%이다. 모든 가능하다고 생각되는 투표자들이 후보자를 위해 투표하는 것에 대한 계획의 반(50%)보다 더 적을 것 같은가? 모든 가능하다고 생각되는 투표자들이 후보자를 위해 투표하는 것에 대한 계획의 75%보다 더 많을 것 같은가?
7. Rosling은 스웨덴의 학생이 “통계상 유의성이” 그의 퀴즈에서 침팬지보다 나쁘다는 것을 말한다. 우리는 결과가 랜덤 기회로부터 일어나는 결과와 같지 않다면 통계상 유의하다고 말한다. 그리고, Rosling은 만약 학생이 랜덤 (침팬지와 같이) 추측하고 있다면 그들의 평균 점수가 그렇게 낮을 가망이 없다고 말하고 있다.
통계상 유의도의 개념은 신뢰-구간(문제 4 위쪽에 (a) 부분을 보라)에 관계가 있다. 또한 정확히 어떻게 단지 무작위 기회로부터 일어나는 것에 대한 결과가 있는 가망 없는 결정을 하는 것에 도움이 된다. 우리는 Rosling의 퀴즈 자료를 위해 이것을 할 수 없을 것이지만, 그 대신 다른 예를 숙고한다:
개는 그의 소유자와 닮을까? 실험의 참가자는 두 개의 사진과 함께 개의 소유자의 사진을 보게 되었다 - 소유자의 개와 연구로부터 무작위 선택된 다른 개. 연구에서 25마리의 개의 소유자를 포함하여, 사진에 기초한 그들의 개와 함께 그들에 대해 16명의 참가자를 바르게 짝지었다.
이 연구는 참가자가 무작위 추측하는 것보다 더 나은 통계상 유의한 증거를 주는가? 만약 참가자가 무작위 추측되어지는 것이 그들의 선택이 동전의 공중제비와 같다면: 그들이 반시간은 옳을 것이고 그들이 반시간은 틀릴 것이다. 그들이 무작위 추측으로부터 16개 또는 25개 이상을 맞추는 것은 가능하고, 우리는 단지 이것이 무작위 추측 아래 결과를 가장하는 것으로부터 얼마나 가능하다고 생각하거나 가망 없다는 것을 결정할 것이다. 아래에 단계를 계속하라:
a) 웹 applets StatKey를 열어라. 그리고, ‘무작위화 가설 시험Randomization Hypothesis Tests’ 아래 applet ‘단 하나의 비율을 위한 시험Test for a Single Proportion’을 열어라. 연구 위쪽으로부터 자료가 스크린의 오른쪽에 나타날 수 있다. 바르게 선택한 비율이 16/25 = 0.640 였던 사람을 기록하라.
b) ‘사례 1 산출하기’ 단추를 클릭하라. 이것은 만약 참가자가 무작위 추측했다면, 스크린의 오른쪽에서 ‘무작위화 사례’ 아래 주어진 결과로 일어났다고 할 수 있는 다른 데이터 셋을 산출한다. 어떤 비율을 이 시뮬레이트된 데이터 셋에서 바르게 선택할 것인가?
c) 실재 결과가 얼마나 가망 없는지를 결정하기 위하여, 우리는 무작위 추측 아래에 많은 가능한 데이트 셋을 가장하는 것이 필요하다. ‘1000개 사례 산출하기’를 클릭하는 것으로부터 이것을 하라. 이러한 가장된 데이터 셋의 각각에서 바르게 추측한 사람의 비율은 도표에서 보여주는 작은 점과 같이 주어진다(그러므로 1000개의 작은 점이 있다). 0.640 또는 더 많은 비율에서 결과된 이러한 자료집합의 많은 것이 얼마나 바르게 추측하는지를 결정하는 것에, 잘려-나간 수와 같은 0.640에 들어간 수평 축 아래 파란 상자에서, 도표의 꼭대기에 ‘오른쪽 꼬리’를 대조하라. 0.640이거나 더 많은 것의 비율에서 결과된 1000개의 가상의 비율은 파랑 상자 위쪽에서 주어진다.
0.640이거나 더 많이 바르게 추측된 것의 비율에서 결과된 가상의 비율은 무엇인가?
d) 당신의 분석 위에 기초하여, 당신은 이 실험에 대한 결과가 통계상 유의하다고 생각하는가? 왜 그렇거나 왜 그렇지 않은가?
관련 자료
• Rosling, H. (2007). Visual technology unveils the beauty of statistics and swaps policy from dissemination to access. Statistical Journal of the IAOS, (24)1-2, 103-104.
• Schell, O., Reilly, M., Rosling, H. Peterson, S. and Ekstrom, A.M. (2007). Socioeconomic determinants of infant mortality: A worldwide study of 152 low-, middle- and high-income countries. Scandanavian Journal of Public Health, 35(3), 288-297.
• Grimes, S. (2007, January 1). Breakthrough analysis: Make your data tell a story. Information Week.
• Suarez, R. (Host). (2012, January 30). Hans Rosling brings life, humor, sword-swallowing to global health statistics. In PBS NewsHour. MacNeil/Lehrer Productions.
• The Economist Technology Quarterly (2010, December 9). Brain scan: Making data dance.
• Baron, A. (Producer) and Hillman, D. (Director). (2010). The joy of stats [Documentary].
• Fjällström, P. (Director). Rosling’s world [Documentary].
• TED (Producer) and Rosling, H. (Presenter). (2012). Hans Rosling: Religions and babies [Video].
• TED (Producer) and Rosling, H. (Presenter). (2007). Hans Rosling: New insights on poverty [Video].
• Lock, R.H., Lock, P.F., Lock Morgan, K., Lock, E.F. & Lock, D.F. (2012). Statistics: Unlocking the Power of Data. London: Wiley.
• Google Public Data Explorer http://www.google.com/publicdata/directory
강의 자료 영문 출처 : http://www.wiley.com/WileyCDA/Section/id-814251.html
번역 : 김지희 교육조교(숙대 음악치료대학원) 번역감수: 이지선 교수(숙대 시각영상디자인학과)