Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1598-1363(Print)
ISSN : 2465-8138(Online)
Han-Character and Classical written language Education No.42 pp.119-138
DOI : https://doi.org/10.15670/HACE.2017.42.6.119

Reviewing Studies on Classical Chinese Education Using Statistical Methods

Bak, Sang-u*
*Ph.D student, Korean education at Korea National University of Education(ABD), Republic Of Korea / E-mail :
2017년 02월 19일 2017년 05월 18일 2017년 05월 27일

Abstract

The researcher of classical Chinese education looks at the overall problem, task and actual condition of the education and chooses the appropriate method to solve it. These research methods are divided into qualitative research methods and quantitative research methods.
In the area of classical Chinese education research, the start of the discussion on the research methodology and the practical research using the research method have not been long. Especially, in the area of classical Chinese education research, quantitative research using statistics is still insufficient until recently. However, the current situation in which research using quantitative research methods is constantly reported to academia is noteworthy even in such an environment. This is an evidence of the growing awareness that scientific and objective statistical outcomes are important in educational research. However, as the number of studies using statistical methods increases, problems such as inaccurate research design, analysis of incorrect statistical results and errors in interpretation are increasing.
The purpose of this study is to analyze the application of statistical methods, one of the quantitative research methods, to the study of classical Chinese education. In particular, we will discuss basic conceptual errors that often occur, from research design to analysis of statistical results. This process will provide a developmental direction for future research using quantitative research methods.

통계 방법을 적용한 한문교육 연구 검토 - 통계의 기본 개념을 중심으로 -

朴相雨*
*대한민국, 한국교원대학교 국어교육과 한문교육전공 박사과정 수료 / E-mail : dexterous82@gmail.com

초록

한문교육 연구자는 한문교육 전반에 걸친 여러 문제점, 과제, 실태 등을 살피고 이를 해결하거나 파악하기 위해 적절한 연구 방법을 선택하여 적용 및 활용한다. 이러한 연구 방법은 질적 연구 방법 과 양적 연구 방법으로 나뉜다.
한문교육 연구 영역에서 연구 방법에 대한 논의의 시작과 다양한 연구 방법을 활용한 한문교육 연구의 실질적인 시작은 그다지 오래되지 않았다. 특히나 한문교육 연구에서는 최근까지도 통계를 이용하는 양적 연구가 매우 부족하다. 그러나 이러한 환경 속에서도 양적 연구 방법을 통한 연구 결과가 지속적으로 학계에 보고되는 현 상황은 주목할 만하다. 이는 교육 연구에서 과학적이고 객관 적으로 도출되는 통계적 결과가 중요하다는 인식 증가의 방증(傍證)이다. 다만 통계 방법을 활용한 연구가 증가하는 만큼 부정확한 연구 설계, 통계 결과의 분석과 해석 오류 등의 문제점 또한 늘고 있다.
이 연구에서는 양적 연구 방법 중에서도 통계 방법이 한문교육 연구에 적용된 현상을 분석하고자 한다. 특히 연구 설계부터 통계 결과를 분석하는 과정에 빈번히 드러나는 기본 개념 오류에 대해 논의하여 향후 양적 연구 방법을 활용한 연구에 발전적 방향을 제시해 보고자 한다.

 Ⅰ. 서론

한문교육 연구자는 한문교육 전반에 걸친 여러 문제점, 과제, 실태 등을 살피고 이를 해결하거나 자세히 파악하기 위해 적절한 연구 방법을 선택하여 적용 및 활용한다. 연구 방법은 크게 두 가지로 나뉜다. 질적 연구 방법과 양적 연구 방법이 그것인데, 이 두 명칭은 연구 대상으로부터 얻게 되는 자료나 그것을 분석하여 결과를 도출하는 방법이 가지는 특성의 차이를 분명하게 드러낸 다. 요컨대 양적 연구 방법은 말 그대로 표본 집단의 관찰 가능한 행위를 계량화하여1) 통계적 기법을 통해 수집․분석한 후 결론을 도출해 내는 것을 통칭한다. 반대로 질적 연구 방법은 양적 연구와 인식론적으로 대(對)를 이루는 연구 방법 또는 태도들을 아우르는 것이라고 정리할 수 있다. 이러한 연구 방법은 연구 문제와 과제를 해결해나가는데 연구 목적과 연구자의 의도, 연구 대상, 연구의 특성에 따라 적절하게 선택하는 것일 뿐 우열의 관계로 파악하여 연구 방법의 종류를 취사(取捨)할 것은 아니다.

연구 방법을 연구에 적용 및 활용하는 것은 ‘탄탄한 연구 설계’부터 ‘연구 주제에 적확한 결과의 도출’을 위해 필수적이다. 특히나 인간을 연구하는 교육 연구에서 연구 방법을 활용하는 것은 교육 환경 안에서 인간의 변화와 반응을 살피고, 변화와 반응의 원인과 결과, 상호작용 등을 수집하 고 분석하는 모든 과정의 중심이라고 할 수 있다. 한편, 이러한 연구 방법의 중요성에도 불구하고 한문교육 연구 영역에서 연구 방법에 대한 논의의 시작과 ‘다양한’2) 연구 방법을 활용한 한문교육 연구의 실질적인 시작은 그다지 오래되지 않았다. 이러한 현실은 동일한 연구 주제나 대상을 다양한 측면에서 자세하고 개별적으로 살핀다거나, 논리적 인과추론을 통한 결론을 이끌어 내는 등의 다층적이거나 객관적이며 과학적인 연구의 부족을 초래하게 되었다.

특히나 한문교육 연구에서는 최근까지도 통계를 이용하여 교육 현상을 기술(description), 설명 (explanation), 예측(prediction), 그리고 인과추론(causal inference)하는 양적 연구 방법을 활용한 연구가 매우 부족하다. 이러한 현상은 수리적으로 자료를 처리해야 한다는 곤란함과 생경함, 연구 방법에 대한 연구자들의 개인적 관심 부족 또는 연구자들의 관심을 유발 키려는 학계 내부의 추동력 부족, 문헌을 중심으로 하는 한문학 연구 전통 등이 원인으로 작용한다고 판단된다.

이러한 환경 속에서도 몇몇 연구자들이 양적 연구 방법을 통한 연구 결과를 학계에 보고하고 있는 현 상황은 주목할 만하다. 이는 교육 연구에서 과학적이고 객관적으로 도출되는 통계적 결과가 중요하다는 것을 인식하는 연구자들이 점차 증가하고 있다는 방증(傍證)이다. 다만 양적 연구 방법을 활용한 연구가 증가하는 만큼 부정확한 연구 설계, 통계 결과의 분석과 해석 오류 등의 문제점 또한 늘고 있다. 정확하고 과학적인 결과를 얻기 위해서는 연구 설계부터 결과 분석과 해석까지 적절한 통계 방법과 검정 과정을 거쳐야 한다.

따라서 이 연구에서는 연구 방법 중에서도 양적 연구 방법이 한문교육 연구에 적용된 현상을 분석하고자 한다. 특히 연구 설계부터 통계 결과를 분석하는 과정에 빈번히 드러나는 기본 개념 오류에 대해 논의하여 향후 양적 연구 방법을 활용한 연구에 발전적 방향을 제시해 보고자 한다.

Ⅱ. 통계 방법 활용 연구의 현황

현재 한문교육에 대한 연구를 대상으로 하는 학술지는 대표적으로 『漢字漢文敎育』과 『漢文敎育 硏究』 두 가지를 들 수 있다. 유수(有數)한 학술지 또한 여럿이지만 한문교육에 대한 연구를 전면으 로 내세우고 있는 학술지라는 점에서 두 학술지에 게재된 연구물들로 이 연구의 연구 대상을 한정하고자 한다. 한편, 양적 연구 방법을 활용한 연구물 중에서도 통계 분석 방법을 활용하거나 연구 가설에 대한 통계적 검정을 수행한 연구물로 연구 대상을 다시 한 번 한정한다.3) 왜냐하면 첫째, 한문교육 연구에서 단순 기술 통계(記述統計, descriptive statistics)를 활용하여 계량화하는 양적 연구보다는 실험 처치를 하고 드러나는 결과(effect)를 통계적 검정을 통해 채택하거나 기각하 는 추리 통계(推理統計, inferential statistics)를 활용한 연구에 상대적으로 많은 오류가 존재하고 있고, 둘째, 이러한 오류 파악과 교정은 차후 이러한 추리 통계를 활용한 연구의 정확도를 높임으로 써 교육 현장에 연구 결과를 적용하고 일반화하는 데 도움을 줄 수 있으며, 셋째, 통계를 적용한 연구 방법 활용의 오류와 오류 교정에 대한 의견을 통해 통계적 검정에 대한 인식 확장과 통계적 검정을 활용한 좀 더 다양한 연구 방법에 연구자들의 접근을 용이하게 할 수 있기 때문이다. 한편, 이하에 언급하는 통계는 대부분 추리 통계를 뜻하기 때문에 특별히 구분해야 할 경우를 제외하고는 이 연구에서는 ‘추리 통계’를 ‘통계’로 칭하고자 한다.

『한자한문교육』 1집부터 41집에 게재된 559편과 『한문교육연구』 1호부터 47호의 785편, 총 1344편 중 10편만이 통계 분석 및 검정을 활용한 연구로 파악되었다.4)

<표 1> 『한자한문교육』과 『한자한문교육』의 통계 분석 및 검정을 활용한 연구물

위의 <표 1>은 통계 분석 및 검정 방법을 활용한 10편의 연구물이다. 10편의 연구물 중 음영처리 가 된 5편의 연구물은 처치(treatment) 전후의 인과 관계를 확인하는 연구가 아닌 설문지나 검사지 를 연구 대상에게 배포 및 수집 후 수집된 자료를 여러 통계 방법을 활용해 분석한 연구이다. 즉, 학습자들이나 연구 대상에게 처치를 하지 않고, 모집단이나 원자료에서 표집을 통한 표본을 구성하여 모집단이나 원자료의 특성을 예측하거나 추리한 것이라고 볼 수 있다.6) 나머지 5편은 교육연구에서 자주 접할 수 있는 연구로써 처치를 실험 집단에 투입한 후 처치 전과 후의 인과 관계나 차이를 살피는 준실험설계(quasi-experimental design)를 통한 연구물들이다. 준실험설계 에는 여러 종류가 있으나 보통 단일집단 사후검사 설계(One-group posttest-only design), 단일집단 전후검사 설계(One-group pretest-posttest design), 비동등 사후검사 설계(Posttest-only design with nonequivalent group), 그리고 통제집단 종속 사전․사후검사 설계(Untreated control group design with dependent pretest and posttest samples)7) 등을 일반적으로 언급할 수 있다. 위 <표 1>에서 볼 수 있듯이 여러 준실험설계 중에서도 통제집단 종속 사전․사후검사 설계가 일반적으 로 가장 많이 사용된다. 통제집단 종속 사전․사후검사 설계는 실험집단과 통제집단의 사전․사후 점수 또는 능력을 모두 측정하므로 선택 편향을 파악할 수 있으며, ‘탈락’ 요인의 속성 또한 알아볼 수 있다. 이러한 특성은 다른 실험 설계들과 비교할 때 상대적으로 더 정확하게 처치 효과를 파악할 수 있게 도와준다.

위 10편의 연구물에 사용된 통계 방법과 검정 방법들은 독립/대응 표본  검정부터 중다회귀분석 까지 다양한데, 주지하듯 변수 간 관계를 예측하거나 집단 간 차이를 살펴보거나 하는 등의 각기 다른 연구 목적 또는 연구 설계에 의한 집단의 개수 등에 따라 다양하게 적용되고 활용될 수 있다. 다만 각 통계 방법마다 적용 전 확인해야 할 통계적 가정부터 결과물의 해석에 반드시 서술해야 할 내용 등이 상이하기 때문에 연구를 시행하고 통계 방법을 적용하며 연구 결과를 해석하고 분석할 때에는 반드시 주의해야만 한다. 통계적 가정을 예를 들어보면, 결과가 정확해 보여도 그 결과를 도출해 내는 통계 분석 과정이 성립될 수 있는 통계적 가정이 확인되어야만 결과를 인정할 수 있는 것이다. 즉, 어떤 증거가 법정에서 인정받기 위해서는 증거가 조작되거나 취득된 과정이 비합법적이지 않아야 한다는 가정이 반드시 지켜져야 하는 상황과 같은 것이다.8)

어느 연구에서든 마찬가지이지만 수학적 과정을 통해 연구를 수행하게 되는 양적 연구 방법 활용 연구는 결과를 수집하고 그것을 분석하여 최종 연구물을 생산할 때까지 수학적 방법이 정확하 게 쓰였는지 검증(檢證) 및 확인되어야만 한다. 한문교육 연구에서 통계 방법을 활용한 연구의 역사는 오래되지 않았지만 연구물의 생산이 지속적으로 증가하는 경향을 보이고 있고, 통계 방법을 활용한 양적 연구의 중요성에 대한 인식도 새삼 확장되어가고 있다. 이러한 상황에서 현재까지는 아직 공식적으로 생산된 연구물이 적기 때문에 검토에 한계가 있지만, 연구 설계와 통계 사용 과정, 연구 결과 분석 및 해석에 대한 오류나 보강이 필요한 부분에 대해서 고찰하고자 하는 것은 시의적절하다. 상기한 관점에서 아래 장에서는 위 10편의 연구물에 나타난 통계 방법 적용의 한계나 오류, 수정이 필요한 부분에 대해 간단하게 언급해 보고자 한다.

Ⅲ. 통계 방법의 연구 적용 실태 검토

앞 장에서는 『한자한문교육』 1집부터 41집과 『한자한문교육』1호부터 47호에 수록된 논문 중 통계적 분석 방법을 활용한 연구 현황을 살펴보았다. 이 장에서는 실제 연구가 수행되는 일련의 과정을 틀로 삼아 크게 ‘연구 설계 과정’, ‘통계 방법 적용과 자료 분석 과정’으로 구분 짓고 각 과정에 나타난 오류와 교육연구로서 가질 수밖에 없는 통계 방법 적용의 한계점들을 간단하게 분석해 보고자 한다.

1. 연구 설계 과정에서의 오류와 한계점

1) 연구 가설 설정9)

어떤 사실을 잠정적 진리로 놓고, 그 잠정적 진리에 대한 지지 혹은 거부를 하게 되는데 이와 같이 ‘연구를 유도’하는 잠정적 진술을 가설(hypothesis)이라고 한다.10) 그렇다면 각 연구에서 어떤 한 가지 주제만을 설정하여 연구를 수행한다고 할 때, 진리인 두 개의 사실이 가설이 된다. 즉, ‘A의 효과’를 파악하고자 하는 한 가지 주제로 연구를 수행할 때, ‘A로 인한 효과 차이가 없다.’라는 가설과 ‘A로 인한 효과 차이가 있다.’라는 두 가지가 가설이 되는 것이다. 두 가설은 영가설(零假說, null hypothesis)과 대립가설(對立假說, alternative hypothesis)로 설정된다. 연구에 서는 이 두 가설 중 영가설을 검정함으로써 기각과 채택을 결정하게 된다. 검정의 주요 절차는 보통, 첫째 단계로 가설을 설정하고 실험 설계를 한 후 대상을 표집, 둘째 단계로, 표본을 대상으로 실험 처치 후 자료를 수집하고, 최종적으로 수집된 자료를 분석함으로써 가설을 기각하거나 채택하 는 과정으로 구분해 볼 수 있다. 가설을 통해 연구 또는 실험을 설계하고 대상을 표집하며 처치를 하는 등, 모든 연구의 중추적인 과정을 거치게 되는 것이다. 즉, 가설은 연구문제를 해결하는 핵심으로서 만약 가설이 실증적 검증 과정을 거쳐 진실이라고 받아들여진다면 그 가설이 연구문제 에 대한 해답을 제공해주게 되는 것이다.11) 가설 설정의 중요성이 바로 여기에 있다.

일단 가설이 도출되어 설정되면 가설이 적절한지 여부에 대한 평가를 내려야 할 필요가 있다. 채서일(2005)은 가설의 평가 기준 9가지를 제시했다.12) 이 기준에 의하면 한문교육 연구에서 설정한 가설들의 문제점이 드러난다. 상기했듯 가설의 가장 큰 목적은 문제 해결에 있는데, 이 목적 달성을 위해 ‘두 변수 간’에 실증적으로 일어날 수 있는 ‘관계’에 대한 문장이어야 한다. 그래서 가설의 표현은 간단명료해야 하며, 연구 문제를 해결할 수 있어야 하며, 논리적으로 간결해 야하는 것이다. 한문교육 연구에서 설정한 가설들은 대부분의 가설 평가 기준에는 적절하였으나 유독 가설 기술의 명확성이 부족한 경향을 보였다. 예컨대 이미애(2003)의 가설을 살펴보면 다음과 같다.13)

假說 2 : 정의적 영역을 부가한 한문과 수업을 받은 실험집단과 인지적인 전통적 한문과 수업을 받은 통제집단이 정의적 영역 전체에 미치는 효과에는 유의미한 차이가 있을 것이다.

이 가설은 표현의 명료성, 논리의 간결성을 추구하고, 동의반복을 피해야 하는 가설의 적절성 기준을 벗어난다고 볼 수 있다. 사실 상 어떤 것이 실험 처치이고 어떤 집단의 효과를 분석하겠다는 것이 명료하지 않다. 이는 아래와 같이 수정할 수 있겠다.

假說 2 : 정의적 영역을 부가한 한문과 수업(변수1 ; 독립변수)은 (학습자의) 정의적 영역 전체에 유의미한 효과(변수2 ; 종속변수)를 미칠 것이다.

위와 같이 수정한 가설에서는 실험 처치와 실험의 변수들이 적확하게 드러나고 있다. 이렇게 가설을 설정한 후 다음 단계로 실험 설계를 통해 통제집단과 실험집단을 구성한다. 가설을 잘 검증하기 위해 실험을 설계하는 것이기 때문이다. 굳이 가설에 집단과 집단별로 처치하는 내용을 기술할 필요가 없다고 판단된다.

한편, 이성형(2016)은 가설 하나에 여러 가지의 변수를 삽입하여 가설을 기술하고 있다. 이는 가설 하나에 복수의 검증을 시행해야만 하므로 만약 한 가지는 기각되고 나머지 한 가지는 채택되었 을 때, 한 가설 내에서 두 가지 결론이 도출되는 모순이 발생한다. 가설을 살펴보면 다음과 같다.

假說1 : 한시수업에 대한 만족도는 성별과 성취도에 따라 차이가 있을 것이다.
假說2 : 한시수업에 대한 만족도는 한문교과 및 한문교사에 대한 관심도에 따라 차이가 있을 것이다.
假說3 : 한시수업에 대한 만족도는 수업모형과 수업내용에 따라 차이가 있을 것이다.

이 세 가지 가설은 모두 독립변수 두 개(성별, 성취도; 한문교과에 대한 관심도, 한문교사에 대한 관심도; 수업모형, 수업내용)와 종속변수 한 개(한시수업에 대한 만족도)로 구성되어 있다. 엄격하게 가설을 재설정한다면 여섯 가지의 가설이 생성되는 것이다. 사실상 한 가설 내에서 두 가지 결론이 도출되는 모순 없이 모두 기각 또는 채택된다면 다행이겠으나 우려한대로 통계 검증 결과를 분석하면서 드러난 가설의 모순을 저자는 ‘제한적으로 채택되었다.’라고 평가하고 있다. 이러한 서술은 명백한 오류이다.

가설의 설정은 통계 검정을 하거나 통계 방법을 활용해 분석하는 과정에 비하면 수리적(數理的) 인 부담이 거의 없고, 일반적으로 간단한 연구 절차 정도로 판단할 수 있기 때문에 쉽게 간과할 수 있는 부분이다. 그러나 가설 설정으로부터 연구문제를 해결하는 과정이 시작되고, 가설로부터 연구 설계가 결정되며, 가설 설정이 바로 연구 결과가 도출되는 시발점이기 때문에 명확하고 간결하면서도 논리적이며 검증 가능한 가설 설정이 필요하다.

2) 표집과 연구 설계

(1) 표집

연구 대상의 선정은 연구 결과의 타당성을 결정짓는 중요한 요인이 된다.14) 즉, 모집단의 특성을 대표하는 표본을 사용하여 연구를 수행할 필요가 있는 것이다. 그러나 모집단의 특성을 대표하는 표본을 선정하는 것은 사회과학 연구, 특히 교육 연구에서는 사실상 쉽지가 않다. 대체로 실험 대상인 학생들은 이미 어느 집단에 구성이 되어 있고, 확률적 단순무선표집(SRS)을 하기 위해 교실 구성원들을 새롭게 집산(集散) 시켜 표집을 실시하기도 어려우며, 전국 단위로 표집을 하기에 도 쉽지 않다. 한편, 교육 연구에서의 이와 같은 표집의 어려움을 인정하더라도 현재 한문교육 연구의 표집을 살펴보았을 때, 과연 실험 처치의 효과를 비교할 수 있는 실험연구 설계의 표집이라고 할 수 있을지 의심스럽다. 연구자는 연구 상황에 맞는 표집 방법을 선택할 필요가 있는데, 거의 대부분의 연구가 자신이 가르치고 있는 교실 학생들을 대상으로 표집을 수행하고 있다. 편의표집 (convenience sampling)이다. 편의표집은 표집법 중 가장 쉽고 편리한 방법으로 많이 쓰이는 방법이지만, 일반화 가능성 역시 가장 심각하게 제한되는 방법이다. 이러한 표본을 대상으로 시행한 연구는 사실상 ‘내가 가르치는 학생들은 이렇다.’라고 하는 것과 별반 다를 바가 없다. 즉, 모집단에 대한 추론과 처치의 효과 검증을 목적으로 하는 통계 활용 연구의 가치와 필요성이 의심되는 연구 결과가 도출될 뿐이다. 이러한 약점이 여러 연구자들 또는 현장 교사들이 일반화를 시도하지 못하게 만드는 원인 중 하나라고 판단된다.

(2) 연구설계

연구설계, 즉, 실험설계라고도 하는데, 이는 무선할당(random assignment) 여부에 따라 진실험 설계(true-experimental design)와 준실험설계(quasi-experimental design)로 나뉜다.15) 즉, 연구 대상이 무선으로 집단에 배정되는 경우는 진실험설계이고, 그렇지 못한 경우는 준실험설계가 된다. 진실험설계가 준실험설계보다 여러 면에서 더 좋은 설계이지만, 현실적으로 무선할당이 어렵거나 윤리적으로 문제가 있을 경우 준실험설계를 할 수밖에 없는 경우가 많다.16) 위 10편의 연구 중 실험처치 효과를 살피는 연구들 모두 준실험설계를 사용하였다. 그 중 이미애(2007)만이 준실험설 계 중 단일집단 사후검사설계(One-group posttest-only design)를 사용하였고 나머지는 모두 통제 집단 종속 사전․사후검사 설계(Untreated control group design with dependent pretest and posttest samples)를 사용하였다. 사실상 위 연구들이 실험 처치의 효과를 확인하고자 하는 연구이고 또한 진실험설계로 연구를 설계할 수 없다는 조건이 모두 동일하다. 그렇기 때문에 준실험설계 중에서도 실험집단과 통제집단 간 사전-사후 효과 차이를 가장 잘 드러낼 수 있는 통제집단 종속 사전․사후검 사 설계를 통해 연구를 수행하는 것이 더 타당하고 신뢰할 수 있는 연구 결과를 도출해 낼 수 있었을 것으로 보인다. 단일집단 사후검사 설계는 통제집단과 사전검사가 없는 설계이기 때문에 실험 처치를 통한 연구 대상자들의 변화를 알기 어렵다. 이 설계는 사전검사나 통제집단 없이도 실험 처치에 의해 결과가 도출되었다는 인과관계가 분명한 매우 특정한 맥락에서 쓰일 수는 있지만 교육연구에서 이런 분명한 인과관계를 확증하기가 어렵기 때문에 실제로 별로 쓰이지는 않는 설계이다.17)

3) 구인 타당도

모든 양적 연구에서 ‘구인(構因, construct)’을 정의하고 측정해야 한다. 구인은 쉽게 정의내리면, ‘측정하고자 하는 A를 구성하고 있는 요인’이라고 할 수 있겠다. 사실상 구인이 정확하게 정의되지 않는 경우에는 연구의 실효성을 의심할 수밖에 없다. A를 측정하려고 하는 연구에서 B를 구성하고 있는 것들을 측정하면 당연히 연구의 실효성은 사라지기 때문이다.

이미애(2003;2007;2008;2010)는 모든 그의 연구에서 구인에 대해 정의하고 측정하였다. 한두가지 예를 들어 보자면, 이미애(2008)는 학습자들의 정의적 영역을 ‘한문에 대한 학습태도’, ‘생활태 도’, ‘자아존중감’, ‘교우관계’ 네 가지 구인으로, 이미애(2010)는 성취동기를 ‘독립심’, ‘모험심’, ‘과업지향성’, ‘미래지향성’ 네 가지 구인으로 정의하여 구인들을 측정하였다. 즉, 매우 광범위하게 정의될 수 있는 사회 과학에서의 개념들을 측정될 수 있는 구인으로 초점을 맞추어 연구를 수행한 것이다.

한편, 이러한 연구자의 고찰에도 불구하고, 손쉽게 파악할 수 없는 개념들을 측정하는 데에는 여러 구인타당도 위협 요인들이 존재한다.18) 여러 위협 요인들 중에서도 교육 연구의 가장 큰 위협 요인은 바로, 연구자가 구인을 정의했음에도 불구하고, ‘구인에 대한 불충분한 설명’일 수밖에 없다. 정의적 영역을 ‘한문에 대한 학습태도’, ‘생활태도’, ‘자아존중감’, ‘교우관계’ 네 가지 구인만 으로, 또, 성취동기를 ‘독립심’, ‘모험심’, ‘과업지향성’, ‘미래지향성’ 네 가지 구인만으로 정의할 수 있는가, 측정된 값이 구인과 상관관계를 가지는가에 대해 연구자는 고찰하고 분석해 보아야 한다. 단순히 몇 가지 연구물에서의 정의를 차용(借用)해 복잡다단하게 구성되어 있는 개념들을 몇 가지 구인으로 간단히 정의내릴 수는 없는 것이다. 이러한 이유로 말미암아 연구가 과연 양적 연구로 수행될 수 있는가 하는 근본적인 의문을 가지게 될 수도 있고, 이는 매우 심각한 구인타당도 문제를 가진다는 반증(反證)이 될 것이다.

연구의 분석 및 결과 부분에서 처치 효과가 모두 통계적으로 유의미할지라도 구인들을 충분히 합당하다 판단할 수준으로 정의하고 측정해야 한다. 이 ‘합당하다’ 할 수준으로 정의가 되지 않고, 구인타당도를 수량적으로 추정19)했을 때 구인이 또한 충분히 측정하고자 하는 개념을 설명해주지 못한다면 언급하고자 하는 개념들을 양적연구가 아닌 질적연구의 패러다임을 통해 설명해야 마땅 할 것이다.

2. 통계 방법 적용과 자료 분석 과정에서의 오류

1) 연구 설계에 알맞은 통계적 검정 방법 선택

처치에 따른 효과의 집단 비교를 목적으로 많은 교육연구들이 수행된다. 예를 들자면, 정의적 영역 내용을 부가한 한문 수업을 수강한 학생들과 일반적인 한문 수업을 수강한 학생들 사이에 차이가 있는지를 비교해 보고자 하는 것이다. 이러한 차이를 검증하는 통계적 방법은 연구의 목적과 연구 대상에 따라, 모집단의 분포에 따라, 모집단의 분산을 아는지 모르는지에 따라, 종속변 수의 속성이 단일한지 복합적인지 양적변수인지 질적변수(범주변수)인지에 따라, 비교 집단이 서로 독립적인지 종속적인지에 따라 각각 다른 통계적 방법을 사용하게 된다.

한문교육 연구에서도 상기(上記)한 여러 조건에 따라 다양한 통계적 방법을 활용하여 집단 간의 차이를 검증하였다. 대부분 적절한 통계적 방법을 사용하였으나, 다만 확인할 필요가 있는 몇몇 연구가 있다고 판단하였다. 따라서 검토 대상 연구를 간략히 살펴보고자 한다.

한 가지 눈에 띄는 점은 이미애(2003;2008;2010)에서 사용한 통계적 방법이다. 우선 세 연구는 통제집단 종속 사전․사후검사 설계를 통해 가설을 검증하고자 하였다. 즉, 이 연구 설계의 목적은 통제집단과 실험집단을 설정하고 각 집단의 사전-사후 변화량을 계산하여 실험 처치에 의한 두 집단의 변화량에 차이가 있는지를 검증하는 것이다. 다시 말해 이 설계의 종속변수는 각 집단의 사후검사 측정치가 아닌 각 집단의 사전-사후 검사 변화량이 종속변수인 것이다. 그러나 이미애 (2003;2008;2010)에서는 통제집단 종속 사전․사후검사 설계로 연구를 진행하고 검증은 각 집단의 사전-사후 검사 점수 차이가 통계적으로 의미가 있는지 만을 비교하였다(<표 2>). 이것은 흡사 단일집단 전후검사 설계를 통해 실험집단 한 번, 통제집단 한 번씩 집단 내 차이를 비교한 것과 동일하다. 그렇다면 굳이 통제집단 종속 사전․사후검사로 실험을 설계할 필요가 없는 것이다.

통제집단 종속 사전․사후검사 설계의 목적은 보통 위에서 설명했듯이 각 집단의 사전-사후 변화량 을 측정하여 두 집단의 변화량에 통계적으로 의미 있는 차이가 있다고 할 수 있는지20)를 두 독립표본  검정을 사용하거나(<그림 2>) ANCOVA 또는 rANOVA를 사용하여 분석하는 것이다. 아마도 저자는 실험 처치를 투입한 실험집단의 사전-사후 검사의 차이가 통계적으로 유의미하고, 통제집단의 사전-사후 검사의 차이는 통계적으로 유의미하지 않다면 실험 처치에 효과가 있다고 주장하려 한 듯하다. 그러나 이러한 판단은 논리적으로는 수용될 수 있으나 통계적 검정을 통해 차이를 살펴보는 양적 연구에서는 납득하기 어렵다.21)

<그림 1> 단일집단 전후검사 설계에서의 차이 비교

<그림 2> 통제집단 종속 사전․사후검사 설계에서의 차이 비교

집단 비교를 위한 통계적 방법은 적절한 적용이 필수적이다. 자칫하면 엉뚱한 결과를 도출할 수 있기 때문이다. 변수의 종류와 특성, 집단, 모분산, 연구의 목적 등을 충분히 인지한 후 통계적 방법을 모색할 필요가 있다. 한편, 한문교육 연구에서는 다양한 연구가 아직 생산되지 않았기 때문에 여기서는 간단하게 실례를 들어 대표적인 부분만을 짚어보았으나, 다양한 통계적 방법에 대한 이론적 숙고와 적용 연습이 반드시 필요할 것으로 판단한다.22)

2) 유의성 검정 결과 해석

기본적으로 연구에 드러나 있는 가설은 우리가 알고 있는 대립가설(Ha )이다. 그 반대의 가설은 주지하듯 영가설 또는 귀무가설(歸無假說, H0)이다. 한편, 통계 검정 결과를 해석하여 가설을 채택하고 기각하는 과정은 유의수준보다 p 값이 높게 나오면 기각하고 반대로 낮게 나오면 채택하 는 식으로 단순하게 판단하는 것은 아니다. 유의성 검정이라는 개념과 검정 과정을 확실히 파악하고 있어야 한다. 유의성 검정은 어떤 집단 간의 차이가 실질적이라고 생각하나 다른 사람은 그 차이가 단지 우연일 뿐이라고 말할 때, 우연에 의해 집단 간의 차이가 발생할 가능성이 희박함을 보임으로써 그 차이가 실질적임을 밝히는 과정이다. 이 과정을 통해서 영가설을 채택하거나 기각하는 것이다. 여기서 중요한 부분은 바로 대립가설이 아닌 영가설을 검정하여 채택하거나 기각한다는 것이다. 즉, 유의수준을 0.01로 설정했을 때, 예컨대, “영가설을 옳다고 가정하자. 그런데 영가설이 옳다는 증거가 나올 확률을 측정해보니 p=0.0001(0.001%,p<0.01)로 너무나 낮다. 따라서 영가설은 기각하고 대립가설을 채택한다.” 또는 유의수준을 0.01로 설정했을 때, “영가설을 옳다고 가정하자. 그런데 영가설이 옳다는 증거가 나올 확률을 측정해보니 p=0.376(37.6%, p>0.01)으로 굉장히 높다. 따라서 영가설은 채택하고 대립가설은 기각한다.”와 같은 논증법을 사용하는 것이다. 이 유의성 검정이 바로 수학의 증명 방법 중 모순에 의한 논증법(argument by contradiction)인 귀류법 (歸謬法)이다.23) 이러한 개념을 확실하게 이해하지 못하고 검정 결과를 분석하게 되면, 예컨대, “유의수준 0.05에서 유의확률 p가 0.05보다 크므로(p=0.235) 대립가설은 기각되고, 영가설이 채택되어 양 집단 간 통계적으로 유의미한 차이를 보이지 않았다.”와 같이 틀린 분석을 내 놓게 된다. 이 분석은 “양 집단 간의 차이가 없다는 영가설을 검정한 결과 유의수준 0.05에서 유의확률 가 0.05보다 크므로 영가설은 채택되고 대립가설은 기각된다. 따라서 통제집단과 실험집단의 평균 차이는 없다.”로 수정되어야 옳다. 이 두 설명은 결과는 ‘대립가설은 기각된다.’로 동일하지만, 다음과 같이 다른 과정을 거쳐 결과가 도출된 것이다.24)

<표 2> 가설 검정 결과 분석 과정의 상이함

즉, <표 2>의 상단과 같은 결과 분석 과정은 기계적이고 관용적으로 이루어지는 것으로 보인다. 예컨대, ‘한문 수업을 받은 학생들은 어휘력이 높아질 것이다.’라는 ‘연구가설’을 검정할 때, 통계값 가 0.05 이상의 값이 나오면 무조건적으로 연구자가 설정한 ‘(대립)가설이 틀렸다.’ 또는 ‘두 집단이 차이가 없다.’와 같이 결과를 기계적으로 판단하고 관용적으로 서술한다는 것이다. 편리하지 만 적절하지 않은 판단임은 분명하다.

3) 사전검사를 통한 통제집단과 실험집단의 동질성 확인

어떠한 실험 처치의 효과가 있었는지에 대해 파악하는 것이 대다수 실험 설계의 목적일 것이다. 실험 처치의 효과를 살펴보려면 처치를 한 집단(실험집단) 외에 기본적으로 비교의 대상(통제집단) 이 있어야 처치 효과의 정확한 차이를 비교하여 말할 수 있을 것이다. 여기에 더해 처치를 하기 전에 통제 집단과 실험 집단 두 집단이 같은 능력 또는 점수를 가지는 동질의 집단이라는 것이 확인되어야만 서로 비교하기가 수월할 것이다. 그렇다면 두 집단이 동질의 집단이라는 것을 어떻게 확인할 수 있는가? 위의 10편의 연구들 중 실험집단과 통제집단의 차이를 비교하는 연구들 모두 사전검사 점수에 대한 두 독립표본  검정 결과로 동질 집단 여부를 파악하였다. 예컨대 아래 <표 3>에 대한 설명과 같이 판단하였다. 여기서는 통계적 검정 절차를 <표 3>의 내용을 통해 간략히 살펴보고 왜 이 두 집단이 동질성을 갖는다고 판단하게 되었는지 살펴본다.

<표 3> 집단별 사전검사 수준에 대한 표와 해석의 예시

“사전 검사는 2학년 1학기말 시험 평균 점수로 대체하여 사용하였다. 표에 나타난 것과 같이 양 집단 간에는 사전 검사 점수 상에 유의수준 0.05에서 통계적으로 의미 있는 차이를 드러내지 않아 동일한 집단임이 확인되었다(p=0.05).”

<표 4>의 값을 두고 검정 절차를 풀어내보면, 우선 영가설(H0:μt-μc=0)이 옳다고 가정하고, 각 집단의 평균 차이를 관측해본다. 관측한 값은p=0.812(z=-0.88)로 기각역인z<-1.96과 z<+1.96 내에 존재하지 않고,z-1.96<z<+1.96에 위치하고 있다.25) 이 말은 두 집단 간 평균 차이가 없다고 가정하고서 측정한 값이 확률적으로 나타나기 힘든 기각역에 위치하고 있는 것이 아니라 확률적으로 충분히 나타날 수 있는 영역에 위치하고 있는 것이다. 따라서 두 집단 간 평균 차이가 없다고 가정한 것은 직접 값들을 측정해 본 결과 옳다고 판단할 수 있다고 검정하게 된다. 즉, 영가설을 채택한다. 두 집단 간에는 서로 평균 차이가 없다(H0:μt-μc=0).26)

상기한 과정을 거치면서 영가설을 검정하고 두 집단 간에는 서로 평균 차이가 없다(H0:μt-μc=0)는 결론을 이끌어낸 후, 여기서 대부분의 연구자들이 두 집단을 동질 집단으로 판단한다. 그러나 결론부터 말하자면, 평균의 차이가 없을 뿐 동질집단으로 판단할 수는 없다. 동질집단은 무선할당에 의해서만 가능하다. 무선할당을 하지 않은 준실험설계에서 사전검사 점수 를 종속변수로 하는 (실험집단과 통제집단 간)  검정 결과가 위와 같이 유의하지 않으면, ‘동질집단’ 이라고 오해하는 경우가 있다. 무선할당을 하지 않은 자료에서 운 좋게 사전검사 점수가 집단 간 차이가 없다고 하더라도, 다른 측정치에 대하여 집단 간 차이가 있을 수 있다. 예컨대 백광호 (2006)는 한자능력시험과 독해력을 비교 연구하면서 “통계적으로 유의미한 정도는 아니다. 따라서 … 비슷한 수준의 독해력을 가지고 있다고 할 수 있어 집단 간 동질성이 있다.”(p550)라고 설명하였는데 이와 같은 경우에도 독해력에 차이가 없는 것일 뿐이지 독해력 차이가 없는 것을 그 두 집단 자체가 동질하다고 판단내리는 것은 틀린 것이다. 정리하자면, 동질집단 여부는 집단 간 사전검사 점수의  검정 결과와 관계가 없다.27) 동질집단을 확정할 수 없는 이러한 이유 때문에 앞에서 언급한대로 두 집단의 변화량을 활용해  검정을 실시하거나 사전검사 점수를 공변량 (covariate)으로 하는 ANCOVA 또는 rANOVA를 사용해야 하는 것이다. 사전검사 평균 점수 차이가 없다는 것으로 두 집단이 동질 집단이라고 판단하는 것은 유진은(2014)의 언급대로 연구 방법에 대한 이해 부족으로 말미암은 잘못된 관행이다.

4) 통계적으로 유의미하지 않은 결과의 해석

유의성 검정에 있어서 가장 일반적이고도 가장 심각하게 잘못된 해석은 연구결과의 통계적 유의성(statistical significance)과 실제적 유의성(practical significance)을 혼동하며 통계적 유의성 만 강조하는 점이다. 전자는 통계적 가설 검증을 위해 ‘설정한 유의수준’에 입각한 유의성이며, 후자는 연구결과 ‘실질적으로 집단 간 차이’가 있는지, 변수 간에 ‘고려할 만한 관계’가 있는지를 말하는 것이다.

표본 수의 증감에 따라서 실제적으로 의미 있는 차이가 있음에도 불구하고 통계적으로는 의미가 없다는 결과가 도출될 수도 있고, 반대의 경우도 발생할 수 있다. 이러한 이유로 많은 연구자들이 통계적 유의성 못지않게 실제적 유의성 또한 강조하고 있다. 비록 통계적으로 유의한 결과를 얻지 못하였어도 두 집단 간에 의미 있는 차이가 있거나 혹은 두 변수 간에 의미 있는 상관관계가 밝혀졌다면 의미 있는 연구결과를 얻은 것이다.28) 그러나 이 실제적 유의성에 대한 해석은 연구자 판단의 과제로서 많은 과학적이고 치밀한 통찰을 필요로 한다.

연구자의 입장에서 열심히 자료를 수집하고 분석하였음에도 불구하고 유의미성이 나타나지 않는다면, 실제적 유의성으로 시각을 넓혀 해석하고자 하는 태도는 당연하다. 그러나 실제적 유의성 에 대한 해석이 연구자의 자의적 판단에 의한 것이거나 단순히 평균의 차를 언급하는 수준의 해석은 지양되어야 할 것이다. 예컨대 “유의수준 0.05에서 통계적으로 유의미한 차이는 나타나지 않았다(p>0.05}. 그러나 통제집단에 비해 실험집단의 평균이 4.3294점 향상되었다.”와 같이 연구자의 통찰이나 분석이 없는 ‘표 읽어주기 식’의 해석을 하거나, 유의확률이 유의수준에 거의 근접해 있는 자료의 해석을 “추리력에서만 유의확률 0.062(p>0.05)로 유의미한 결과가 나타나지 않지만 통계적으로는 거의 유의미한 결과치에 가깝다.”와 같이 자의적으로 해석하는 등의 ‘실제적 유의성’ 판단은 매우 적절치 않다. 이럴 때에는 통계적 유의수준을 무리하게 0.05로 맞추기 보다는 0.1로 상향 조정하여 결과를 해석하는 것이 옳다. 결론적으로 실제적 유의성 또한 통계적 유의성 못지않게 강조되고 있지만, 연구자가 실제적 유의성을 판단할만한 변수들이나 실질적인 근거가 없다면 실제 적 유의성 판단은 용인되기 어렵다.

Ⅳ. 결론

기술 통계와 추리 통계는 연구의 주제, 목적, 설계 등에 따라 적절하게 적용하는 것이며 우열의 차이가 있는 것은 아니나, 추리 통계가 어떤 효과나 결과를 더욱 정확하게 추측해줄 수 있는 방법이기 때문에 복잡하지만 교육연구에서 선호되는 경향이 강하다. 한문교육 연구에서 양적 연구 방법의 활용은 기초적인 기술 통계 자료를 ‘보여주는’ 수준에서 통계적 검정이나 통계 방법을 활용한 요인들 간의 관계를 ‘분석하는’ 추리 통계 활용 수준으로까지 확장되었다. 이러한 경향에 터해 최근 십여 년 간 통계 방법을 활용하는 연구가 지속적으로 생산되고 있다. 그러나 이러한 연구 방법의 외연 확장과 함께 부작용도 필연적으로 함께 생성되었다. 바로 통계 방법의 적용 절차와 결과 분석 오류의 발생이다.

이 연구에서는 연구 방법 중에서도 양적 연구 방법이 한문교육 연구에 적용된 현상을 분석하고 연구 설계부터 통계 결과를 분석하는 과정에 빈번히 드러난 오류와 한계를 논의하고자 하였다. 이를 위하여 연구가 수행되는 일련의 과정을 틀로 삼아 ‘연구 설계 과정’, ‘통계 방법 적용 과정’, ‘통계 결과 분석 및 해석 과정’으로 구분 짓고 각 과정에 나타난 오류들을 간단하게 분석해 보았다. 분석 결과 계산상의 오류나 수치 해석 상의 오류와 같은 수학적인 부분은 거의 드러나지 않았으나, 실험 연구를 구성하는 요소들에 대한 기본 개념이나 통계학 기본 개념에 대한 인식 부족을 확인할 수 있었다. 쉽게 말해 연구를 설계하거나, 연구 가설을 설정하거나 연구에 알맞은 통계 방법을 선택하거나 왜 이런 분석을 할 수 있는지 등에 대한 기본적인 이해 없이 기계적으로 연구를 설계하고 자료를 수집하고 결과를 해석하고 분석한 것이다.

적은 수의 연구물과 거기에 적용된 적은 종류의 통계 방법을 대상으로 연구물 현황과 통계 방법 적용 실태를 분석한다는 것에 이른 감이 없지 않다. 그러나 지속적으로 양적 연구 방법, 그 중에서도 통계적 방법을 활용한 연구가 증가하는 경향을 보이고 있는 상황에서 연구 방법 적용의 적절성을 파악하고, 잘못된 개념과 오류를 교정하며, 통계 방법 간 공통점과 차이점을 올바르게 이해하는 등의 ‘기본’에 대한 점검 절차는 시의적절하다고 판단한다. 통계적 방법을 활용하는 연구자들이 본 연구를 통하여 관행처럼 이어져 내려오는 몇 가지 기본적인 오류들을 교정하고, 연구 결과물 해석에 필수적인 기본 개념들을 파악함으로써 차후 통계적 방법을 활용하여 연구를 진행하는 데 작은 도움을 줄 수 있을 것으로 기대한다.

Figure

Table

Reference

  1. 고은선․김성훈(2013), 〈평가방법에 따른 한자필순 점수의 차이분석〉, 《한문교육연구》 제40호, 서울(한국), 323-345.
  2. 김왕규(2010), 〈漢文科 學生 評價의 實態와 要求 分析〉, 《한문교육연구》 제34호, 서울(한국), 55-122.
  3. 김왕규․김경익(2009), 〈중학교 재량활동 선택 과목 “한문” 이수 실태와 고등학교 학생들의 한문 학력차 검사〉, 《한문교육연구》 제32호, 서울(한국), 271-338.
  4. 김왕규․박상우(2014), 〈漢文텍스트 易讀性 要因分析을 통한 易讀性 公式 開發 硏究〉, 《한문교육연구》 제43호, 서울(한국), 259-322.
  5. 백광호(2006), 〈漢字能力試驗과 讀解力의 비교 연구:初等學生을 대상으로〉, 《어문연구》 제34집, 서울(한국),527-554.
  6. 유진은(2014), 〈반복측정 자료를 다루는 교육 연구 실태 분석〉,《열린교육연구》 제22집 제4호, 119-138.
  7. 이광오․이현진․송병렬(2015), 〈漢字能力과 學業成就度와의 相關性에 관한 연구〉, 《한자한문교육》 제38집, 서울(한국), 173-192.
  8. 이미애(2003), 〈中學校 漢文科 情意的 領域의 學習效果에 관한 硏究〉, 《한문교육연구》 제20호, 서울(한국), 489-527.
  9. 이미애(2007), 〈한문학습이 지능과 학업성취도에 미치는 영향〉, 《한문교육연구》 제29호, 서울(한국), 209-238.
  10. 이미애(2008), 〈情意的 領域을 부과한 漢文科 授業이 학업성취도 및 정의적 영역에 미치는 효과〉, 《한자한문교육》제20집, 서울(한국), 277-309.
  11. 이미애(2010), 〈한문과 창의적 교수법이 성취동기와 학업성취도에 미치는 영향〉, 《한문교육연구》 제34호, 서울(한국), 123-176.
  12. 이미애(2013), 〈한문학습이 중학생의 정서조절에 미치는 영향〉, 《한문교육연구》 제40호, 서울(한국), 247-286.
  13. 이성형(2016), 〈一般系 高等學校 學習者의 漢詩授業 認識에 대한 統計分析과 敎育的 含意 考察〉, 《한자한문교육》제40집, 서울(한국), 23-47.
  14. 조언영(1999), 〈漢字語 理解度와 學業成就의 相關關係 硏究〉, 《한문교육연구》 제13호, 39-59.
  15. 진철용(2005), 〈漢字 習得이 漢字語의 意味 파악에 미치는 影響 硏究〉, 《한자한문교육》 제15집, 서울(한국), 395-422.