Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1598-1363(Print)
ISSN : 2465-8138(Online)
Han-Character and Classical written language Education No.46 pp.177-202
DOI : https://doi.org/10.15670/HACE.2019.46.9.177

A Study of Using Various Corpus on Set Grade Basic Han-characters and Sino-Korean Words for Korean Learning(2) - Review on Selection Method and Results

Heo Chul**
* This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea(NRF-2015S1A5B5A01012686)
** Research professor, Han-character Education Research Center, Dankook University
2019년 04월 11일 2019년 05월 02일 2019년 05월 22일

Abstract

This study is the second item under the goal of setting up the goal of acquiring study Sino-Korean words, selecting the required Sino-Korean words and Han-characters using various language corpus data, and stratifying them set grade by step.
In the first study, it was pointed out that “1800 characters set for education” were many problems not only in reading classical works but also in learning Sino-Korean words. In the second step, the theory and practice of selecting Han-characters and Sino-Korean words for the acquisition of learning, analyzed and extracted from various Corpus data. In the third phase of the study, the Han-characters needed for learning are selected by reading the classic works, and finally, the set grade system of Han-characters by learning.
So, this study, which was conducted under this objective, used various language corpus to select Han-characters used in real language life. A new program was designed and produced to select words and characters with high frequency from various language materials used in the Korean language. A total of 3,732 Sino-Korean words were selected (used 1,794 characters), also selected 2,600 individual characters. This set is a purely used in Korean language life, so the subject and purpose are different from that of the existing other set.
Through this study the following facts have to re-consider:
1. selecting characters and vocabulary should clarify the object of education and its purpose.
2. it is necessary to develop a separate open source program that takes into account both the characteristics of the corpus and the characteristics of the language, etc. in the research.
3. the data to be studied should be objective and representative on the basis of social consensus.
4. since it is difficult to represent the rationality of the research in the form of small papers such as this study paper, separate research project platform should be constructed and co-developed with the relevant researchers at the center.
5. should be provided as a copyrighted public material for use as a result of collective research, not as a single individual's research.

코퍼스에 기반한 교육용 한자․한자계 어휘 위계화 연구(2) - 한자계 어휘 학습용 한자어 및 한자의 선정 방안과 결과 검토 -

許 喆**
* 이 논문 또는 저서는 2015년 대한민국 교육부와 한국연구재단의 지원을 받아 수행된 연구임(NRF-2015S1A5B5A01012686)
** 단국대학교 한문교육연구소 연구원

초록

본 연구는 한국어 학습자의 한자계 어휘 습득을 교육내용으로 설정하고, 이에 필요한 학습용 어휘와 한자를 다양한 언어자료(코퍼스)를 활용하여 추출하여 선정한 후, 이를 다시 학습 단계별로 위계화하려는 목표 아래 진행된 두 번째 연구성과물이다.
첫 번째 연구에서 기존 한문교육용 기초한자의 문제점을 제기하였다. 현재의 한문교육용 기초한자는 한문고전적 독해는 물론, 한자계 어휘 습득의 목표에도 부적절하다는 점을 실례를 통하여 확인할수 있었다. 후속 연구인 본 단계에서는 한자계 어휘 습득을 위한 한자어와 한자를 선정하는 이론과 실제를 제시하고, 다양한 코퍼스 자료를 분석하여 추출하였다. 세 번째 단계의 연구에서는 한문고전을 독해 학습에 필요한 한자를 선정하고, 마지막으로 한자의 학습층위별 위계화를 제시하고자 한다.
이와 같은 목표 아래 진행된 본 연구는 연구의 대상을 ‘한자계 어휘 습득’으로 설정하고, 이에 따라 현실 언어 생활에 사용되는 한자어와 이를 구성하는 한자를 추출하기 위해 다양한 코퍼스를 이용하였다. 관련 통계 프로그램을 별도로 설계 제작하였으며, 한국어에 사용되는 다양한 언어 자료에서 높은 빈도를 가진 어휘와 한자를 추출하였다. 추출한 한자어는 모두 3732개(사용된 한자 1794개), 개별 한자는 2600개이다. 이는 순수하게 한국어 언어 생활에 활용되는 한자어와 한자를 추출한 것이므로, 기존의 한문교육용 기초한자와는 그 대상이나 목적이 다르다.
본 연구를 통해 다음과 같은 사실을 다시 확인할 수 있다.
첫째, 한자와 어휘 선정은 교육의 대상과 그 목적을 분명히 해야 한다. 이에 따라 추출 및 선정 어휘와 결과가 달라지기 때문이다.
둘째, 연구 방법에 있어 코퍼스의 특성과 언어의 특성 등을 모두 고려한 별도의 오픈소스 프로그램 개발이 필요하다.
셋째, 연구 대상 자료는 사회적 합의를 기초로 객관적이며 대표적 자료를 수집해야 한다.
넷째, 본 연구 결과물과 같은 소논문 형태로는 그 연구의 합리성을 대표하기 어려우므로 관련 연구자들을 중심으로 별도의 연구 프로젝트 플랫폼을 구성하고 공동 개발해야 한다.
다섯째, 한 개인의 연구가 아닌 집단 연구의 결과물로 이용될 수 있도록 저작권을 지닌 공개자료로 제공되어야 한다.

Ⅰ. 서론

 

본 연구는 다양한 언어자료를 활용하여 한자계 어휘1) 습득을 위한 기초 교육 내용 요소로서의 어휘의 선정과 그 어휘의 기초가 되는 한자를 선정하는데 그 목적이 있다. 교육에서 “왜 학습해야 하는가”라는 존재적 질문을 제외하면, 교육 목적에 부합한 내용의 선정과 조직은 교과의 특성 뿐 아니라 교과의 학습 전반에 걸쳐 가장 기본적 요소이다. 그러나 무엇을 어떻게 이용하여 교육 내용의 선정과 조직할 것인가에 따라 해당 연구의 방향은 달라진다. 한문이나 한자 교육 관련 내용을 선정할 때, ‘무엇을’ 목적으로 시도한 선정인가에 따라 다른 결론이 도출되기 때문이다. 곧 한문 문장 독해를 위한 한자의 선정을 목표로 하는가 혹은 한자계 어휘 습득을 위한 한자를 선정할 것인가에 따라 다른 질문과 답을 요구한다.

역사적으로 볼 때 개화기 이전 한자와 한문교육의 주된 목적은 한문 문장의 독해 능력 배양과 이를 통한 이해와 감상, 현실로의 적용에 있었다. 그러나 개화기 이후 다양한 학문이 유입되고 한문교육의 중요성이 달라지면서 한문 자체에 대한 학습 중요도보다는 우리말 속에 포함된 한자계 어휘의 습득을 더욱 중요시 하게 되었다. 개화기 이전 한자계 어휘 습득은 한문 문장 학습을 위해 기본적이었던 한자 학습과 언어 환경 속에서 특별한 교육 내용으로 선정되지 않더라도 자연스럽게 습득하는 것이었다. 그러나 개화기 이후는 한문 문장 학습이 차츰 사라짐에 따라 한자를 습득하는 학습자도 감소하였다. 또한 한글전용 정책으로 인해 한자계 어휘를 한글로 표기하는 어문 정책의 영향으로 인해 언어생활에서는 여전히 한자계 어휘를 사용하고 있으나 실제 한자의 의미를 파악하지 못하게 되는 문제가 발생하고 있다.2) 이러한 문제점을 해결하기 위해서는 한자와 한자계 어휘에 대한 교육의 필요성은 오래 전부터 사회 곳곳에서 대두되었다. 한자계 어휘 교육을 주장하는 측에서는 우리가 현재 사용하는 한글이라는 문자 표기 체제에 대한 문제이기 보다는 한글로 표기되는 한자계 어휘는 한자를 이용하여 표기될 때 그 어휘의 의미를 보다 정확하고 용이하게 습득하고 사용할 수 있음을 강조한다. 곧 현재 우리가 말하는 한자 학습의 근본 목적은 한자 자체에 대한 습득보다는 한자계 어휘를 습득하는데 있다는 것은3) 자명하다. 그런데 현실은 그 어휘 자체 보다는 한자에 더욱 집중하는 현상을 보이고 있다.

기존의 방식은 학습해야 할 한자를 여러 방법을 통해 먼저 정하고, 이를 이용하여 어휘를 구성하고 학습하게 한다. 그러나 이 방식을 통해 생성되는 어휘는 그 숫자도 파악하기 어렵거니와 실제 선정된 어휘가 상용성이 없거나 학습 전이 자체가 불가능 한 것으로 제시되는 등 많은 문제점을 내포하고 있다.4) 이는 구체적인 어휘 목록을 제시하지 않고 있기 때문이며, 한자만 학습하면 대상 한자로 구성되는 어휘 모두를 자연적으로 습득할 수 있을 것이라는 막연한 기대감에서 기인한다. 그러나 이러한 방식이 어휘 학습에 긍정적 요소보다는 부정적 요소가 훨씬 많음은 경험적으로 알수 있다. 따라서 실질적인 어휘 학습 효과를 얻기 위해서는 대상 어휘를 선정하고 이를 구성하는 한자를 선택하는 방법을 고민할 필요가 있다. 곧 교육 대상과 목적에 따른 일련의 학습 어휘가 선정되고, 그 어휘를 구성하는 한자를 급간별로 구분해야 한다.5)

본 연구는 이와 같은 사고의 흐름 속에서 현대 언어생활에 필요한 한자계 어휘와 한자를 어떻게 선정할 것인가에 대한 연구 방법론을 제시하고, 그 방법을 적용한 결과물을 구체적으로 제안해 보고자 한다.

 

 

1) 본 연구에서는 ‘한자어’, ‘한자 어휘’라는 용어대신에 ‘한자계 어휘’라는 용어를 사용한다. 이와 관련된 논의는 허철(2012)
참고.
2) 이런 측면에서 볼 때 한자계 어휘는 한문 문장 독해 능력과 일정한 연관성을 지니고 있으면서도 현재 언어 생활 속에서는 독립적인 요소로 작용하고 있다. 이미 우리말 속에 깊숙이 스며들어 우리말화된 것이기에 이를 외래어로 취급하거나 순화 의 대상으로 삼을 수 없다.
3) 한문교과의 주된 학습목표는 ‘전통문화의 계승과 발전’을 달성하기 위한 기초적 한문 독해 능력의 향상에 있다. 따라서 기초적인 한자나 어휘의 선정은 한문이라는 전통문언문의 구성과 밀접한 연관을 지니고 있다.
4) 이와 관련해서는 허철(2018)에 논의한 바 있다.
5) 특히 한문 전적을 대상으로 한 한문교육용 한자의 선정이라면 한문과에 해당하는 내용의 선정이지만, 일반 언어 생활을 대상으로 한 한자의 선정이라면 이는 한국어를 이용하는 모든 교과의 문제이다. 곧 한문과라는 특수한 교과의 영역이라기 보다 우리말을 기초로 사용하는 모든 학문의 기초 학습 영역으로, 범교과적 기본 어휘의 습득과 연관된다. 따라서 본 연구 는 범교과적 특성에서 출발한다. 또한 만일 대상 자료가 한문 전적이며, 한문 전적을 독해하기 위한 한자의 선정이라면 그 대상 코퍼스도 한문 전적 말뭉치 가 되어야 한다. 반면 한자계 어휘를 습득하기 위한 목적이라면 그 연구 대상 코퍼스는 다양한 한자계 어휘를 포함한 언어 자료 코퍼스가 되어야 한다.

 

 

Ⅱ. 연구 설계의 기초

 

우리말 어휘 속의 한자계 어휘의 비중과 관련되어서는 이미 많은 연구가 시행되었다.6) 그러나 그 비교의 대상이 되는 추출과 비교 방법론 등과 관련하여서는 구체적인 방법론까지 제시한 경우는 매우 드물다. 이는 연구의 결과물에 대한 신뢰를 어렵게 만드는 가장 중요한 요인이다. 무엇보다 실제 한국어 사용에서 한자계 어휘 혹은 한자와 관련된 연구를 진행하기 위해서는 여러 어려움을 해결해야 한다.

첫째, 조사 대상 어휘의 수가 매우 많기 때문에 이를 선별해야 할 필요성이 있다. 한자계 어휘의 숫자는 국립국어원에서 편찬한 표준국어대사전에 포함된 것만 계량하더라도 약69만 여개에 달할 정도이다.7) 이러한 수십만 종에 달하는 모든 어휘가 한자계 어휘의 학습 내용이 될 수 없다. 어휘의 습득과 사용은 일정 정도의 어휘 습득 능력을 배양하는데 그 목적이 있지, 모든 어휘를 습득하는 것을 목적에 둘 수 없기 때문이다.

 

6) 그 자세한 내용은 허철(2018) 참조.
7) 허철(2008b) 참조.

 

따라서 우선 대상 되는 한자계 어휘를 소규모로 다시 구성해야 한다. 본 연구에서는 현대 한국어에서 사용되며, 그 빈도가 상위 99%이상이 것으로 기준을 세웠다.

둘째, 한자계 어휘 구성를 단순화해야 한다. 어휘의 습득이라는 시각에서 볼 때, 한자를 통한 의미 파악이 어휘의 의미와 일정한 연관성을 지니고 있어야 한다. 그러나 한자계 어휘는 오랜 시간 발전해오면서 한자의 의미와는 전혀 다른 의미소나 기능을 가지는 독특한 현상을 포함하고 있다. 예를 들어 음차된 어휘라든가, 음차와 훈차를 함께 사용한 어휘, 원래의 개별 한자의 의미와 전혀 다른 의미와 역할, 기능으로 사용되는 어휘들, 또 그 어원을 밝힐 수 없는 어휘 등등이 다수 포함되어 있다.

한편 단일어도 있으며 복합어도 존재한다. 이 때 복합어를 단일어화 하여 분석할 경우 어휘의 의미에 영향을 끼치는가도 고려 대상이다. 영향을 끼치지 않는다면 단일어 형태소로 분리할 수 있으나, 영향을 끼친다면 분리가 불가능하다. 곧 개별 한자계 어휘에 대한 세밀하고도 구체적인 구분에 대한 분석이 필요하다.

셋째, 혼종어의 처리 문제이다. 실제 본 연구에서 사용되는 한자계 어휘라는 표현은 혼종어까지 포함하여 정의하고 있으나 실제 어휘 조사는 혼종어를 제외하였다. 혼종어가 한자계 어휘 학습의 필요 대상인가에 대해서는 다양한 이견이 존재하기 때문이다. 혼종어와 관련해서는 향후 연구에서 다시 논의할 필요가 있다.

네 번째, 이중표기된 한자어의 빈도를 각기 개별 빈도로 따로 처리하였다. ≪표준국어대사전≫에 이중 병기된 漢字語는 모두 2,806개나 되며, 다르게 표현된 漢字語 중 3개로 표현된 漢字語도 65개이다. 정확한 조사와 통계를 위해서는 이 漢字語들은 개별적인 통계처리를 해야 한다. 이렇게 할 경우에야 실제 한국인의 언어 생활을 정확히 반영할 수 있기 때문이다. 그러나 본 연구에서는 이를 하나의 대표 표기로 통일하는 방식을 택하였다. 이는 본 연구가 교육용이라는 목적을 가지기 때문이다. 교육용이라면 현상을 보여주는 것이 아니라 교육적으로 ‘옮음’에 대한 선택을 해야 하기 때문이다. 또한 기존 연구에서 제시한 3500자의 범주에 속하는 것을 추출한 결과 모두 1962개의 한자어를 분석메모리로 정리하여 적용하였다.

다섯째, 외국어 표기 중 일본어와 중국어에 표기된 漢字語처리의 문제로 ≪표준국어대사전≫과 다르게 한국한자음으로 변경 표기하여 처리하였다8)

이상과 같은 기술적인 문제보다 중요한 것은 어휘 선정의 기준에 관한 것이다. 본 연구는 다음과 같은 기준을 설정하고 적용하였다.

첫째, 연구 대상 한자의 범위 설정이다. 허철(2008b, 2010a)은 ≪표준국어대사전≫과 ≪현대국어사용빈도조사1≫, ≪현대국어사용빈도조사2≫에 수록된 전체 한자계 어휘를 대상으로 사용빈도가 전체 99%이하인 한자의 수가 약 3500자 임을 밝힌 바 있다. 때문에 본 연구는 이 한자로 조합되는 모든 한자계 어휘를 연구 대상으로 설정한다. 그러나 이 또한 연구자마다 각기 다른 견해를 제시할 수 있다. 이럴 경우 그 연구대상 범위가 달라질 수 있다.

둘째, 한은수(2011, 2012), 허철(2008b, 2010a)에서 밝힌 바 있는 어휘 중, 한자로 구성되지 않았더라도 어휘의 사용빈도로 보았을 때 고빈도 어휘와 백과사전류에 등재된 어휘를 분석하여 비교적 조어력이 강한 어휘를 연구의 대상으로 설정하였다.

또한 2자 어휘를 기준으로 연구를 진행하였는데, 한자계 어휘의 경우 2자 어휘가 가장 기본적 형태이기 때문이다.

본 연구는 위와 같은 세 기준을 토대로 세부적 연구 진행 방법을 구성하고 시행하였다.

 

 

8) 『표준국어대사전』에는 이렇게 한자로 표기 가능하지만, 원음을 우선한 어휘에 대해서는 외래어로 표기하였다.

 

Ⅲ. 연구 결과

 

본 연구의 성패는 얼마나 다양한 코퍼스 자료를 활용하여 객관적·과학적으로 어휘를 선정하고 이에 따른 한자를 선정하는가에 달려 있다. 곧 이 연구는 바로 무엇을 가지고 어떻게 대상 어휘를 선정하는가가 관건이다.

본 연구에서는 연구 소재로 ≪표준국어대사전≫과 다양한 백과사전 표제어 코퍼스를 별도로 구성하였다. ≪표준국어대사전≫과 백과사전의 표제어의 경우 질적인 차이가 있는데, 국어사전의 경우 ‘독립’과 ‘운동’이 개별 표제어로 등장하지만, 백과사전의 경우 ‘3.1 독립 운동’과 같이 사건 혹은 용어별로 표제어를 삼는다. 곧 백과사전 표제어의 경우 개별 어휘의 조어력을 활용하여 새로운 표제어를 생성해내는 특징을 가지고 있다.

한편, 언어생활 대상 코퍼스의 경우 두 자료를 이용하였다. 하나는 기존의 작성에 통계 자료이며, 또 다른 하나는 본 연구를 위해 새롭게 구성한 코퍼스 자료이다. ≪현대국어사용빈도조사1≫, ≪현대국어사용빈도조사2≫는 이미 연구 결과가 발표된 통계 자료적 성격을 지니고 있으며, 이를 활용하는 의미이다. 반면 국립국어원 언어정보나눔터 소재 말뭉치9)는 총 1496개의 원시말뭉치 자료로 이를 국립국어원에서 제공하는 “한마루2.0”을 통해 그 자료를 다시 분석할 수 있기 때문에 실제 문어와 구어 자료에서 사용되는 어휘의 현황을 파악해 볼 수 있는 장점을 지니고 있기에 본 연구에서는 이를 활용하였다.

 

9) ithub.korean.go.kr의 자료실에 공개되어 있다.

 

하지만 이런 코퍼스 자료만 가지고 본 연구를 진행하는 것은 어려웠다. 별도의 전문 분석 프로그램이 필요하였다. 분석 프로그램은 다음과 같은 기본적 특성에 유의하여 제작되었다.

첫째, 단어와 합성어를 구분하여 통계를 도출할 수 있어야 한다.

기존 코퍼스 자료를 보면 ‘띄어쓰기’의 문제가 중요하게 대두되었다. 이 문제는 단일어와 합성어의 문제였는데, 입력된 언어 재료를 보면 학술용어는 붙여 쓰는 경우가 많다. 그러나 어휘 분석의 측면에서 이러한 합성어를 그대로 수용하여 분석할 것인지, 아니면 이를 단일어로 변화하여 분석할 것인지에 따라 매우 다른 통계가 작성될 수 있다. 이는 파생어의 경우도 마찬가지여서, ‘~的’의 단어 형태이거나 ‘大~’의 경우 이것이 포함된 것까지 통계할 것인가 아닌가에 따라 다른 결과가 도출될 수도 있다.

이 문제에 대한 대안으로 본 연구에서는 결과 값을 도출하는데 크게 세 가지 분류 기준과 방법을 제시하였는데, 이는 단어와 합성어, 단어(합성어 포함)이다.

단어란 이미 입력된 텍스트 파일에서 2글자 이상으로 구성된 어휘를 말하며, 합성어란 프로그램에 이미 입력된 합성어 레코드와 일치하는 어휘만을, 단어(합성어 포함)는 입력된 자료를 다시 합성어 레코드에 따라 분석하고, 이를 다시 단일어화한 후 최소화된 한자와 한자어의 결과이다.

 

 

 

 

 

결국 단어 통계는 원전 자료 중 2글자 이상으로 된 모든 어휘들의 형태적 분석 없이 제시된 것이며, 단어(합성어) 통계는 ‘합성어’ 분석 코퍼스를 기준으로 다시 합성어와 파생어를 세분화하여 분석한 내용인 셈이다.

둘째, 이러한 통계를 작성하기 위해서 분석 메모리를 별도로 투입했다.

분석 메모리는 합성어와 파생어를 분석하기 위한 기본 조건을 준 일종의 강제 분할 사전이다. 분석 대상 코퍼스에서 분석 메모리와 일치하는 합성어나 파생어를 발견하면 이를 다시 단일어로 변환시켜 주는 역할을 수행하도록 한다. 예를 들어, ‘고유어(固有語)’라는 단어가 발견되면 분석메모리는 이를 ‘고유(固有)’와 ‘어(語)’로 분할하고 이를 각각의 빈도에 적용하는 역할을 한다. 그런데 이때 문제가 되는 것은 어떤 합성어와 파생어를 어떻게 분할할 것인가의 기준 문제이다. 여기서 본 연구는 ≪표준국어대사전≫에서 제시한 합성어와 파생어 기준을 따랐다.

이 분석 메모리는 모두 134,496개로, 이 중 일부를 제시하면 다음과 같다.

 

 

 

 

 

셋째, 이중 코드 한자는 하나의 코드로 변환하여 처리하여, 한자 처리를 통일화하였다.

넷째, 한자어 중 표기가 다른 1,962개의 어휘는 하나로 통합하여 분석메모리에 포함시켰다.

 

 

 

 

이상의 설계를 통해 기초자료 분석 프로그램을 마련하였고, 이를 분석하기 위한 언어 코퍼스 자료를 구축하였다.

대상 언어 코퍼스 자료는 사전류와 언어 생활류였다. 사전류의 경우, 동일 어휘를 엑셀로 비교 분석하여 정리하였는데, 그 일부를 보면 아래와 같다.

 

 

 

 

≪표준국어대사전≫을 기본으로 하여, 이를 다시 ≪금성출판사≫, ≪민중서림≫, ≪삼성출판사≫, ≪우리말 큰사전≫, ≪조선말사전≫(1962), ≪조선말대사전≫(1992), ≪연세한국어사전≫, ≪뉴에이스 국어사전≫과 비교한 것이다. 고유어와 외래어를 포함한 전체 어휘는 631,411개였으며, 이중 한자가 결합한 예는 403,384였으며, 한자로만 결합한 것은 297,671개였다.

한편 국립국어원의 ≪현대국어사용빈도조사1≫, ≪현대국어사용빈도조사2≫에 등재된 어휘를 출현에 따라 표기하고, 이 두개의 자료를 포함하여 다시 총 빈도를 제작하였다. 순수하게 한자로만 결합된 어휘는 40,971개였다.

 

 

 

 

 

이상의 자료를 토대로 다시 합성어와 파생어를 단일어로 변환하여, 최소 단일어 목록을 작성하는 중이다. 현재까지 진행된 내용을 보면 총 134,522개의 어휘를 아래와 같이 분석하였다.

 

 

 

 

한편 구체적인 코퍼스 자료를 분석하기 위해 자료를 수집하고, 전통문화연구회에서 제작한 “한자로”를 이용하여 1차 텍스트 변화를 한 후, 이를 다시 검토하여 연구에서 제작한 프로그램을 활용하였다. 이를 토대로 국립국어원에서 제공하는 1496개의 원시 말뭉치를 변환하고 프로그램에 투입하여 적용하였다.

이러한 일련의 과정을 도식화하면 다음과 같다.

 

 

 

이런 과정을 통해 추출된 어휘학습용 기초한자는 모두 2600자였다. 초기 본 연구 설계시 상위 누적 빈도 99%까지의 한자는 모두 3500자가 될 것을 예상하였으나, 실제 통계작성에서 상위 누적 빈도 99%는 총 2600자가 되었다. 물론 향후 다른 검증 방법을 통해 다시 추산해 보아야 할 것으로 예상된다. 이를 제시하면 다음과 같다.

 

 

 

 

 

 

 

 

한편 어휘로만 통계를 구축한 결과는 위의 결과와 좀 달라서, 상위 누적 빈도 99% 어휘 중 2자로 구성된 어휘은 모두 3732개였으며, 이 어휘군에서 사용된 한자는 모두 1794 종이었다. 위의 한자 목록에 이미 1794개의 한자가 포함되므로, 추출된 어휘만 제시하면 다음과 같다.

 

 

 

 

 

 

 

 

 

 

 

 

 

이상의 통계는 출현 빈도를 통한 누적빈도 순으로만 추출한 것이다. 한자계 어휘의 선정은 출현빈도 외에도 투명도 등 다양한 조건을 고려해야 하며, 한자의 선정 또한 활용도와 상용도 등 다양한 요소에 대한 고려가 필요하다.10) 그러나 이 결과만 보더라도 기존의 한문교육용 기초한자의 문제를 해결할 수 있는 방안과 한자계 어휘 교육에서 중점을 두어야 할 방향이 무엇인지에 대한 시사점은 충분히 얻을 수 있다.

 

 

10) 이는 이 연구과제의 마지막 단계인 4번째 연구에서 좀 더 구체적인 결과로 제시하고자 한다.

 

 

Ⅳ. 결론

 

본 연구는 한국어 학습자의 한자계 어휘 습득을 교육내용으로 설정하고, 이에 필요한 학습용 어휘와 한자를 다양한 언어자료(코퍼스)를 활용하여 추출하여 선정한 후, 이를 다시 학습 단계별로 위계화하려는 목표 아래 진행된 두 번째 연구성과물이다.

본 연구는 연구의 대상을 ‘한자계 어휘 습득’으로 설정하고, 이에 따라 현실 언어 생활에 사용되는 한자어와 이를 구성하는 한자를 추출하기 위해 다양한 코퍼스를 이용하였다. 관련 통계 프로그램을 별도로 설계 제작하였으며, 한국어에 사용되는 다양한 언어 자료에서 높은 빈도를 가진 어휘와 한자를 추출하였다. 추출한 한자어는 모두 3732개(사용된 한자 1794개), 개별 한자는 2600개이다. 이는 순수하게 한국어 언어 생활에 활용되는 한자어와 한자를 추출하였다.

본 연구를 통해 다음과 같은 사실을 다시 확인할 수 있다.

첫째, 한자와 어휘 선정은 교육의 대상과 그 목적을 분명히 해야 한다. 이에 따라 추출 및 선정 어휘와 결과가 달라지기 때문이다.

둘째, 연구 방법에 있어 코퍼스의 특성과 언어의 특성 등을 모두 고려한 별도의 오픈소스 프로그램 개발이 필요하다.

셋째, 연구 대상 자료는 사회적 합의를 기초로 객관적이며 대표적 자료를 수집해야 한다.

넷째, 본 연구 결과물과 같은 소논문 형태로는 그 연구의 합리성을 대표하기 어려우므로 관련 연구자들을 중심으로 별도의 연구 프로젝트 플랫폼을 구성하고 공동 개발해야 한다.

다섯째, 한 개인의 연구가 아닌 집단 연구의 결과물로 이용될 수 있도록 저작권을 지닌 공개자료로 제공되어야 한다.11)

이 중 가장 어려운 단계는 어떤 코퍼스를 사용할 것인가와 어떤 방법론을 사용할 것인가는 물론 객관성을 확보하기 위한 자료의 공개이다. 이를 위해 필자는 다양한 방법으로 관련 연구를 진행할 수 있는 공통된 프로그램과 플랫폼을 개발하여 여러 연구자가 함께 연구를 진행하는 방법에 대한 구체적 모색을 제안한다.

 

 

11) 본 연구에서 사용한 자료는 재검토를 통해 오류를 수정하여 웹상에 제공할 예정이다.

Figure

Table

Reference

  1. 한은수(2011), <敎科 語彙 學習을 위한 敎授 學習 方法 一考>, ≪한문학논집≫ 33집, 근역한문학회, 203-242.
  2. 한은수(2012), <初等學校 敎育用 漢字 語彙 選定 方案과 例>, ≪한자한문교육≫ 제29호, 한국한자한문교육학회, 7-85.
  3. 허철(2008a), <한문교과교육에서 한문교육용한자 선정을 위한 기초연구>, ≪동방한문학회≫35집, 동방한문학회, 343-432.
  4. 허철(2008b), <국어사전 등재 어휘를 통해 본 어휘 구성 분석과 한자의 조어 능력 조사>,≪동방한문학≫ 37집, 동방한문학회, 289-333.
  5. 허철(2010a), <≪현대국어사용빈도조사1·2≫를 통해 본 한자어의 비중 및 한자의 활용도 조사>, ≪한문교육연구≫ 34집, 한국한문교육학회, 221-244.
  6. 허철(2010b), <初等學校 漢字 敎育을 위한 基本語彙·基礎漢字 選定의 方法 연구>, ≪한자한문교육≫ 25집, 한국한자한문교육학회, 179-238.
  7. 허철(2012), <誤謬 事例를 통해 본 漢字 語彙 敎育의 方向>, ≪한자한문교육≫ 29집, 한국한자한문교육학회, 107-149.
  8. 허철(2018), <지식습득 관점에서 본 한자어교육 논쟁의 해결 방안 연구>, ≪한자한문교육≫ 44집, 한국한자한문교육학회, 251-273.
  9. 국립국어원 언어정보나눔터 http://ithub.korean.go.kr(2019.5.22 검색)