Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1598-1363(Print)
ISSN : 2465-8138(Online)
Han-Character and Classical written language Education No.33 pp.25-45
DOI : https://doi.org/10.15670/HACE.2014.33.1.025

網上漢字知識庫的構思

藺蓀*
*香港城市大學 中文 翻譯及語言學系 助理教授

Conceptions of an On-line Chinese Character Knowledge Base

Lun Suen*
*Assistant Professor, Department of Chinese, Translation and Linguistics · City University of Hong Kong

Abstract

Hanzi is different from alphabetical languages in both structure and theform-pronunciation relationship. Alphabetical scripts are processed in thedominant hemisphere, whereas Chinese script involve bilateralhemisphere resources. Reading Hanzi works through the ventral lexicalaccess stream whereas transparent alphabetical languages preferentiallyuse the dorsal stream. This difference is likely to be due to the opacityof Chinese language for sound, whilst being more transparent forform-meaning relationship, as well as less explicit instructions in usingthe phonological clue in reading Hanzi. Anteriorly, the premotor area isinvolved in reading Chinese corresponding to the importance ofhandwriting in learning and recognizing Chinese, in the presence of therelative opacity of form-pronunciation. Suggestion is made for the lineardeconstruction of Hanzi for learning purpose, the use of pronunciation ofits structural architecture and the use of chunking. At the same time, theusefulness of Hanzi graphabets for chunking and as well as resolving theconflict between computer input and learning of Hanzi is emphasized.

 

0115-01-0033-2.pdf2.23MB

Ⅰ. 香港教育局的網上字詞表

  漢文化以及它的載體漢字直到今天爲止仍在影響中國及周邊的東亞文化, 特別是日本﹑韓國和越南. 漢語用的文字系統是漢字. 漢語·日語及韓語的學習在一定程度上來說是以漢字爲本位的. 漢字源遠流長, 數量龐大, 例如『康熙字典』就收錄了47035個字;而『漢語大字典』則收錄了56000 多個字. 漢字曆經包括字形和書體的多次改變, 要通曉漢字系統實在不可能. 不過, 我們在日常生活和工作中所需要用到的漢字, 只占龐大的漢字總量中的一小部分. 所以從學習的角度來看, 學童只需要掌握日常生活中最常用的字詞就行了, 不需要把寶貴的學習時間和精力花在生僻的字詞上. 那麼要應付日常閱讀和書寫的需要, 最起碼需要掌握多少漢字和詞語才夠用呢?到底哪些字詞才是最基本, 最常用的呢?長久以來, 語文教育工作者一直都關心漢字字詞方面的定量分析․學習和應用.

中國古代就已經有爲童蒙編寫識字課本的優良傳統. 根據『漢書藝文志』記載, 當時兒童所誦讀的書有十多種, 包括『史籀』·『倉頡』等;後來的『千字文』·『三字經』也是古代漢字學習的重要啟蒙書.1990年, 香港課程發展議會公布『小學中國語文科課程綱要』, 附錄『小學常用字表』, 列出了小學階段要學會的2600字;1996年, 香港教育署公布『小學教學參考詞語表(試用)』, 收錄了6765 個詞語. 2003年,香港理工大學受香港教育統籌局委托, 研制供小學教學用的字表和參考詞語表. 研究小組在已有的研究基礎上, 增加最新的語料達6520000 字,根據科學性․客觀性․針對性․系統性四個原則, 得出新的詞表, 最終確定收錄9706 個詞語. 2009年, 爲了協助非華裔的學生學習中文, 教育局委托語言科技有限公司又增加了英語注釋的版本. 2011年香港教育局課 程發展處在網上把漢字學習資源香港中文學習字詞表 http://www.edbchinese. hk/lexlist/及中英對照香港學校中文學習 基礎字詞http://www. edbchinese.hk/lexlist_en/. 開放給公眾使用, 完成了這個階段的工作. 在網上提供漢字的學習資源似乎是整個工作的 重點甚至是終點. 事情到此爲止了嗎?

<圖 一> 香港中文學習字詞表主頁

 實際上, 漢字教學不是孤立的環節, 提供字詞表只是一個基礎建設的部分, 香港教育局課程發展署曾經委托語言科技有限公司制作過不少電腦輔助漢語學習的課件及工具(參考:http://www.langcomp.com.hk/products/index.htm), 其中的「點畫流形」就提供了不少漢字教學的資源, 只是沒有網頁版本, 也沒有跟字詞表有機地結合起來. 漢字的學習應該包括漢字的形·音·義三方面, 還有每個漢字的緣起及演變, 以及今天的繁體字·簡化字的規範寫法及筆順等. 單個漢字作爲語素有些什麼樣的語素義項, 比方說‘陳’可以是陳姓·陳國;陳舊;陳列等. 這些語素義又分別在什麼詞語中應用, 詞語進入具體的語言應用中, 又代表什麼詞意?頻率·語域․褒貶義又是什麼情況?那個學習階段應該學習哪些知識?這樣我們就從單個漢字的分拆學習, 有機地把漢字結合到真實語境中學習, 這樣反過來會強化漢字知識的記憶和運用成效.

 如果字詞表提供的內容可以和教育局以往所做的項目有機地結合起來, 然後再擴充相關詞語的解釋和用法, 那麼得出來的不失爲一個頗爲全面的, 適合香港小學階段學習漢字的網上工具(藺蓀, 2000). 如果有學生在網上閱讀漢語文章的時候, 遇到不認識的字詞, 就可以實時地得到適合他的程度的幫助, 這就達到建立網上漢字資源庫的初衷了. 但是, 漢字的知識遠遠不止這些. 所以下文再具體談談網上漢字知識庫的構建.

<圖 二> 香港中文學習字詞表正文

<圖 三> 「中英對照香港學校中文學習基礎字詞」 正文

Ⅱ. 網上漢字知識庫的構思

 漢字學習是漢語學習中的難點中的難點, 是把漢語推廣到世界的一大障礙. 然而, 對本身操漢語的兒童來說漢字是否又同樣難學呢?這就要考慮到漢字教學的步驟和方法了. 漢字與漢字教育的目的可以定義爲漢字知識的累積․傳播和使用. 用先進的教學法․教育心理學配合現代的IT技術和互聯網平台, 教育工作者應該有信心使得漢字的學習更有趣味, 更有效率. 本文嘗試提出網上漢字知識庫的構思, 供大家參考. 根據維基百科, “知識庫是用於知識管理的一種特殊的數據庫, 以便於有關領域知識的采集․整理以及提取. 知識庫中的知識源於領域專家, 它是求解問題所需領域知識的集合, 包括基本事實․規則和其它有關信息.” 所以, 把領域專家的知識有效地彙集起來, 是十分重要的系統工程. (http://zh.wikipedia.org/wiki/%E7%9F%A5%E8%AF%86%E5%BA%93)

 首先, 互聯網是建立知識庫的最佳平台, 也是最好的學習媒介, 不單只在計算機的平台上, 而且可以在手機上連接到互聯網;不單只上課時老師可以用互聯網的材料教授學生, 下課後, 學生也可以利用互聯網自習. 如果網上的教學資源能夠利用計算機程序設計增加互動性, 利用計算語言學的知識增加人工智能帶來的人性化, 那麼學習的效果就更好了. 漢字知識放到網上, 就能做到資源共享, 使得漢字的學習無遠弗屆,無時不行. 網上的材料如果有增益, 遠比紙質教材的重印便利得多, 所以只要資源管理得當, 便可永續發展, 適時更新. 還有一點就是, 如果在知識庫上設立論壇, 那麼學習上的疑惑, 也可以公開討論, 慢慢形成答疑的寶庫, 不單只能夠解決學習者的疑難, 甚至爲語文研究人員也提供了研究和應用的方向.

 總的來說, 漢字知識庫的建設必須基於漢字的本體研究, 科學的研究·知識庫裏的漢字知識也要合乎規範. 當然, 由於漢字是漢字文化圈裏頭的共同資產, 各國各地都有本身的規範, 在求同存異的原則下, 可以各盡所能;各取所需. 我的意思是漢字的研究·規範·教學和應用都是漢字網上知識庫所應該包括的. 爲了集思廣益, 知識庫的構建者應該包括政府及民間教育機關·各級學校·學會·志願組織·教育軟件開發商及各界有興趣的人士. 而知識庫構建以後的使用者, 則是所有持份者, 包括研究者·學者·教師·學生和公眾. 使用的權限則可以根據實際需要或收費來決定.

Ⅲ. 網上漢字知識庫的內容

1. 漢字的本體研究

 漢字知識庫以集結漢字的研究成果爲建設的出發點. 漢字研究的範疇有曆時和共時兩方面, 曆時方面包括研究漢字的起源, 如漢字的六書說,每個漢字的各種字形·字體和書體的信息和曆時的演變過程. 還有, 部首·部件·筆畫的信息也是重要的信息. 整字來說, 台灣教育部出版的『網上異體字字典』, 方便我們檢索每個漢字的異體字. 此外, 國外使用的日本漢字(國字)和韓國使用的漢字, 跟我國的漢字在筆畫筆順方面的要求都有一定的差異. 如果包括各地漢語方言的方言字, 如粵語的‘咁’․·‘嘢’·‘佢’等, 需要處理的漢字資訊量絕對不少, 而這些情況又可以聯系到ISO10646 國際統一碼的編訂工作. 跨時跨地的漢字的定性定量工作在資源和時間的要求上絕對不是可以小覷的, 但是有了共同的平台, 就可以減少重複的工作量, 讓研究者把研究做得更深入更細致.

 從教學的角度考慮, 我們從以前強調老師怎麼教轉爲強調學生怎麼學. 這樣我們就得考慮不同學習階段的人(成人和學童)學習的路徑和方法. 從階段性的角度看, 通用字表·基礎字表·常用字表等都是有極大用處的資源, 參考各地的做法非常必要. 國別化的差異, 特別是在字形·字音·字義方面等的對比研究也是對漢字的發展很有啟示的信息. 現代科技發展之下, 派生出各種學習理論․策略及途徑的研究與應用. 而現代化教學手段和媒介所造成的差別對待(紙本·網上·手機), 更是引起老師的關注, 這方面的研究方興未艾, 充滿生機. 我們雖然關注的是漢字的教學, 但漢字的學習不可能離開正常的語言環境, 所以擴充的語言單位, 從筆畫․部件·字·詞到詞組·篇章都將是網站發展起來後應該逐步擴大關注的學習內容.

2. 漢字的排檢和輸入

 由於漢字的繁難程度比一般拼音文字系統高太多了, 所以如何利用漢字進行排檢曆來都有不少方法, 如部首·筆畫數·筆順·四角號碼·拼音等· 例如拼音排檢可以根據不同的語種和方言, 可分爲漢語·日語·韓語·越南語;漢語方言如粵語·滬語·閩南語·客語等.

 漢字的輸入法不下1000種, 其中最爲流行的有拼音·倉頡·五筆·手寫·語音·筆順·九方․縱橫等. 根據輸入法的模式, 包括利用鍵盤․語音(雙拼·全拼)·手寫;輸入單位則包括拆字(部件·筆畫)·單詞(基於詞庫)·語句(基於語料語言學的語流輸入法)等等, 五花八門, 不勝枚舉·我們固然可以利用這個漢字知識庫的平台來討論及評比各種檢索方法和輸入法的優劣. 但我們也清楚不同的目的要求采用不同的手段, 因此,在自然的汰弱留強的過程中, 保留這些知識應該是穩妥的做法.

3. 漢字的藝術

 中國書法是表現漢字形體美的藝術. 我們日常生活中雖然寫字的需要少了, 但只要鼓勵書法作爲陶冶性情的手段, 漢字還是非常有保留價值的一種文字系統. 書法所以能夠成爲藝術品, 主要是在於漢字結構的多元化, 方塊字有獨體·合體, 結構複雜多變, 又有各種書體形態, 能夠反映書寫者的情緒品性. 另外由於使用富有彈力的毛筆作爲書寫工具, 能夠寫出各種形態的點畫, 所謂「點畫流形」, 居室中懸掛一兩幅字畫, 很能反映屋主的審美能力和品性追求.

 網上漢字知識庫, 不能只有科學的部分, 也應該包含藝術的取向, 因此可以提供書法概述, 至於各種書體, 如篆書․隸書․行書․楷書․草書等, 可以用多媒體的表現形式, 展示名家的墨寶, 書法教程的錄像. 現代人其實也會需要用硬筆簽名或書寫, 所以硬筆書法的示範也是很重要的. 至於跟書法有關的其他藝術品種, 如篆刻․篆刻․微型書法․碑銘․ 設計等, 則可以視乎資源和需要, 慢慢添加, 使得網站不斷更新, 更有瀏覽的價值.

4. 教學法研究

 漢字如何教, 古代有『三字經』·『千字文』, 現在大陸也出了『新三字經』, 另外還有很多不同的識字法, 如鼓勵泛讀, 還有譬如集中識字法, 靠部首·聲旁等不同歸類法方便學生掌握更多的基礎漢字. 由於漢字筆畫繁多, 而且同音假借, 異體字, 異體詞相當不少, 所以研究錯別字也有必要. 如何協助學生分辨漢字的不同寫法和用法, 實在是很有需要的 · 這裏就要聯系到字典․詞典和辭典的編纂了.

5. 漢字的工具書

 一般中國人只有字典的觀念, 實際上根據語言單位的區分, 可以得出字典·詞典·語典和辭典等針對不同單位的語文工具書. 網上語文工具書利用鼠標查找字詞的意義方便異常, 不過最好讓使用者事先選定程度和檢索的範圍, 從漢字知識到語文知識到百科全書類知識都可以輕松地查詢, 問題是查詢結果太多或太少都不理想, 因此網上的語文工具有很大的改善空間, 現在有的只是把傳統辭書電子化, 並沒有利用到計算語言學․辭典編纂學和語料語言學的專業知識進行優化.

 以傳統的漢字單語紙本字典詞典爲藍本, 我們應該設計更好的網上字典·詞典·語典·辭典·百科全書, 提供更多的語源知識和語用知識·還有, 應該可以根據學生的程度和國別, 設計不同的學習辭典, 雙語字典·詞典等· 另外, 延伸的知識庫內容可以包含各類專科術語辭典等.

6. 漢字的NLP工具

 NLP是自然語言處理的英語縮寫. 我們對漢語的自然語言處理重視得遠遠不夠. 因爲語言是人類發明的最重要的工具, 所以應該優化語言這個工具, 方便我們的學習以及日常的應用. 換句話說, 爲了使得計算機擁有人工智能, 識別及應用語言, 我們應該開發更好的NLP工具. 舉例說, 把漢字標上漢語拼音·粵語拼音·注音符號·假名·諺文, 對漢字的學習是非常有用的. 這中間涉及到把沒有詞間區隔的漢字用各種不同的算法和程序切分成詞, 然後配上詞庫裏相應的詞語的拼音, 其實也是如何實現從文字到語音的一個必要的步驟. 至於說把文本從一種語言翻譯成另外一種語言, 或者把文言翻譯成現代漢語, 就更是異常複雜的工程, 到現在仍然莫衷一是, 沒有非常成熟的產品.

 由於電腦技術越趨成熟, 應運而生的語言學分支語料語言學就可以借助從搜集得來的大量語料中進行統計分析, 給後期的語言學定性分析提供堅實的基礎. 我們可以借助語詞檢索工具, 在龐大的語言材料中查找新詞新語;分析字頻詞頻․修辭風格;分析句型用法, 從而驗證語言的真實應用情況, 編纂更好的辭典․教科書, 或優化字詞檢索的過程. 這些語言工程的系統, 標志著一個國家的軟實力, 可惜我們實在是重視得不夠多, 花的資源實在是太過微不足道了. 而這一切, 在我們的文字裏頭,以漢字的處理爲開端.

 漢字由於曆史悠久, 如上所述, 有不同的字體和書體, 如何用人工智能的方法去識別手寫漢字, 還有, 如果發現新字或古文字, 有沒有適合的電腦造字工具, 提供新的字體給大家在電腦中很方便地輸入輸出漢字, 都是相當重要的課題. 網上漢字知識庫, 有必要爲用戶提供電腦處理漢字的各類型NLP的系統, 讓漢字的學習和應用進入科技輔助的新階段.

Ⅳ. 知識庫的操作考慮

 相信大家看到上面簡略的介紹也會了解到建設網上漢字知識庫的重要性了. 但是如何實現更爲關鍵. 我們不缺各類領域專家·理論, 甚至技術, 可是這樣的工程實在是太龐大了. 我只能簡單描述一下一些方面,更多的內容會慢慢浮現. 我感覺我現在有歐洲文藝複興時期百科全書派那種豪情壯志, 而這項偉大的工程絕對不可能靠個人去完成. 所以, 我建議利用學會或機構而非單靠個人的努力去建立及維護如此一個與時並進·兼容並蓄的網上漢字知識庫. 現在不再是一個講求個人英雄的時代了, 我們應該利用團隊的精神, 無私客觀地去建立一個永續的系統.要知道, 個人是必死無疑的, 但組織可以永葆青春, 只有掛靠組織, 建立制度, 才可以保證個人的努力不會白費, 不會最後被遺忘. 曆史的教訓並不少, 我們不知道的而丟失了的寶藏應該更多.

 如果真的搞這樣一個大系統的話, 還是得從小從少做起, 附錄中有一個小小的嘗試, 可是, 沒有做的更多. 因爲首先需要建立專業的甄選機制, 讓大家提交的網頁或材料或工具得到有效率而公正的審核, 開始從寬到慢慢從嚴以精選內容. 而且上載的項目要有提供簡明的資料說明,也應該設立有效的互動論壇, 提供答問․評鑒和增益的機制. 現代人不是擔心信息不足, 而是擔心信息不流通, 或者是信息太龐雜, 以至無所適從, 浪費時間和精力. 所以爲了增加檢索的效度, 要求網站提供像百科全書一樣的合理的分類系統, 並爲項目提供分級(初學·中級·高級·專家級等)․用戶分類(本國人·日韓學生·粵語使用者等)有用的檢索信息.另外網站必須建立本身的管理系統, 提供用戶點擊率, 提供了解不同學習者及用戶的使用路徑和頻率等相關的資料, 方便日後優化的工作.

 這個網上漢字知識庫, 當然應該提供繁簡轉換版本, 英語或其他外語互譯功能. 最好能在不同的國家與地區, 設立相同的鏡子知識庫. 網站更新, 一改俱改, 同步進行, 爲各地的用戶加速分流. 這樣一個龐大的網站, 無論如何不是容易經營的, 所以就算有很多志願者同意提供免費的項目內容, 還是得從長遠維持的角度去考慮如何收費的問題. 有些內容,假定不是無償使用的話, 應該如何計費;而如果將來更好的情況出現,有經由網站介紹而來的生意額, 又該如何抽取費用以維護網站?最終建立一個包羅所有關於漢字的知識及應用信息的一個網上漢字知識庫, 實在是一項極具挑戰性的富有深遠意義的工作, 希望同人能夠很快開始籌謀如何開展.

Ⅴ. 結論

 本文從介紹香港特區政府教育局的網絡資源開始談起, 更重要的是希望進一步探討如何以豐富的多媒體網站技術·計算機辭典編纂學․語料語言學, 計算機科技的整合應用, 建立一個由學會或機構負責, 可以永續發展的網上漢字知識庫, 從而增進學界和社會在漢字的研究․教學和應用的深度․廣度和效度. 希望憑借各國的先進經驗建立永固的制度, 通過領域專家和大眾的集思廣益, 共同付出, 卻能減少重複勞動, 永續發展一個與時並進, 資料詳盡的網上漢字知識庫. 這也可以算是網上百科全書式知識庫的一個無比重要的分支, 一個我們都願意爲之終生努力的分支.

ksec_33-0_25_t1.jpg32.2KB

Reference

1.藺蓀(2000), 「漢字教學{的科技出路」. 見張普主編第二屆中文電化教學{國際研 討會論文集, 桂林(中國), 廣西師範大學{出版社.
2.藺蓀(2004), 「多媒}體教材資源庫」. 見張普․謝天蔚․徐娟主編, 數字化對外漢 語教學{理論與方法研究-第四屆中文電化教學{國際研討會論文集, 北京 (中國), 清華大學{出版社.
3.藺蓀(2005), 「語料語言學{在語文學{習中的應用. 見信世昌主編」, 第四屆全球 華文網絡教育研討會論文集, 台北(臺灣), 國立台灣師範大學{華語文教 學{研究所.
4.藺蓀(2010), 「漢語語音知識庫的建構\」, ICLIT2010 第五屆文學{與信息技術國 際研討會論文集(電子版), 台中(臺灣), 亞洲大學{信息學{院, 7.
5.Lun, S. C. (2005), An Integrated Approach to Computer-Assisted Language Learning. Hong Kong, LangComp Co. Ltd.
6.Steven, H. Dam. (2009), Ph.D. KBAD - A Cost-Effective Way to Conduct Design and Analysis. Systems and Proposal Engineering Company (SPEC).