作者简介:周小兵,中山大学国际汉语教材研发与培训基地教授,博导,主要研究现代汉语、汉语二语教学与国际汉语教材;薄巍,中山大学中文系博士,主要研究二语习得与对外汉语教学;王乐,中山大学外国语学院博士,主要研究功能语言学、应用语言学;李亚楠,深圳贝赛思国际学校教师,硕士,从事汉语国际教育研究。
一 引言
语料库语言学和语料库技术的发展日益革新,对语言教学的课程设计、教材编写与课堂教学均带来广泛影响(何安平,2010)。“语料库证据”指将大型语料库里真实语料的使用频率、常用搭配、前后语境等语言特征提取出来,为教材编写提供资源,指导教学中的语言选取、内容选编等(郭曙纶等,2011)。
长期以来,国内外基于海外非母语者教材(尤其是多次改版的经典教材)所建的语料库,开发和研究很不成熟。主要表现是:建库少,应用少,研究少。因此,有必要系统研究已编海外非母语者汉语教材的文本语料库。为行文方便,本文将此类库称为“国际汉语教材语料库”。
二 国际汉语教材语料库的建设
教材语料库建设一般分为两个阶段: 第一阶段是教材库建设;第二阶段是在教材库基础上建设教材语料库。下面以中山大学国际汉语教材语料库建设为例进行讨论。
(一) 教材库建设
全球汉语教材库由中山大学国际汉语教材研发与培训基地(以下简称“教材基地”) 建设。该基地由国家汉办、中山大学共建,2009年创办。
全球汉语教材库(www.ctmlib.com)收录国际汉语教材17,800余册(40个国家出版、57种教学媒介语)/ 种(该库中的“册”数是不重复的),实体教材10,000余册/种。现有教材库主要收集海外非母语者使用的汉语教材,不包括我国少数民族学习汉语使用的教材。教材库收录教材信息包括: ISBN 书号、书名信息(书目全名、外文题名、丛书名等)、作者信息(主要责任者、责任者附注、主要责任方式等)、出版信息(出版国家、出版社、出版年、版次、页数、价格等)、学习者信息(适用国家、适用水平、适用学校、语言环境等)、基本内容(教学媒介语、教材资源类型、汉字繁简体、注音形式、适用课型、语言要素、内容简介)、补充内容(教材介质、教材类型、专业汉语教材、文化类教材、练习形式等)、附载物(形式、数量、简介)、链接信息(本书介绍链接、购买链接等)、其他(样课、书籍封面、审核阶段等)。
每一册/种教材,详细信息含98个字段;最简信息35个字段。建库目的,是让世界各地的汉语教师和其他从业者(含教育机构管理者、出版社人员)及时从网上了解教材信息,找到自己想要的教材。
教材库提供国际汉语教材信息在线查询服务。用户可根据详细、准确信息,找到相关教材。也可以通过国别或地区、教学媒介语、教学水平、大致教学内容等模糊关键词检索出目标性、针对性较强的教材。自建库以来,教材库网站访问总量达532,572人次。
大容量的全球汉语教材库,为建设教材语料库夯实了基础。
(二)教材语料库建设
第一步,通过调研,选定首次进入教材语料库的教材。教材基地组建专门团队,对海外16个国家和地区的汉语教学和教材使用情况进行了考察。通过对97名海外汉语教育专家的访谈,形成了调研报告和调研方案。
在此基础上,通过专家遴选,初步确定首批入库的3212册/种汉语教材,涵盖19个国家,22种教学媒介语。教材选择兼顾了出版时间、语种、出版地、适用对象和课程类别等多个因素。
1. 注重时效性,2006年后出版的教材有1752册,占54.5%。
2. 覆盖当前国际汉语教材中较多的22个语种:日语、韩语、汉语、英语、越南语、俄语、泰语、法语、印尼语、西班牙语、德语、意大利语、荷兰语、印尼语、菲律宾语、阿拉伯语、冰岛语、芬兰语、哈萨克语、吉尔吉斯语、斯洛伐克语、马来语。
3. 兼顾中国和海外出版语教材;海外版教材1802册,占56.1%。
4. 照顾各年龄段,包含学前、小学、中学和大学各个层次。
5. 通用汉语类教材。包含当前国际汉语教学的主要课程———语言交际技能类,语言要素类,其他类(如唱歌、游戏、文化等)。
第二步,将选定教材的文本进行扫描或OCR处理,转化为电子文本。
第三步,对其中的字、词进行标注,制成在线检索系统。该系统存储并查询500万字的国际汉语教材语料库。
自然语言分词处理、分词人工校正以及文本特征标记服务于教材语料库的数据提取,为创建索引提供参照。教材语料库的查询环节包括过滤、校正字词和语法等文本要素,通过查询结果匹配度计算出频率并排序,实现教材语料库的搜索功能和结果链接跳转。
该库语料在汉语作为第二语言学习中具有一定的典型性、可教性等特征,检索结果反映的是汉语二语教学中的常用用法。
第四步,在此基础上,制成汉语文本指难针在线分析软件以及汉语字词档案在线分析软件,使教材语料库实现以下功能:教材语料的字词分析,教材文本语料的定级与评估。
三 国际汉语教材语料库的应用
国际汉语教材语料库的应用价值,主要体现在以下方面:教材编写指南的研制,教材评估与难度测定,测评软件的研制与使用,教材语料库与其他语料库的配合使用。
(一)研制教材编写指南
从学习角度看,不同的汉字、词汇、语法点,有不同的学习难度等级。从二语学习者、使用者角度看,不同的汉字、词汇、语法点,其使用频率也有区别。因此,教材编写必须考虑相关语言要素的频率与分级。对于教材的研究者、开发者来说,必须了解现有教材的汉字、词汇、语法点分级情况和文化点选用情况。
现有的汉字、词汇等级表,基本是根据汉语母语者使用频率研制的。现有的语法点等级表,只是参照汉语本体研究的语法体系;现有的文化项目表,更是根据对本族人的文化介绍研制。这些等级表和项目表,既未充分考虑汉语二语学习者、使用者的情况,也未充分考虑汉语二语教学和教材的情况。如果能依据国际汉语教材语料库,根据教材中汉字、词汇、语法点、文化点的出现频率,研制出相应的字、词、语法点分级表和文化项目表,将会直接促进汉语作为第二语言教材编写,对国际汉语教学有重要的指导作用。
因此,教材基地广泛收集国际汉语教材,形成国际汉语教材语料库,通过分析统计和分析单字、词汇、语法点、文化点进行频率统计,并结合国际汉语教学专家组的意见,教材基地于2012年研制出《国际汉语分级字表》《国际汉语分级词汇表》《国际汉语分级语法点表》和《国际汉语分类文化项目表》,并将其作为教材编写的指南,真正体现了教材语料库建设“从教材中来,到教材中去”。
1. 编制分级汉字表
《国际汉语分级字表》(2012)包含2719个汉字,选自3212册通用汉语课堂教材中频率较高的汉字;根据其出现频率高低,参考汉字与词汇的关系,分成四个等级:一级字869个,二级字784个,三级字574个,四级字492个。超纲字指不在这四个等级中的单字。
使用建议:零起点教材只从最常用的一级汉字中选取;初级教材汉字尽量只从一、二级汉字中选取;中级教材尽量只从一、二、三级汉字中选取,慎用超纲字;高级教材汉字使用相对自由,尽量覆盖四级汉字,超纲字最好不超过35%。
字表研发过程借鉴刘英林、马箭飞(2010)字表研制的方法,参考《汉语国际教育用音节汉字词汇等级划分》。基于教材语料生成字表后,在计算机上进行比对,删减重复部分。依据字词出现频率进行由低到高排序,并针对少量内容采取专家干预的方式,最终形成该字表。该字表避免了基于经验制作的做法,是一种标准化、规范化、系统化、科学化的等级水平划分。同时,字表制作过程删减了地名、人名等使用度较低的字。《国际汉语分级字表》采用大数据的计算机技术手段,不依据教材等级对词汇进行等级水平划分,而是将所有字词依据频率进行重新排序,避免了教材字词出现顺序对字词等级的影响。
2. 编制分级词汇表
《国际汉语分级词汇表》(2012)是通过统计、分析3212册教材中词汇的出现频率,并结合国际汉语教学专家组的意见确立的四级词汇表。词表研制过程中参考了《国际汉语教学通用课程大纲》。词汇表包括词汇8531个,分为四级:一级1032个,二级1999个,三级2155个,四级3345个。超纲词指不在该词汇表中的词汇。
使用建议:零起点教材的词汇除专有名词以外,应严格限定在一级词汇之中。超纲词应严格限制使用。初级汉语除专有名词之外,选词范围应该严格限定在一、二级词汇之中并做到尽量覆盖,超纲词不可超过20%。中级教材应从一、二、三级词汇中选择使用并做到尽量覆盖,可选用不超过30%的超纲词。高级教材词汇选择相对自由,教材编写中应尽量覆盖四级词汇,但超纲词不超过35%。
3. 编制分级语法表
通过对3212册教材中的教学(显性)语法点进行提取、标注以及频率统计和排序,并参考《国际汉语教学通用课程大纲》等相关大纲中所列语法点,最终研制成《国际汉语分级语法点表》(2012)。该表包含245个语法点(287项),分为四个等级:一级80个(102项),二级77个(88项),三级56个(62项),四级32个(35项);从一级到四级难度递增。超纲语法点指不在该语法表中的语法点。
语法点比较复杂,可分为四个层次,融在上述四个等级里。第一层次包括语素、词类、句子成分、单句、复句、固定格式六个部分;其中,语素部分仅在第三、四级出现。第二层次在第一层次基础上展开,如第一层次的词类,又包括名词、代词、数词、量词、动词、形容词、副词、介词、助词、连词等。第三层次介绍具体的语法点,如助词又分为语气助词、结构助词、动态助词等。第四层次列出具体的语法项。如动态助词又细分为四个语法项(即表中语法点后的“项”):过、了、着、呢。
语法点四个等级的使用建议是:零起点教材应覆盖30%以上的一级语法点,需要时可选用不超过10%的二级语法点,三、四级语法点应该严格限制使用。初级教材应尽可能涵盖一、二级语法点,限制使用超纲语法点,超纲语法点不多于10%。中级教材应基本涵盖所有三级语法点,限制使用超纲语法点,超纲语法点不多于30%。高级教材可根据教材性质和内容选取语法点,超纲语法点一般不多于35%。
4. 编制分类文化项目表
教材基地利用全球教材语料库对3212册国际汉语教材中的显性文化点进行统计与考察,参考了《国际汉语教学通用大纲》《AP汉语与文化课程概述》等相关大纲,制定了《国际汉语分类文化项目表》(2012)。该项目表分为五个一级项目———中国国情、成就文化、日常生活和习俗、交际活动、思想观念。该项目表共四层,第一层项目5项,二层项目38项,三层项目179项,四层项目61项。
《国际汉语分类文化项目表》为国际汉语文化教学总体设计、课堂教学、教材设计与测试提供依据和参考。教材编写者在使用该表编写教材或设计文化内容时,可根据具体情况从项目表中选取合适的话题,也可把话题综合概括介绍。当然,也建议使用者以现有教材为基础,继续探索补充新的文化素材和主题,优化项目表的设置。
(二)教材评估与难度测定
国际汉语教材语料库为教材评估与难度测定提供了研究语料,依托语料库可以评估和测定教材中的词汇、成语、练习、文化项目等内容。
1. 教材评估
词汇方面,周小兵、陈楠(2013)在教材语料库的基础上,对比了两种“一版多本”教材(《新实用汉语课本》共7个语种,包括英语、法语、西班牙语、日语、韩语、泰语和阿拉伯语;《当代中文》除上述语种外,还有印尼语和意大利语,共9个语种),与6部9册海外汉语教材词汇本土化情况。发现海外教材的本土词汇涉及面多于“一版多本”教材。海外教材本土词汇数量远远高于“一版多本”教材。
成语方面,周小兵、程燕(2013)基于语料库系统考察31册汉语二语教材,发现教材选用的成语跟《汉语水平词汇与汉字等级大纲》差别巨大,教材成语过多,超纲、越级成语过多。该研究对比母语者语料库,发现《汉语水平词汇与汉字等级大纲》中成语很多是汉语母语者的低频成语,难度等级不合理。
练习方面,陈楠、杨峥琳(2015)对3部美国、日本、韩国编写的汉语教材和3部在中国使用的英语、日语、韩语教材进行考察对比发现,面向不同地区的教材练习,在学习策略上有显著差异,如美国教材注重社交策略、日本教材突出认知策略和记忆策略等。原因是教材练习体现出的学习策略应与当地教学法协同一致。此研究为国际汉语教材练习的区域化和本土化提供借鉴和参考。
文化方面,周小兵等(2010)参考其他语种的经典二语教材,系统考察了9部汉语文化教材。基于语料库的查询、统计发现,汉语文化类教材普遍存在以下问题:学习对象、目标不明确,内容偏重古代文化知识,语言难度偏大,跨文化体验型练习不足。通过对教材语料的细致统计,还发现以下有趣的现象:课文语言难度,对话体比非对话体要低;有非母语者参与的对话,比纯母语者参与的对话难度要低。此研究对文化类教材编写有启发。
2. 难度测定
教材语料库可用于教材词汇方面的难度测定,属于教材词汇层面的评估。研究者可以使用语料库和词汇分析软件,统计分析教材选词情况,从而判定教材难度如何,是否适合学习者使用。周小兵、刘娅莉(2012)依据《汉语水平词汇与汉字等级大纲》(国家汉办,1992),横向比较国内外各4部初级汉语综合课教材的词汇,发现甲、乙级词比例,国外教材高于国内教材;越级词、超纲词比例,国内教材高于国外教材。国外教材中,非华人作者编写的教材,甲、乙级词汇比例高于华人作者编写的教材;越级词、超纲词比例,低于华人编写教材。相对国内教材,4部国外教材的词汇等级与分布更符合《汉语水平词汇与汉字等级大纲》(同上)。更有趣的是,对比还发现,国外教材词汇中,汉语母语者使用的高频词、次高频词的比例,远远高于国内教材。
(三)测评软件研制与使用
在教材语料库基础上,可以研制出相应的衍生工具,如教材语料难度分析软件等,促进智能化的教材评估、研究和编写。例如,“汉语文本指难针”(金檀、李百川,2016)是基于国际汉语教材语料库研制、面向汉语作为第二语言教学的文本语料难度测评工具。该工具采用语言数据智能技术,以“汉语教材语料库”中的课文语料为数据基础,提供汉语文本语料的难度评估与改编反馈。在评估汉语文本难度时,可提供文本定级、改编反馈与例句查询等三大功能。
在文本定级时,该工具主要基于汉字等级、词汇等级、平均句长与文本长度等指标来计算文本难度。汉字等级与词汇等级依据《汉语国际教育用音节汉字词汇等级划分》(中华人民共和国教育部、国家语言文字工作委员会,2010;刘英林、马箭飞,2010)中的字表与词表,平均句长计算每个句子所含的字数,最长句长指文本中字数最多的句子,文本长度计算文本所含的总字符数。计算文本难度所采用的是机器学习中的支持向量机算法。我们以《阶梯汉语·中级精读1》(赵新等,2004)第10课“汉民族的红色文化”第一段为例进行测量。
红色是汉民族最喜爱也最常用的颜色之一。红色的种类很多,比如红中带紫的紫红,颜色较浅的粉红,颜色很浓的大红,像火一样的火红,像血那样的血红,还有跟红橘子皮一样颜色的橘红,等等,真是数也数不清。与汉语中的多数颜色词一样,红色包含着深厚的汉民族的文化心理和感情色彩,具有丰富的文化象征意义。
通过测量,该文本的平均句长为43,文本长度为127,难度划分为三级,对应中级水平。这说明,教材中该段落适合中级学习者学习。经检验,该工具的定级准确率已超90%(林星彤,2016)。由于定级准确、操作方便,汉语文本指难针已被许多二语研究所采用,例如许琪(2016)。
在改编反馈时,该工具主要提供词汇等级和最长句的标注。词汇等级方面,该工具对初级词、中级词、高级词、更高级词和超纲词进行标注,分别对应通用大纲的一至四级以及超纲词,这里的超纲词指未出现在《汉语国际教育用音节汉字词汇等级划分》(2010)中的词汇。上述词汇分别用不同颜色标注(黑、绿、黄、紫、红)。仍以“汉民族的红色文化”第一段为例,该文本中,“喜爱”“种类”“紫”“浅”“火”“清”“包含”“着”“深厚”“心理”“色彩”“象征”为中级词(标注绿色)。文本中还出现了一些超纲词(标注红色),如“紫红”“火红”“血红”“红橘子皮”“橘红”“等等”“真是”等。教材编写者可视情况替换或改编上述超纲词。另外,虽然最长句并不一定是文章中最难的句子,但对最长句进行下划线标注反馈,仍可视为文本改编的有效方法。
在例句查询时,该工具依据“全球汉语教材库”中的3212册/种教材语料信息,基于“频数驱动”理念,筛选出最具代表性的教材语料数据,从而实现通过词语查询例句的语料库检索功能。使用者可以根据需求,输入特定词语(如“见面、满足、都、了”等),找出各类教材中该词汇或语法点呈现的句子或语篇,用于编写教材、教辅或教学实施。使用者可以通过“查询”功能,明确某些超纲词在教材语料库中的使用情况,进而决定对这些词汇的取舍。如文本中出现的超纲词“橘红”,点击该词,进入查询,使用者会发现教材语料库只收录了3个例句。这说明,作为超纲词,该词在其他教材中使用较少。但为了保持原文的表达效果,可以选择不做修改。
该工具的文本定级功能对教师来说具有参考价值。通过工具的分析,每一篇文本都可确定自身的难度等级,从而帮助教师解决以往选材时主要靠个人经验和主观判断的问题。词汇反馈功能可为教师们提供有效的参考,帮助教师解决因缺乏参考而过于随意的问题。在教授生词、语法时,该工具的例句查询功能可为教师提供相应的例句参考,可以解决以往选择例句困难的问题。
(四)教材语料库与其他语料库的配合使用
汉语作为第二语言教学的学科建设,必须解决“教什么、怎么教、怎么学”这三个基本问题。(赵金铭,2001)要很好解决这些问题,需要综合使用教材语料库和其他相关语料库。这些语料库有:目标语语料库;学习者母语语料库;中介语(二语学习者)语料库。
1. 相关语料库的功能
在二语研究中,这三种语料库和教材语料库的功能有一定分工,需协同使用。
目标语语料库可以考察“教什么”。如:a.看学习者中介语表达,跟目标语母语者使用有何异同。形式不同,会被认定为“错误”。如韩国人说“*我一小时学习了”。频率不同,可显现二语使用特点。如“见面”在“离”状态时(见了他两面)的使用频率,母语者远高于二语者。b.从某个语言项的使用情况、频率中总结出它的具体用法,并从中概括出规则。如表示总括的“都”,从其位置、搭配可总结出其用法,从用法、频率可概括出规则。
中介语语料库(学习者语料库)可以考察“怎么学”。功能有:a.看中介语语言现象跟目标语对比有何异同。形式跟目标语不同的是错误。通过正确率、错误率统计,可看出特定语言项的习得状况。如同一个学习者,“我学了一小时”的频率超过“我一小时学了”,证明基本习得该语言项。大范围统计,可概括出语言项的习得顺序。b.从特定语言项的使用情况、频率等,总结它在中介语中的用法、规则和发展趋势。
学习者母语语料库可以考察“怎么学”。如:a.跟目标语语料库对比,看学生母语与目标语的异同。若形式相同,会产生正迁移。如:我有汉语词典。/I have a Chines dictionary。形式不同,可能发生负迁移。如:我比他高得多。/I am much taller than him.英语区人容易出现“*我比他很高”。b.系统对比学习母语与目标语,概括两种语言的规则和系统差异。
国际汉语教材语料库可考察“教什么、怎么教”。如:比照教材语料库特定语言项目的相关信息与其他三种语料库的异同。如存现句否定式(“墙上没挂着画儿”“桌上没放着书”)在汉语母语语料库中使用频率极低,但不少国际汉语教材却用了不少篇幅讲解。此现象涉及“教什么”。事实证明,该句式其实没有必要对二语者进行教学。
各类语料库可根据学习者母语不同进一步分类。如学习者母语语料库,可分英语、日语等语料库。中介语语料库也如此。台湾师范大学有英语母语者学习汉语的中介语语料库。教材语料库可根据教学媒介语分类,以便凸显教材的国别化、本土性特征。如阿拉伯地区的教材,“酒、猪肉、比基尼”等词语是否出现,如何呈现,就要慎重考虑。
2. 教材语料库与相关语料库综合使用案例
下面以二语者使用离合词“见面”为例,看如何使用多种语料库进行考察。
第一步,用中介语语料库考察二语者“见面”使用情况。如:笔者统计北京语言大学HSK动态作文语料库“见面”使用情况,总频次为281,其中正确频次为236,正确率达84%。
从中介语角度考察,可以把出现“见面”的句式分为以下几类:
A. 能愿/否定/频度……+见面+了———我们又能见面了。(错误极少)
B. 时/地等状语+见面———我们每天都在学校见面。
* 他们隔了好久才见面在一个公园里面。
C. 跟+宾语+见面———如果我没跟她见面的话,我可能现在不学汉语。
*回去我的国家我就见面同事。
D. 见+了/过/……+面———我们去年见过面。
*这么多年都没见面过。
E. 见+次数词+面———我和家人一周见一次面。
* 一年之中一两次我跟他见面。
F. 见+对象+的/一+面———他们不想见对方的面。
*我一见他面就觉得有一些奇怪的感觉。
以下是这五类句子的使用情况。
由表1可知,外国学生使用“见面”,“合”时正确率高,“离”时正确率低。
对比母语者使用频率。请看表2:
对比两个表可知,“见面”“离”的状态,二语者频率为12.7%,远低于母语者的34.2%。
第二步,用双语语料库考察汉外语言对比,探索二语者错误、回避“离”态的原因,是否跟母语有关。此处只列举英汉、韩汉对比,使用“二语星空”英汉语料库(http://www.luweixmu.com/)和沪江韩语学习网站(http://kr.hujiang.com)。
第三步,使用国际汉语教材语料库考察“怎么教“,统计教材对“见面”的呈现情况,看教材、教学对学习可能产生什么影响。下面是教材库中部分教材展示的“见面”例句:
A. (能愿/否定/频度…)+见面(+了)
马老师:我们还在一个学校,会常常见面的。(《乘风汉语》4)
咱们聊聊天儿吧,很久没见面了。(《发展汉语》,高级上)
B. 时/地等状语+见面
田中平:好吧,七点一刻见面。(《新编汉语教程》1)
过一会儿我们在咖啡厅见面。(《中国全景·中级汉语》3)
C. 跟/和/同+宾语+见面
太好了,我也想和你见面。(《乘风汉语》3)
她说三点钟跟我们见面。(《拾级汉语》第2级)
D.见+了/过/……+面
毕业后,我们再也没见过面。(《博雅汉语》初级起步篇II)
路易斯:见了面,我给你介绍。(《中国全景·中级汉语》1)
E.见+次数词+面
我想跟你见一个面。(《当代中文》)
传说王母娘娘只许牛郎和织女每年七月七日见一次面。(《新中国语》5)
D+E.见+过+次数词+面
我们曾经见过一次面,后来就没再联系。(《走进中国中级汉语》)
我们见过三次面。(《目标汉语基础篇》6)
F. 见+对象+的/一面
如“见他的面”“见妈妈一面”,教材库中没有体现。
句式分布情况如表3所示:
教材解释“见面”基本用英语tomeet注释;多标注为“动词/V.”,极少数标为“离合词”。拼音多是jiànmiàn(说明是一个完整词),少数为jiàn//miàn(说明是离合词)。
通过分析统计教材语料库,可以看出目前教材普遍的问题是:呈现“见面”句“合”态(尤其是对象不用介词导引的AB句式)比率过多,“离”态比率太少,仅占18.89%。学生使用“见面”偏误多(“离”态频率高),常回避“离”态“见面”,跟教材输入的严重不足密切相关。
从以上案例分析可知,教材语料库跟其他语料库配合使用,可以解释学习者偏误产生的部分原因,可直接促进教材研发和教学实施,有助于解决“教什么、怎么教、怎么学”。
四、 问题与展望
本文阐释了海外非母语者汉语教材语料库的开发和应用。我们认为,目前国内教材语料库建设存在以下问题:
1. 类别少,内部分类不够科学。海外非母语者教材语料库主要收录通用汉语教材语料,缺少专用汉语教材(如商务汉语、旅游汉语、医学汉语等)语料。在通用汉语教材内部,没有区分面向华裔的传承语教材和面向非华裔汉语教材。
2. 规模不大,中山大学国际汉语教材语料库目前国内规模最大,但仅有500万字。跟实际教材相比,汉语教材库收录的教材数量还是太少,且多以纸质媒体教材为主。多媒体教材只能查询基本信息,未将其纳入语料库建设。
3. 加工处理不够。如多数教材语料库仅做了分词、词性标注等加工。国际汉语教材语料库只能对字、词、显性语法点、显性文化点进行标注。教材的图片、表格、练习等内容尚未进行深入加工。
为了满足全球汉语教育的迅速发展,满足从业人员对教材研发使用的迫切需求,面向海外的非母语者的汉语教材语料库建设,应该着力做好以下几方面的工作:
1. 加大语料库类别建设、规模建设,强化语料库内部的分类建设,以提高语料库使用范围和使用效率。从分类上看,教材语料库的分类,可以考虑分若干层次进行。例如:第一层,区分传承语教材和非传承语教材。第二层,区分目标语环境教材和非母语环境教材。第三层,区分多媒体教材和纸质媒体教材。第四层,通用汉语教材和专用汉语教材。第五层,各年龄段的教材。第六层,汉语水平分层,如零起点、初级、中级、高级。此外,语别因素,国别因素,也需要适当考虑。
2. 根据需求,对教材语料进行系统、纵深加工。如,在识别字、词、显性语法点、显性文化点的基础上,进而对隐性语法点、篇章结构、话题点、交际点(含交际功能、交际场景)等进行标注。再进一步,对话语态度进行标注,对图片、表格等多模态资源进行标注。有了这些标注,将大大提高语料库使用效能。
3. 加强多种语料库综合使用功能的开发。作为教学的辅助性工具,教材语料库在功能上需要配合多种语料库共同使用,在应用上可作为词汇、短语、语法、文化等方面的参照依据,实现教学、教材之间的互动。
比较国内外教材语料库的应用,我们发现,国内教材语料库应用系统性不强,而国外这方面已初步形成从词汇到语法的各类应用,应用产品以词典、手机APP、教材等方式呈现出来。因此,我们认为,国内教材语料库发展的必然趋势,是依托现有教材库,编制出国际汉语教学各类大纲的参考依据,并形成教材编写的资源,通过从人工评定教材到机器自动评定的研发,构建出一套较完整的“人—机”评估模型基础,更好地应用于教学、服务于教学。
参考文献:略