摘要:本文报道中国理工科大学生英语写作语料库(CSEMWEC)的设计、构建和应用。CSEMWEC的学习者因素包括语料来源、英语学习年限、受教育程度和所学专业;任务因素包括文本类型、写作时限和工具书的使用。该语料库由通用英语、职场英语、学术英语等三个子库构成,库容规模达.6万词;其主要用途为理工科大学生写作能力标准制定、自主学习平台搭建、中介语短语特征研究、中介语历时研究、翻译研究等。
1.研制背景
学习者语料库指的是“按照一定设计标准、以改进外语教学为目的而采集的真实学习者语言电子文本集”。30多年来,语料库语言学借助大数量真实文本与强大的检索统计工具为语言描述和分析开辟了新的路径。20世纪90年代初至今,学习者语料库的快速建设和深度开发大大推进了基于语料库的学习者语言输出研究,也不断改变着传统二语习得与外语教学研究的面貌。
根据比利时鲁汶大学英语语料库语言学中心统计,截至目前,全世界已有超过部有一定影响力的在建或已建学习者语料库。其中,以汉语为母语的学习者英语语料库约占10%。其主要特点可概括如下:绝大多数为书面语语料库,库容规模在50万词至万词之间;写作任务通常分为当堂(或考试)写作与课后练习;文本类型以话题作文为主,涉及家庭、校园、就业等热点社会问题;横向(共时)研究占主流地位,几乎没有真正意义上的纵向(历时)数据。
国内学习者语料库建设的一般标准是该语料库能否代表中国学生,尤其是中国大学生这一群体的英语使用能力。文本类型集中于普通命题作文,极少触及特殊用途英语(EnglishforSpecificPurposes,ESP)学习者语料。香港城市大学开发的CAWE语料库(TheChineseAcademicWrittenEnglishCorpus)是为数不多的学术英语学习者语料库。再者,除了少数项目涉及英语专业-非英语专业的区隔,其余基本不作专业领域划分。事实上,随着语料库建设技术手段的提高,对语言变体的认识日趋加深,检查不同专业学习者的语言输出变得日渐可行且迫切。从国家教育改革和发展战略角度来说,这是高校分类教学体系的必然结果;从高校人才培养机制和社会需求角度上说,社会经济的增长极大地依赖于自然科学技术的发展。理工科大学生是国家高科技人才后备*,对掌握英语文献阅读、科技英语写作、职场英语交流等英语使用技能有迫切需求;从语言特征层面上讲,隶属于不同学科领域的专业人员所使用的惯例化语言表达形式常常有明显区别。因此,有必要系统考察中国理工科大学生的英语写作能力,以期获得尽可能多的真实教学反馈,从而改进外语教学手段。
在此背景下,笔者所在项目组启动教育部年度人文社科规划基金项目“基于语料库的中国理工科大学生英语写作教学体系研究”。项目的首要目标是建设大型理工科大学生学习者英语语料库。本文报道该语料库的设计和构建方案,并展望其应用前景。
2.设计原则
2.1总体规划
学习者语料库在外语教学研究中的具体作用取决于可控因素。这些变量大致分为两类:学习者相关和任务相关。前者包括学习环境、母语、外语水平等要素;后者包括任务时限、环境、工具书等要素。图1显示了本项目在设计标准上的总体考虑。
2.2语料来源院校
目标院校的抽样兼顾学校层次与区域分布,同时充分考虑是否有足够数量的理工科本科生和研究生语料可供使用。根据实际情况,项目组收取了来自12所大学的学习者语料。它们大体分为三个层次,每个层次含四所院校,分别作为东部、南部、西南、北部等四个地区的代表高校,以此尽力保证区域分布均衡。图2说明了院校分布情况。
2.3学科分类
理工科专业领域的认定涉及两种不同性质的分类:自然科学与人文社会科学之划分、理工科内部专业领域之划分。项目组制定学科划分方案的依据主要来自于如下文件:
(1)教育部印发的《普通高等学校本科专业目录》(年);
(2)国务院学位委员会、教育部印发的《学位授予和人才培养学科目录》(年);
(3)国务院发布的《国家中长期科学和技术发展规划纲要(6~年)》。
《普通高等学校本科专业目录》和《学位授予和人才培养学科目录》分别是我国本科生与研究生的学科建设指导性文件;二者详细说明了理学、工学、农学等理工科学科门类及一级学科划分。《国家中长期科学和技术发展规划纲要(6~年)》(以下简称《纲要》)指明了6年至年期间我国科技工作的指导方针、发展目标和总体部署,明确了重点发展领域、优先主题和前沿技术。我们有理由认为,《纲要》所述及的关键领域、技术和研究项目是新世纪以来发展最迅猛、前景最广阔的科技战略重点。因此,以这些学科为专业的中国大学生无疑应成为本项目的主要抽样对象。最后,在实际语料采集过程中,各院校招生数量普遍较多的基础性学科也给予一定的优先考虑,尽管有些并未在《纲要》中明确提及。
基于上述考虑,我们确定了十个核心领域和十个延伸领域,如图3所示。专业领域分类的首要意义是认定目标学习者群体范围,即按照“核心领域专业为主,延伸领域专业为辅”的原则采集学习者语料。
2.4文本类型
文本类型的区分直接回答这样一个问题:学习者因何学习语言?Hutchinson和Waters提出ESP这一概念,而后Dudley-Evans和StJohn进一步区分了“职业用途英语”(EnglishforOccupationalPurposes,EOP)和“学术用途英语”(EnglishforAcademicPurposes,EAP),皆视学习者需求为语言教学出发点。多年的大学英语教学实践使我们感到,中国大学生亟需掌握三类作文的写作技巧:通用英语写作(EnglishforGeneralPurposes,EGP)、职场英语写作(EOP)和学术英语写作(EAP)。EGP考察学生对常见社会话题的描述与评判;EOP体现工作场所中的实用英语运用能力;EAP显示研究生撰写研究报告的必要技能。王守仁(同上)认为,EGP是基础,而ESP(包括EOP与EAP)是“我国高校大学英语教学向更高水平发展的方向之一”。而且,三类文本具有极不相同的交际目的、主题、语篇、词汇-语法等特征。因此,有必要围绕文本类型构建三个子语料库,分别为EGP语料库、EOP语料库和EAP语料库。
2.4.1EGP语料库
EGP语料库采集本科生的一般话题作文。学生根据任课教师指定的话题,完成若干篇词左右的作文。其中,限时作文与非限时作文各取一半,以保证语料库覆盖不同环境下的写作任务。在数量上,根据实际情况,按照“中间大、两头小”的原则进行抽样,即第一和第三层次院校共提供50%的样本,第二层次院校提供另外50%的样本。
2.4.2EOP语料库
EOP语料库采集本科生的职场英语作文,其目的是考察大学生在熟悉的职业场景中运用英语进行基本沟通的能力。职场英语写作涉及求职申请、公司(产品)介绍、业务交流、信函往来等方方面面的内容;如由各院校任课教师自主命题,容易产生语料异质问题。鉴于此,由项目组提供指定话题,要求学生根据材料完成若干篇词左右的职场应用文。抽样原则、任务完成方式与EGP语料库基本一致。作文材料举例如下:
Inthistask,youarerequiredtowritetoa