分享好友 最新资讯首页 最新资讯分类 切换频道
王克非:构建新型的历时复合语料库
2024-11-07 22:21

作者为国家社科基金重大项目“大规模英汉平行语料库的建立与加工”首席专家、北京外国语大学教授

王克非:构建新型的历时复合语料库

20世纪语言学研究,从索绪尔开始,获得极大的进展。其中在方法和工具层面的进步,以语料库的研制与应用最具标志性意义。随着现代计算机技术的发展,单语语料库研制从20世纪中叶起步,至今已助力语言学研究取得不少新成果。双语语料库虽然迟至20世纪90年代上路,但势头很强,带动了双语对比、翻译及双语词典研编等一系列研究。

语料库研制存在的问题

目前国际上双语语料库研制的主要问题:第一,语料库大多文本来源单一、标注比较简单,且多为欧洲语言,其他双语语料库甚少,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学和翻译学角度研究语言与翻译问题。第二,少数双语语料库开展了相应的语言与翻译研究,但双语语料库在质和量上都有待提升。第三,语言是发展变化的,在外语和翻译的作用下,语言之间的各种接触可能导致语言发生另样的变化,原生语言和翻译语言也存在种种的相似和相异。国际上现有的双语语料库或是缺乏历时语料,或是语料库库容有限,上述研究课题也就悬而未探。第四,现有的无论单语还是双语语料库,很少做合成架构,即要么是单语或双语的,要么是平行或类比的,少见组合,不利于语言和翻译发展变化的考察和比较。

针对上述问题,尤其是第四个问题,有必要思考如何突破语料库研制的局限性。构建新型的历时复合语料库,就是我们最新的尝试。

历时语料库可提供各时期语言的相互比较,发现语言运用的变化及其过程,为语言变化考察、翻译研究以及翻译语言与目标语之间的互动,提供客观的描写和可分析的数据。在中外历史上都有不少翻译与目标语演化关系密切的案例。已往研究的语料来源不够丰富,考察范围有限,研究的深度和广度大受制约,对原生汉语同翻译汉语间的互动关系也缺乏了解,而这些都有望通过历时语料数据的获得和分析取得新的突破。

由此可见,研究语言及其变化不仅需要设计合理、规模较大的语料库,还需要平衡的历时语言素材。国际上,应对这一需求的历时语料库近些年开始构建。第一个历时语料库AVIATOR在1990年由伯明翰大学研制成功,另一个历时语料库ACRONYM于1994年建成。这两个语料库都使用连续出版的报刊为语料。代表性更强、跨度长达300多年的平行英语语料库(ARCHER)、4亿字词的美国英语历史语料库(COHA)也陆续建成。但是,单语的历时语料库还不能解决双语的和翻译的问题。例如,现代汉语(包括翻译的汉语)的发展变化,单从历时语料库还不能很好地考察,应加入更多的比较成分,如英语源语的因素、汉语译文的变化和汉语原文的变化,三者之间形成全方位的比较研究,才有可能更充分地描写和分析。因此,不仅要构建历时的语料库,还应设计复合的历时语料库。

历时—复合:语料库研制的一大突破

新型历时复合语料库的构建是语料库研制的一项重要突破,国际上在这方面刚刚起步。德国学者尤莉安娜·豪斯项目组近年构建了一个小型历时复合型语料库,共550篇文本、80万词。但因语料库容量小,语料不够平衡,时间节点不清,目前仅开展了初步的德英/英德翻译研究和语言接触研究。大规模英汉平行语料库——英汉双语的历时复合语料库,可以有效地解决上述语料库简单、语料库质量以及语料库的历时考察和复合对比研究等问题,为翻译与目标语之间的互动建立比较完整的描写和分析框架,使多层面、系统性的翻译和语言变化历时研究成为可能。

历时语料不是随意将各时期语料收集即可,需要平衡和分期。就汉语来说,语料的历时平衡要通盘考虑现代汉语发展的实际情况,分期采样,以便所建语料库能反映出现代汉语的发展轨迹,并在英汉平行语料库的基础上探究英汉语言接触及英语通过翻译对汉语发展产生的影响。在语料、库容、架构、历时、复合等方面必须突出自己的建库特点,突破国际上一般双语语料库的语料选取和语库架构等方面的局限,还要避免英国国家语料库(BNC)由于历时连续采样而造成的各阶段差异模糊的缺陷。

我们的设计思路是,在库容上达到1亿字词,含百万字词的口译语料,并进行深度加工标注。除了语料平衡和库容巨大这两点外,历时复合是创新亮点,复合即平行语料、类比语料、参照语料三结合,而非单一的平行语料。我们从汉语和翻译发展的动态研究出发架构历时和复合的语料库:将20世纪100年间的汉语语料分成三个阶段,约30年为一个阶段,重点采集各阶段某10年的语料,各阶段收集:(1)英汉平行文学语料400万字词。(2)汉语原生文学语料200万字词。(3)再辅以19世纪未受现代翻译影响的原生态汉语文学语料200万字词,以及不谙外语的单语作家语料100万字词,合计近2000多万字词。

历时复合语料库的构建除了注重时间段的划分,还需在语料取样上考虑双语文本和翻译研究的特定,即不同于一般的单、双语语料库,并需要考虑汉语早期白话文语料(包括翻译文本)有限,本研究在语料取样时做了适当变通,扩大了采样数量。英汉历时翻译语料库样本结构参照Brown语料库,样本大小参照挪威语/英语平行语料库(The English-Norwegian Parallel Corpus,ENPC),大多数样本为15000英语词和对应的25000汉字,汉语译文取样最多不超过30000字,一般从正文起始部分开始连续选取。

构建新型语料库时,还需要相应的语料库技术支撑,需要综合型的便捷检索平台。例如充分调用篇头(Header)标注中的文本属性信息,让这些元信息作为检索条件出现在检索平台界面上,提升复合检索水平;像类别、风格、体裁、作者、时间、出版社、时代等都可以用作检索条件,保证语料检索定向准确、针对性强。目前,以xml格式存储的语料可以在专门设计的平台上使用。

历时复合语料库的应用

最新文章
【X Screen(双4G)腾讯手机管家下载】LG X Screen 双4G腾讯手机管家16.1.19免费下载
腾讯手机管家专注手机骚扰拦截,动态守护手机安全,深度清理微信、QQ缓存,让手机体积减半,拒绝卡慢。---认真服务---【骚扰拦截
买手机要坚持己见,自己喜欢就是最好的!目前这4部手机值得一看
或许屏幕前的你,不怎么懂手机,每次买手机的时候都不知道怎么选?其实这不碍事,直接去线下看,看到喜欢哪个就选哪个,因为现在
欧洲杯魅力难挡欧洲影市大跌 足球强国无心观影
  上周五,派拉蒙影业的新片《马达加斯加3:欧洲大围捕》(以下简称《马达加斯加3》)相继在全球上映,而不到一天之后,欧洲杯开
【个人裂变】案例解析—碧生源是如何搭建私域流量池做好用户运营体系的!2024-12-18 06:04:51
案例解析—碧生源是如何搭建私域流量池做好用户运营体系的!在疫情期间,碧生源迅速调整销售策略,成立了社群营销项目组,推动全
梦幻西游手游神兽怎么打书 神兽打书攻略
梦幻西游手游神兽能打书吗?神兽宝宝能打书吗?神兽宝宝能不能打书是一件和有没有神兽没关系的事情,这纯粹是一种好奇,想知道神兽
SEO优化新手入门学习指南
关于新人想从事SEO作业来说,相对是比较简略的。SEO很根底的作业岗位分为SEO外链专员和SEO修改两个人物。从职位称号上看其实都是
长科要闻 | 学校举行第二届大学生职业规划大赛决赛
2024长春科技学院第二届大学生职业规划大赛决赛为深入贯彻党中央、国务院关于高校毕业生就业工作的决策部署,落实《教育部关于举
外贸SEO中,如何通过分析用户行为优化网站结构和内容提升排名?网站优
优化网站结构的策略在外贸SEO中,优化网站结构是提升搜索引擎排名的重要环节,合理的网站结构不仅有助于搜索引擎更好地抓取和索
有面子又实惠,合资紧凑型suv标杆
外观方面,新车的前脸采用了盾形样式的前格栅设计,格栅内部辅以黑色中网设计,一条镀铬饰条贯穿品牌logo镶嵌其中,其设计的非常
热搜榜公布!北京HPV综合医院排名更新:北京女性感染了HPV还能怀孕吗?
 在现代社会,HPV(人乳头瘤病毒)感染已成为一个普遍的健康问题,尤其是对女性来说,其影响尤为显著。HPV感染主要分为高危型和