会员登录|免费注册|忘记密码|管理入口 返回主站||保存桌面
《国学宝典》精准统计助力“数字人文”
2024-11-18IP属地 湖北3

《国学宝典》精准统计助力“数字人文”

《国学宝典》精准统计助力“数字人文”

  《国学宝典》是一套全面经过标点整理、专家审定的超大型中华古籍全文检索数据库。该数据库由尹小林先生20年前创建,20年间,数据库经历了由小到大,由粗到精,不断历炼完善的过程,迄今收书已逾万种,总字数逾22亿字,成为国内三大古籍全文数据库的翘楚。《国学宝典》是一个以古籍原文为基础的纯文本数据库,由于数据中不夹杂今人的注解和说明文字,因此可以完成各种复杂的统计和分析,直接产生每部(类)典籍的字频表和用字量。自下半年开始,我们将依托《国学宝典》这一独特功能,在权威的《数字人文》刊物和“国学网”上陆续发布重要典籍字频统计表。

《国学宝典》精准统计助力“数字人文”

本文原刊2022年3月23日《光明日报》理论版。

作者:

刘石,国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”首席专家、清华大学教授。

尹小林,首都师范大学国学传播研究院院长、电子文献研究所所长、中国诗歌研究中心专职研究员。

《国学宝典》精准统计助力“数字人文”

(左)尹小林 (右)刘石

《国学宝典》精准统计助力“数字人文”

以数字映射古代文学经典

大数据及其相应技术已经对社会知识体系及思维方式产生重大影响。基于这一技术对古代文学经典文本进行深度而高效的分析,可使文学研究进入更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。信息革命以来,古籍文献数据化积累和知识库建设卓有成效。浩如烟海的古籍,可以组成大小不等的任意文本集合,具有不同维度的数据特征。对它们进行基于字词、语句、篇体等方面的统计,可以获得不同于纸本阅读的认知。

对古籍进行散点透视

谷歌与哈佛大学利用其共同开发的数据库对公元1800—2000年出版的近520万册书籍的单词和短语的使用频率进行统计,任意词或词组在过去数百年典籍中的出现频率与变化趋势得以清晰呈现。这一词频统计器广泛应用于如探索名物的兴衰沿革、话题的热度变化、人物或群体的影响力等研究。

同样,大数据时代下新的技术和研究思路为弥补纸质古籍在结构化整理、大量资料汇聚排列、关系立体化勾连呈现等方面的不足提供了可能性。我们利用《国学宝典》数据库收录的超一万种逾22亿字的历代古籍精良数据,在其中筛选出最为核心的经典近百部,对其从用字量、用字比(TTR_H)、字频等不同角度进行统计,将时代与文体来源广泛的文献以前人不曾设想过的方式进行关联比较,获得了一系列涉及汉语史、文体学、知识考古学、蒙学研究、近代文白转型等众多领域与交叉学科的重大命题与发现,是“数字映射经典,技术更新人文”的有效例证。

纵向概览从先秦到清代典籍数据,首先可以关注到的是单部经典总字数和用字量的渐增趋势。显然,前者与文献的物质形态的变化发展直接相关,后者除了受中古汉语双音化等自身发展因素的影响之外,同样与汉代至中古以来总体书籍量的增长及社会的知识好尚有关。用字量排名靠前的首先是知识性工具书与承担识字教材功能的蒙学读本,如《尔雅》(3360字)、《水经注》(4490字)、《古文观止》(3863字)等。汉代以降,士人逐渐重视学术与社会观点的积累以及人生精华的总结,故而其著述常有丰厚渊博的知识性特质。“究天人之际,通古今之变”的《史记》与“言其大也,则焘天载地;说其细也,则沦于无垠”的《淮南子》用字量分别为4730字与3900字,在参与统计的上古至中古文献中十分突出,已可与明清长篇章回体小说作品比肩(四大名著和《聊斋志异》用字量在3931~4936字之间)。

仅依靠数据自身不能完成“智慧型”转化,比数据更重要的是阐释数据的方式。除了将统计分析与经典论题相关联,数据的切分与聚类也是至关重要的基础环节。一项经典研究案例是,将《红楼梦》以四十回为单位进行文本切分,最后一部分在用字量方面的显著不同刚好佐证关于作者的疑问。然而,以用字量直接衡量作品质量或阅读难度又会堕入机械的统计分析思维。例如统计中居首的几部小说文献,其体量大、涉及内容广、雅俗语体并包等因素共同提升了用字量。同样,受常用汉字总量限制,文献篇幅的增加反而会导致用字比下降。故而统计中引入计算语言学常用的TTR_H模型以修正用字比,最终结果显示,用字比最高者皆为蒙学读本:《千字文》(1)、《百家姓》(0.986)、《三字经》(0.894)、《声律启蒙》(0.857)。可见,编著者有意识地在有限的篇幅和内容难度中增加用字量,让学童能比较密集地习得尽可能多的汉字。蒙学读物的编纂者选字标准是什么,是当时常见经典文献中的高频字,还是日常生活中的常用字,还是有别的标准?这种选择是以何种方式完成的?这些都是值得进一步探究的话题。

从用字特征探测经典命题

字频统计中,考虑到虚字和实字的不同属性和阐释功能,二者通常被分别计算。虚词在汉语史等领域的研究中经常被作为特征数据使用,同时也是作品风格比对的标志性参数,虚词的使用比重本身便构成不同作者间的风格标识。“五经”之中,参照后世“文笔之辨”,《诗》为有韵之文,因而与其他几部书相比,高频词中实词比重更大,古人“实字多则健,虚字多则弱”的诗论观点或滥觞于此。以高频字的虚实映射“文笔之辨”的方法可推及后世,普遍而言,在诗歌与词曲等文体中,实词作为高频词的概率大于散文文体。

作为“五经”中成书年代最早的《尚书》,其虚字运用特征同样保存了上古汉语的流变痕迹。《尚书》中频次居首者是极具上古色彩的虚词“惟”,这不仅与其中许多篇目的记言性质有关,也体现了早期汉语与后来“之乎者也于”时代的分野。以相同视角观照近古作品,可以窥见汉语史上的另一重大变革。对话是小说中的重要元素,表达说话行为的动词自然享有高频地位,在《三国演义》与《聊斋》中体现为“曰”,而《西游记》和《水浒传》中则体现为“道”,这是后一组作品文言色彩减弱的重要标志。而真正的白话转型发生在《红楼梦》身上,“的”首次取代语法功能相同的“之”而上榜,成为第二高频词。《红楼梦》中居首的高频词是另一个极具白话特征的虚词“了”,这也是《水浒传》中的第一高频词。

与虚词相反相成的实词是文献内容和主题的映射,其背后涉及反映观念史演变的重大命题。同样以“五经”为例,《诗》《书》《礼》《易》《春秋》中的第一高频实词分别为“我”“王”“人”“象”“子”。《诗经》具有最强的主体抒情色彩,恰如《毛诗序》所谓“以一国之事,系一人之本”。《尚书》为上古三代帝王典、谟、训、诰、誓、命等文献记载,以记录“王”之言行为核心。孔子以“克己复礼”来约束人,“礼”是人内在品质的外化,因此谈“礼”不基于人则会失去根基。“象”作为《周易》的解读对象是不言自明的。“古者庖牺氏之王天下也,仰则观象于天,俯则观法于地,观鸟兽之文与地之宜,近取诸身,远取诸物,于是始作《易》八卦,以垂宪象。”《说文解字序》中的这段话,说明“象”不仅是《周易》的关键,也是汉字造字观念及中华文化思维的体现。《春秋左传》中首位高频字为“子”,其中包含第二人称单数与诸侯国君称谓双重意义。后者是《春秋》叙事的核心所在,孔子作《春秋》,正是为了以微言大义记录“礼乐征伐自诸侯出”的非常时代,作为编年体史书,各诸侯国君臣的秩序与道德选择构成了其潜在的纬线。

用数据来表征“诗分唐宋”

钱钟书《谈艺录》以“诗分唐宋”开篇,影响甚广。此说实承续前人而来,宋代严羽论诗便有“本朝人尚理,唐人尚意兴”之说。唐宋诗之别在于体格性分,相对较为玄妙。通过量化分析,可对其语言层面的特征作出细致把握。通过对《全唐诗》五万七千余首和《全宋诗》二十五万四千余首的词频统计显示,居于前十位的高频词分别为:不知、何处、万里、千里、不见、不可、白云、今日、春风、不得(《全唐诗》);不知、春风、平生、不可、万里、千里、人间、不见、十年、何处(《全宋诗》。下文中词频位序将在括号中注出,故不再一一说明)。

将统计扩展至前一百位,有关唐宋诗风之辨的许多命题都能够在语词的褶皱中被展开。作为严羽论断的例证,在前一百位中,唐诗里比兴尚意的写景语汇更居前列,如排名第7的“白云”与第11的“明月”,虽只是词汇片段,唐人气象俨若可见。作为参照,这两个意象在《全宋诗》词频统计中分别降至19与23位。严羽“本朝尚理”的观点同样能在统计数据中获得佐证:宋诗中“平生”(第3位)、“人间”(第8位)等哲思人生的“理语”排位较唐代(分别居于第30、13位)又有上升。另一点值得玩味的是,宋人虽崇尚自守慎独、内求于心的理学,诗中却不乏唐人所极少写到的“功名”(36)、“富贵”(78),而唐诗中常见的“惆怅”(15)、“相思”(22)等与“理语”相对的“情语”在宋诗词频列表中跌出了前一百位。

唐诗偏重空间,而宋诗偏重时间。敻绝的宇宙意识和无垠的空间,从《全唐诗》词频前五位中(不知、何处、万里、千里、不见)可见一斑。日本汉学家吉川幸次郎曾提出,唐诗是凝视着人生贵重瞬间的燃烧,所注视的只是对象的顶点。而宋诗是时间性的,诗人视人生为漫长的持续。以语词的统计来衡量这一观点,唐诗排序最高的时间词是“今日”(8),时空与情感凝注于此一点,而宋诗中居首的是“十年”(9),继而是“今日”(12)与“百年”(20)。吉川将“燃烧与持续”的说法推进至意象选用的对比方面,夕阳是燃烧的景象,雨是持续的景象,于是有了“唐人写夕阳宋人写雨”的经典论断。词频统计恰也验证了这点,《全唐诗》词频居于前列的“落日”(55)、“日暮”(59)、“夕阳”(69),在宋诗中都排在九十位之后。

不同于信息爆炸的现代,传世文献中的经典文本边界是相对清晰的,然而其体量对于专注于某一选题或领域的研究者依然难以全体掌握。基于大数据技术的古代文学经典文本分析,既着眼于经典文献,又以海量的基础文献为基础,希望在较短时间内用高效、全面的数据挖,来进行准确有效的文本分析。传统古典学研究中的结论多通过个人有限阅读过程中的观察、思索、领悟等方式获得,这类方式往往具备一定的主观性乃至先验色彩。大数据的汇聚和计算分析方法的运用,能够使既出人意表又允执厥中的结论“自动涌现”。

利用大数据将以往被分裂和隔绝的事物重新连接,改变了我们对文献、文本、知识的认识路径和把握尺度。仅从字/词频统计这一大数据手段的微小切面入手,我们便已初步获得了以一种新方式探测经史、语言学、文学等领域文献的体验。与用不同技术手段、不同结构化方式、不同颗粒度重构的集成式文献知识库相比,以上工作或许只是一份小尝试。相信随着统计数据的累积、叠加和映射,古籍和传统文化研究一定能够焕发出更多生机和活力。

《国学宝典》精准统计助力“数字人文”

专家寄语(排名不分先后)
《国学宝典》精准统计助力“数字人文”

哥伦比亚大学程健先生:

十多年来,《国学宝典》支持了整整一代哥大中国研究的教授学生,成为哥大师生在中国古典文献教学研究中不可或缺的工具。

日本广岛大学佐藤利行先生:

《国学宝典》使中国古典学研究得以世界规模快步向前迈进。

中国艺术研究院刘梦溪先生:

《国学宝典》是人文学科研究中不可或缺的工具,多年来受益极大。

中华书局程毅中先生:

莫愁宝典深于海,自有金针妙入神。

中国民间文艺家协会邱运华先生:

《国学宝典》的每一次成长,二十年如一日的坚持,其中艰辛,感同身受。

中国文艺评论家协会向云驹先生:

《国学宝典》的建设是一项基础性、示范性、表率性的工作。

中国社会科学院刘跃进先生:

随着古籍数字化的发展,诸如辑佚学等一些传统学术,很可能被逐渐替代而消失,而《国学宝典》便是这个替代者。

北京大学傅刚先生:

与学术界联系至为紧密是《国学宝典》的优势。

清华大学刘石先生:

国有珍奇堪传世,学无涯涘赖作舟。

清华大学廖名春先生:

《国学宝典》成长到如今的规模,所付出的努力可想而知,所带来的便利也是不言而喻。

中华书局柴剑虹先生:

期待《国学宝典》继续扩编。

藏书家韦力先生:

《国学宝典》应兼收并蓄,尽量存其原貌,方便进行版本差异比较。

首都师范大学赵敏俐先生:

《国学宝典》是古籍数字化时代的开创者。

华东师范大学胡晓明先生:

《国学宝典》是中国古籍接受史中的一座里程碑。

运城学院李安纲先生:

贰零廿二爱心真,国学精神宝典新。京兆翰林丰府库,大千一键掌中珍。

上海师范大学曹旭先生:

20年来,我们像一个农民感谢土地,像一个捕鱼人感谢手中的网,感谢《国学宝典》。

吉林大学沈文凡先生:

《国学宝典》是真正的数字化科技之星,中国古典文化研究的助力之星,也是中国古典文化的海外传播之星。

中南民族大学王兆鹏先生:

《国学宝典》打破了文献拥有的鸿沟,推进了文献资源的公平共享,也推动了学术的进步。

上海师范大学陈飞先生:

作为《国学宝典》的资深用户,特别抒写一篇《美“林”寄语》祝贺新版上线。

中华书局刘尚慈先生:

《国学宝典》已经长成参天大树,希望她茁壮成长,能够独木成林!

四川外国语大学周文德先生:

《国学宝典》推出的手机APP,跨上了新的台阶,实现了新的飞跃。

复旦大学吴格先生:

國學有寶典精誠廿載成鴻業,珍籍傳電波惠益八方紹千秋。

江苏师范大学李昌集先生:

二十年来,《国学宝典》伴随着我的每一天。

《国学宝典》精准统计助力“数字人文”

往期精彩内容
《国学宝典》精准统计助力“数字人文”

“国学时代”被认定为“专精特新”

20年磨剑,22亿聚珍,《国学宝典》文化航母启航

《国学宝典》建设与应用学术研讨会暨2.0版上线启动仪式在京举行

“人日”话唐诗

【数字国学馆】数字乡村文化建设解决方案

【数字国学馆】一站式国学教育解决方案

国学承载历史 时代弘扬国学

国学时代

与您一起分享

中国文化的真善美

《国学宝典》精准统计助力“数字人文”

此二维码为《国学宝典》手机App

下载安装,即可检索

《国学宝典》精准统计助力“数字人文”