在大模型时代,文言文重放光彩。[原创]

纯粹汉语 发表在 灌水专区 华声论坛 https://bbs.voc.com.cn/forum-60-1.html
文言文起源于殷商甲骨卜辞,是以先秦口语为基础形成的古代汉语书面语言。古代书写主要使用竹简、帛书等载体,材料昂贵且受限,促使人们使用单音节词(即以一个汉字表示一个完整词义的语言单位)和语法省略,以尽量精简文字。因此文言文具有简练、美化和稳定的特点。其与白话相对,前者为经过加工的书面语,后者为直白口头语。1918年后白话文逐渐取代文言文成为正式书面语。在当代,文言文的使用范围显著缩小,几近于无。但大模型时代为其发展带来了新的契机。
词元是大模型处理信息的最小单位,模型在推理(生成回答)时,需逐个处理这些词元。词元越少,意味着输入/输出的数据量越小,模型需要执行的计算步骤就越少,从而加快响应速度。
在相同模型条件下,减少词元使用量有助于提升运算速度。文言文行文简练,用词精炼稳定,信息密度大。在表达相同语义内容时,文言文更节省词元,其语义密度远高于现代汉语,是大模型时代被重新发现的“语言压缩包”。
Token-Zip是由盈米基金(且慢团体)在2025年推出的开源项目,大意是指词元压缩。它的核心思想是:利用文言文信息密度高、词元数少的特点,在调用昂贵大模型前,先用低成本模型将用户输入压缩为文言文,推理后再还原为目标语言。实测效果:平均节省成本 51%,推理质量评分反而提升。部分场景(如法律、医疗、人文)最高节省达72%。(金融场景压缩率约45%)。
创造新时代的文言文,不必完全复古。不必完全文言化,半文半白也无妨,甚至更好。如“汝当速答”,写成“你当速答”,甚至“请你速答”(这已经接近白话了)。字数不变,现代人更能看懂。不管是文言白话,只要语言简洁、通顺、明白,不会产生歧义就行。就是说,只需要借古代文言文的形式,内容可用现代汉语的语言文字。当然,这已不是纯粹的文言文,所以叫它“现代文言文”。
人智使用“现代文言文”,还可以把古汉语文言文中不必要的虚词去掉,更能减少词元消耗,使它更简洁,明确,如:“陈涉者,阳城人也。”(《史记.陈涉世家》)写作:“陈涉,阳城人。”更简单明了,又能加快运算速度。也不必使用通假字,语法省略不省略也不必纠结。文言文让汉语在人工智能领域更占优势。
在需要精确术语、法律条文或技术说明的方面也可以使用文言文。《梦溪笔谈》、《天工开物》等古代科技著作,都是用文言文写的;古代的典章制度也都是文言文的。
词元压缩不仅是一个“省钱工具”,更揭示了中文在人智时代可能具备结构性信息压缩优势。
中国还有成语。成语是中国人民长期以来习用的、简洁精辟的定型词组或短句,富有深刻的思想内涵,简短精辟易记易用。有些成语本身就是一个微型的句子。成语就是一个现成的“语言压缩包”。文言文和成语是汉语的先天优势。