异体字词典编辑校对指南

 

异体字源于同一个字的不同书写形式。汉字经过漫长的演变,从甲骨文、金文、篆书、隶书、楷书、草书到现在流行的宋体(明体),书写形式一直在变化。春秋战国时代,书籍主要刻于竹简,一个字多刻一划少刻一划是可以理解的,繁难字用同音的简易字替代也是可能的(所谓“通假”)。即使以后有了印刷术,也是需要刻字或制作活字的。东汉蔡伦发明纸张以后,毛笔成为主要书写工具,一个字容易产生不同的变体。再加上避讳造成的缺笔等,异体字的产生是很正常的。

另外,汉字主要是表意语言,为了确切地表达语义,字的数量一直在不断增长。通过添加偏旁,一个字有时分化为几个字。但是原字并没有消失,而是继续使用。这就是字的“繁化”。另一方面,民间常采用俗字来代替难写的字,这又导致字的“简化”。20世纪以来,简化字成为趋势,大陆在1956年公布了汉字简化方案,简化字成为国家标准。另外,修改了很多汉字或偏旁的字形,使之更为易读(所谓“新旧字形”)。简化和繁化,使得一个字的异体字更多。

此外,部分异体关系的形成源于同一概念的不同造字方式。例如,“杯”字从木,就其材质而造字,“盃”字从皿,就其器类而造字,虽然形式上差异较大,但因表示相同的概念故二字可相通。

很多字典都收录一个字的异体形式。如:

但是,这些异体字信息散见于各条目。系统地收录异体字的字典当属《异体字字典》。在“戮”作为正字时,一共收录了如下28个异体字:

另外,“戮”还作为另一个正字“勠”的异体字。

我们的异体字词典在异体字收录方面的原则,部分是和异体字字典一样的,即是尽量求全。但是,异体字字典收录的很多异体字,在Unicode国际标准中尚未编码。这就暂时不属于我们的研究范围(当然,未来Unicode标准修订了,这些“集外字”就纳入了我们的研究)。比如,“戮”,我们目前收录的异体字有(括号中的数字是在我们收集的至善古籍语料库中出现的频率):
勎(109) 𠝧(0) 𠞨(0) 𡠢(0) 𡭁(0) 𢑕(0) 𣩍(0) 𦐱(0) 𦞋(0) 剹(111) 𦐟(0) 勠(1416) 僇(8628)

除了从一些权威字典(我们称之为异体字的“源”)中提取异体字信息以外,我们采用人工智能的方法,从古籍大数据中自动提取异体字。目前主要采用两种方法,一种称为深度学习,另一种称为众包。这两种源,在异体字词典中分别称之为word2vec和search。

不管一个异体字的信息是否在权威的源中有记录,我们都希望能在语料库中找出佐证。没有佐证,不足以取信(当然,我们目前的语料还不够全面,将来随着语料的更全,我们的结果也会进一步改进)。我们提供佐证的主要办法是找出“异体词”,即一个字的不同异体字和其他字构成的2字以上的词或词组(目前在计算机自动生成的佐证中,还只限于二字词)。

由于异体字词典目前是计算机全自动编辑,里面源于word2vec和search的异体字均由计算机自动找出,难免含有错误。异体字词典的校对,就是剔除这些不正确的异体字。(例如:search将“並”作为“𠊓”的异体字,将“義”作为“𣚘”的异体字,word2vec将“戀”作为“憐”的异体字,但根据例句可以看出这些字实际上并非异体关系,应予以剔除。)至于其他源的异体字,暂时不在剔除的范围,但是这些权威源的异体字,如果出现的频率较高,计算机又没有自动找出佐证,那么很有可能是错误。这种情形,可通过留言的形式,指出可能的错误。这时候,就需要说明理由。

此外,由于目前的所有异体词和例句都是由计算机自动生成,其中可能存在相当一部分错误,也需要在校对过程中予以修訂或剔除。

更详细的校对说明参见“校对举例”。

要注意的是,我们定义的异体字概念是比较宽的,包括古籍中出现的“别字”、“讹字”等。比如因避讳造成的缺笔字,我们认为是异体字。我们可以指出古人的错误,但是我们不去更改古籍的原貌。这样,使得我们的结果,可以用于更多的方面,如数字化古籍的校对。