校对指南 - 異體字詞典

异体字词典编辑校对指南

异体字源于同一个字的不同书写形式。汉字经过漫长的演变，从甲骨文、金文、篆书、隶书、楷书、草书到现在流行的宋体（明体），书写形式一直在变化。春秋战国时代，书籍主要刻于竹简，一个字多刻一划少刻一划是可以理解的，繁难字用同音的简易字替代也是可能的（所谓“通假”）。即使以后有了印刷术，也是需要刻字或制作活字的。东汉蔡伦发明纸张以后，毛笔成为主要书写工具，一个字容易产生不同的变体。再加上避讳造成的缺笔等，异体字的产生是很正常的。

另外，汉字主要是表意语言，为了确切地表达语义，字的数量一直在不断增长。通过添加偏旁，一个字有时分化为几个字。但是原字并没有消失，而是继续使用。这就是字的“繁化”。另一方面，民间常采用俗字来代替难写的字，这又导致字的“简化”。20世纪以来，简化字成为趋势，大陆在1956年公布了汉字简化方案，简化字成为国家标准。另外，修改了很多汉字或偏旁的字形，使之更为易读（所谓“新旧字形”）。简化和繁化，使得一个字的异体字更多。

此外，部分异体关系的形成源于同一概念的不同造字方式。例如，“杯”字从木，就其材质而造字，“盃”字从皿，就其器类而造字，虽然形式上差异较大，但因表示相同的概念故二字可相通。

很多字典都收录一个字的异体形式。如：

戮：通“勠”。（汉语大字典1515页）
𢑕：同“勠”。（汉语大字典1030页）
戮：〔古文〕𡠢𦐱。（康熙字典414页）

但是，这些异体字信息散见于各条目。系统地收录异体字的字典当属《异体字字典》。在“戮”作为正字时，一共收录了如下28个异体字：

另外，“戮”还作为另一个正字“勠”的异体字。

我们的异体字词典在异体字收录方面的原则，部分是和异体字字典一样的，即是尽量求全。但是，异体字字典收录的很多异体字，在Unicode国际标准中尚未编码。这就暂时不属于我们的研究范围（当然，未来Unicode标准修订了，这些“集外字”就纳入了我们的研究）。比如，“戮”，我们目前收录的异体字有（括号中的数字是在我们收集的至善古籍语料库中出现的频率）：
勎(109) 𠝧(0) 𠞨(0) 𡠢(0) 𡭁(0) 𢑕(0) 𣩍(0) 𦐱(0) 𦞋(0) 剹(111) 𦐟(0) 勠(1416) 僇(8628)

除了从一些权威字典（我们称之为异体字的“源”）中提取异体字信息以外，我们采用人工智能的方法，从古籍大数据中自动提取异体字。目前主要采用两种方法，一种称为深度学习，另一种称为众包。这两种源，在异体字词典中分别称之为word2vec和search。

不管一个异体字的信息是否在权威的源中有记录，我们都希望能在语料库中找出佐证。没有佐证，不足以取信（当然，我们目前的语料还不够全面，将来随着语料的更全，我们的结果也会进一步改进）。我们提供佐证的主要办法是找出“异体词”，即一个字的不同异体字和其他字构成的2字以上的词或词组（目前在计算机自动生成的佐证中，还只限于二字词）。

由于异体字词典目前是计算机全自动编辑，里面源于word2vec和search的异体字均由计算机自动找出，难免含有错误。异体字词典的校对，就是剔除这些不正确的异体字。（例如：search将“並”作为“𠊓”的异体字，将“義”作为“𣚘”的异体字，word2vec将“戀”作为“憐”的异体字，但根据例句可以看出这些字实际上并非异体关系，应予以剔除。）至于其他源的异体字，暂时不在剔除的范围，但是这些权威源的异体字，如果出现的频率较高，计算机又没有自动找出佐证，那么很有可能是错误。这种情形，可通过留言的形式，指出可能的错误。这时候，就需要说明理由。

此外，由于目前的所有异体词和例句都是由计算机自动生成，其中可能存在相当一部分错误，也需要在校对过程中予以修訂或剔除。

更详细的校对说明参见“校对举例”。

要注意的是，我们定义的异体字概念是比较宽的，包括古籍中出现的“别字”、“讹字”等。比如因避讳造成的缺笔字，我们认为是异体字。我们可以指出古人的错误，但是我们不去更改古籍的原貌。这样，使得我们的结果，可以用于更多的方面，如数字化古籍的校对。