郑码输入法(汉字输入法)

郑码输入法是一套字形输入法,其发明人是中国著名文字学家、《英华大词典》主编郑易里教授。其构造比五笔字型先进,但未能流行。微软的Windows95中文版中就装有“郑码”输入法。它是一种形码,与常见的形码有许多相似之处:比如它也是从汉字的结构入手;也要将汉字分解成若干部件;也要按某种规律安排键位;也要建立某种汉字的拆分规则等等。

郑码在汉字编码字符集范围、词库容量、字词平均码厂、动态字重码率及符合语言文字规范等方面都取得了突出的成绩。随着郑码的普及,它拥有了较多的用户,尤其在处理大字符集方面它具有较强的适应性,它的输入速度也比较快,是一种较好的形码输入方法。

郑码输入法(汉字输入法)

程序特点

郑码输入法中有许多思想与五笔字型思想非常相似,很难说谁借鉴了谁,总之都是发明者对中国文字做了大量研究的结果。在郑码中对于汉字的笔画也规定为“按一定走向连续完成的一笔”,也分为五种,分别是:横、竖、撇、点、折(也分别包括横提、向左的竖钩、捺等形近的变体)。

对于汉字的形成认为是分为笔画、独体字与合体字三个层次;也认为字根是汉字形体的基础单元;郑码中的字根也分为成字字根和非成字字根两大类;也认为汉字合体字的字型中可以分为左右型、上下型和包围包孕型(这与五笔字型中的非类略有区别,实际上五笔字型中的杂合型字大部分是这里的包围包孕型);也按笔画分类分区排列键位;一个汉字(或词组)最多也是键入四键;也有像五笔字型中的一级简码那样的高频字;也有二级简码。

为了适应不同用户的需求,郑码输入法又分为《普及型》和《标准型》两种。这两种方法所用的基本字根的分类排列规律是一致的,编码规则也没有多大的差别。《普及型》的编码规则较简单,较易学,适合一般办公人员或年龄偏大的用户使用,但重码略多;《标准型》的编码在基本字根的代码方面有不同,除第一主根外每个基本字根都被扩充了一个位码,减小了重码字,并适用超过2万字的中、日、韩国际标准汉字大字符集。

键盘布局

郑码是按英文母的顺序安排这170个基本字根的,是标准输入法,将英文字母键盘分成了26个跟区。研制者将26个英文字母按顺序分成了横起笔类、竖起笔类、撇起笔类、点起笔类和折起笔类等五个区。每个区中所含字母(根区)个数不等,所以郑码的键盘图不像五笔字型的键盘那样具有明显的分区键位。

横起笔类中含A到H共八个字母键位;竖起笔类中含I到L共四个字母键位;撇起笔类中含M到R共六个字母键位;点起笔类中含S到W共五个字母键位;折起笔类中含X、Y、Z三个字母键位。

分类分区的依据就是起笔的“笔形”,然后再按第二笔和第三笔的笔形排列每个区内的基本字根与英文字母的对应顺序。具体做法是:先按使用功能将基本字根分为主根和副根,再按起笔笔形将主根和副根分为上述的五个大类(横起笔、竖起笔等)。主根的键位确定之后,副根按自身的笔形从属相应的主根。

而主根又被分为第一主根和第二主根两类,第一主根是组字能力最强的基根,共26个,如基根(第一主根)“一、土、王”的代码就是A、B、C等等,他们的代码就是一代表根区的英文字母作为代码;并不是每个根区都有第二主根的,在郑码的标准方案中,为每个第二主根又规定了一个位码D,这样第二主根就有两个字母作为代码,(叫做2码根,而相对来说第一主根就叫做1码根)。

避免了诸多基根共用一个根区代码而造成重码率高的现象,例如基根(第二主根)“二”的代码就是BD,基根“三”的代码就是CD等。第一主根和第二主根共同提供了本区字根的笔形特征。

副根中大多数都是大家熟悉的规范的部首。在标准型中也为每个副根规定了一个位吗,这样副根也是2码根。例如副根“丁”的代码是AI,“气”的代码是MY,“穴”的代码是WO等。

副根的第一个代码是区码,第二个代码(位码)的确定共有四种情况,分别按如下规则执行:

按副根构形中含有的主根成分确定,例如前述的“穴”中含有O区主根“八”的成分,因此他的位码为O,这是副根位码确定的主要方式。

按副根构形中还有的笔画成分确定,如前述的“丁”中含有一笔竖钩,因此位码定为代表一笔竖的区码I。

按副根构形中含有的其他副根成分确定,如“示”的构形中含有K区副根“小”的成分因此位码定为K,整个菜码为BK。

几个特殊副根的位码需要强行记忆,如“山LL”、“匕RR”和“已YY”。

基根采用了双符代码后可以及大地减少重码,而且基根代码的排序非常有规律,使郑码具备了字典的查字码功能,为识字教学与计算机输入的结合创造了条件。

取码方法

单字首根(即第一个基根)的代码要按照实际码数取,不能有所省略。就是说,首根是1码根就取1码;首根是2码根就取2码(区码和位码都要取)。

为保证单字编码不超过4个字母,首根之后的其余基根代码要根据不同情况决定取舍。一般是先舍位码,只取区码的1码。

例如:樱–木F贝LO贝LO女ZM–FLLZ

醒–酉FD曰K生MC–FDKM

但是,对于四基根和多基根字,还要将中间一些基根的代码全部舍弃,只取前两码和最末2个基根各1码。就是说,取两头舍中间。

例如:缩–纟Z宀WD(亻)一A白NK–ZWAN

糖–米UF(广)肀XB口J–UFXJ

词语取码方式

为使词语的代码不超过 4 个字母,编码时要根据词语中单字数的多少决定基根代码的取舍。

给词语编码时,只需取用基根的区码。

二字词

取每个字的首根和次根的区码各1码, 表述为:2 – 2

举例:数量 —- 米/U 女/Z 曰/K 一/A —- UZKA

第一主根作为单字参与构词,在需取 2 码时要在其代码后加“A”(与作为单字用的规则一致)。高频字参与构词时,要在其代码后加“V”。

举例:土地 —- 土/B 地/B —- BABV

三字词

取第一字首根的1码,取第二字首根和次根各1码;取第三字首根1码组成,表述为:1 – 2 – 1。

举例:科技馆 —- 禾/M 扌/D 十/E 饣/O —- MDEO

四字词和多字词

取前四字的首根各1码组成,表述为:1 – 1 – 1 – 1

举例:

轻描淡写 —- 车/H 扌/D 氵/V 冖/W —- HDVW

出污泥而不染— 凵/Z 氵/V 氵/V 而/G (不 氵) — ZVVG

简码的取码方式,对一些常用字或词,按一定的规则,取其常规码中的 1-3 个字符作为简略编码,称为简码。简码对专职操作员提高输入速度大有好处,非专职操作员不必特别去记忆。

一级简码:对应于 26 个高频字。

二级简码用该字首根和次根各 1 码组成。

举例:

把 — DY 找 — DH 管 — MW

需 — FG 取 — CX

个别常用词也有二级简码,就是取每字第一个基根的区码。

举例:

中国–JJ 国家–JW 一定–AW 我们–MN 政府–AT 开展–AX

北京–TS 上海–IV 天津–AV 合作–ON 各种–RM 采取–PC

三级简码

二基根字:取第一个基根的区码和第二个基根的区位码,如:处 — RID。

三基根和多基根字:依次取第一、第二和第三个基根的区码,如:散 — EQM。

程序历史

“计算机全汉字处理系统集成”荣获全国科技信息优秀成果奖

1.《郑码》专利名为《字根编码输入法及其设备》,是中国著名文字学家、享誉海内外的《英华大词典》主编郑易里教授经半个世纪对汉字的研究,后期和郑珑高级工程师共同创造的重大科技成果。1989年以其独到的科学性、新颖性、创造性和实用性获得中、美、英国专利。中国专利号89108851

2.1990年7月,《郑码》通过国家主管单位——《全国汉字输入方案评测工作组》严格评测,所有测试项目皆为优级。认为《郑码》做到了易学和快速输入结合,,从各方面均给予了国际领先的最高评价。

3.1990年11月,经我国著名中文信息专家、文字学家、标准化专家、计算机软件专家的国家级鉴定,肯定了评测结论,指出:《郑码》规律性强,把机器检索和人工检索有机地结合在一起,在理论上和实践上为汉字键盘输入字形编码作出了奠基性的贡献,并给予《郑码》汉字输入系统在国内外编码方案中具有领先水平的最高评价。

4.1991年5月,国家语委专家就《郑码》编码系统的文字规律进行审查,认为《郑码》汉字输入系统在基本字根选用,字根笔画分类、笔形分区、取码笔顺等主要方面率先做到已符合国家语言文字规范,具备了广泛应用和推广条件。

5.1991年10月,应用《郑码》汉字输入系统完成世界最大汉字库——6万汉字编码,同时完成ISO-10646C.J.K20902国际标准汉字编码。

6.1992年4月,国家技术监督局召开新闻发布会,向国内外宣布中国国家标准科技攻关任务——中国电脑大汉字库建成,6万汉字已全部进入计算机,并同时完成国际标准ISO-10646统一中、日韩的20902个汉字字符集。这是世界上最大的汉字数据库,选用我国著名文字学家郑易里教授研究多年的重大发明——《郑码》作为检索系统,并实现了计算机检索,它的投入使用对国内外中文信息处理事业的发展产生了重大影响。

7.1992年9月,北京111中学学生用《郑码》参加“’92海峡两岸电脑汉字输入表演赛”荣获两项冠军、两项亚军,并创单项离散文本历届比赛最高成绩。

8.1992年10月,《郑码》荣获北京国际发明金奖和最优秀国际发明大奖。在十几个参展国家的1300项发明中,荣获金奖的有70项,而获得最优秀国际发明大奖的仅3项。

9.1993年2月,中国科学技术协会为总结90年鉴定会后《郑码》不断取得的显着进展,聘请了国内最权威的信息界专家对《郑码》进行评审。评委们也给予国际领先的最高评价。认为《郑码》符合国家语言文字规范,和汉字语文识字教学背景一致,易学、快速,适合各种字符集,不但应在全国范围内加强推广应用,而且第一次提出宜于在国际上推广应用。

10.1993年8月,用《郑码》的中学生获全国中学生计算机输入比赛《浪潮杯》冠军。

11.1993年9月,《郑码》发明人郑珑高级工程师以大陆杰出科技人士身份应邀访问台湾做学术报告,受到台湾中文信息界专家学者热烈欢迎和赞扬。

12.1993年12月,《郑码》选手在新加坡汉字输入大赛上荣获王鼎昌总统亲自颁发的、唯一的最佳选手金奖。

13.1994年4月,在国际上规模最大、档次最高的日内瓦国际发明展上,《郑码》编码系统继北大方正激光照排系统之后,成为我国第二个获得电子信息方面的金奖项目。评委们评价为:《郑码》汉字输入系统的发明对中国和亚洲地区文化信息事业的发展做出了重大贡献!

14.1994年5月中国长城计算机集团、中科院联想集团、北大方正新天地公司联合签约,应用推广《郑码》。

15.1994年8月,世界最大的软件公司——美国微软公司经四次派不同专家到中易公司考察后,初步确定选用《郑码》装入新开发的Windows3.2和Windows95中。

16.1995年2月,韩国最大的电子集团——三星集团在大陆和台湾广泛选码后,最终优选《郑码》作为公司中文信息产品使用的输入法。经对韩国姑娘培训、试用后获得很大成功并给予《郑码》高度评价,并出版韩文版《郑码》教材。从此《郑码》在韩国名声大振,学用人员与日俱增。

17.1995年3月“中央和国家机关司局长领导干部计算机普及培训班”经中组部培训局审核决定选用《郑码》作为对中央司局长输入法教学。

18.1995年8月,国家主管部门根据国家技术监督局和电子部的委托,为对国内外用户推荐规范化的输入法,对全国汉字输入法进行规范化评选。《郑码》名列推荐前茅。

19.1995年10月,美国微软公司正式优选《郑码》装入Windows95中文版中,支持20902国际标准汉字。

20.日本EPSON公司、新加坡、香港等公司都已选用《郑码》,并出版繁体字版和日文版《郑码》教材。

21.1996年10月,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获国家科委、国防科工委、中国科学院、中国科协、中国自然科学基金会五单位联合颁发的《全国科技信息优秀成果一等奖》。此为我国科技信息界最高荣誉。

22.到1997年,《郑码》已成为中国大陆装机率(80%)最高的汉字输入系统。

计算机全汉字处理系统集成”在香港荣获首届世界华人发明博览会大奖

23.1997年末,IBM公司正式签署《郑码》汉字输入系统专利使用权合同,在中文软件中全面使用《郑码》。

24.1998年末,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获“世界华人发明”大奖。香港特区首长董建华亲自颁奖。

25.1998年末,以《郑码》为核心的《计算机全汉字信息处理系统集成》项目荣获北京市科技进步一等奖。

26.1998年12月,《郑码》汉字输入系统经国家语委、国家质量技术监督局、中文信息学会、电子工业部等权威专家审核,其文字编码规律已完全符合新颁布的国家语言文字规范。这是唯一通过此审定的编码系统。

27.1999年,以《郑码》为核心的《计算机全汉字信息处理系统集成》荣获我国最高奖项《国家科技进步奖》。

28.2000年3月,以《郑码》为核心的《计算机全汉字信息处理系统集成》被中国软件行业协会评为1999年度中国优秀软件,并向国内外推荐。

29.2001年,Windows所有中文版从1995年全部预装《郑码》。2000年以后,在所有英文版的多文种处理中也预装《郑码》,在WindowsXP中又预装支持GB18030-2000全部《郑码》。

30.2002年,美国IBM公司全面预装《郑码》汉字输入系统。

31.2004年,以《郑码》系统为核心的中易大型古籍全文数字化工程系统,承担国家图书馆古籍《地方志》全文化工程中发挥关键作用。

基本原理

汉字是方块图形文字,每字由一至数个单元构成。例如“师傅”的“傅”字由单元“亻、専(音fù)”构成,其中的“専”又由单元“甫、寸”构成,可见“亻、甫、寸”是构成“傅”字的基础单元,构字单元的排列顺序,用图形可表示为(见图1.1)。如果把“亻”换成“氵”,在上面加“”头便构成“簿”字;换成“艹”头又成为“薄”字。以“薄”为例,构成“薄”字的基础单元是“艹、氵、甫、寸”,用图形表示为(见图1.2)。而基础单元由笔画构成,例如“寸”由笔画“一亅丶”构成。

用于汉字编码,将构字的基础单元叫做“字根”或叫做“部件”,构字的最小单元是笔画。也就是说,“薄”字由“艹、氵、甫、寸”4个字根构成;“札”字由字根“木”和笔画“(折)”构成。对这些字根我们并不陌生,因为许多字根就是我们熟悉的部首。

《郑码》给一部分字根安排了代码,这部分字根叫做“基本字根”。将基本字根和笔画的代码按一定规则代入即得到汉字的编码。例如:有基本字根“氵V、甫F、寸D、艹E、M、亻N、木F、又X”和笔画“乚(折)Z”,得到汉字的编码:“薄EVFD、簿MVFD、札FZ、权FX、树FXD、符MND”。这就是《郑码》编码的基本原理。

用键盘输入编码,通过机内码转换可在显示屏看见输入的汉字,同时可用打印机或激光发排机将汉字输入,印在纸张或胶片上,这样便完成了汉字输入和输出的全过程。

相关条目

郑易里

郑码

中文输入法

五笔

输入法

简体字

原创文章,作者:来自网友投稿,如若转载,请注明出处:https://www.ladyww.cn/article/20230106128909.html