中国字体多少厘米?
“字库”这个词可能不太准确。现在通常说的字库是指电脑里的字符集,即数字计算机可以识别的字符集合。这个集合里一般包括英文、汉语拼音等西文字母和符号,以及阿拉伯数字等。 而中文由于汉字的复杂特点,目前还找不到一个包含所有中文字形的字库(当然,你可以说“所有中文字形”不是一个严格意义上的“字”)。 比较靠谱的说法是,目前字库只收录了部分简繁汉字和少数异体字,但包含了所有现代汉语字和绝大多数古汉语字。
因为汉字是形体复杂,书写方式多元的文字体系,所以从字形上来说没有“多大”“多小”的概念;而字库作为一种数字化存储信息的方式,它的单位也是“字节”,也就是二进制数。尽管我们平时觉得一个字大概就几平方厘米,但是用二进制来表示字的外形时,却可能是“无穷大”的,这跟“多大”似乎也没有关系…… 从技术角度来说,我们一般认为字库里的每一个字符占据的内存大小为1个字节,但这只是一个理想化的假设而已——实际上考虑到字体渲染时的优化策略问题,一个汉字往往会有多种版本的字体文件,这些字体文件中会包含若干个用来模拟真实视觉效果的“字形组件”,每个字形组件又会有不同的轮廓线描述、色彩方案等等,所有这些因素都会影响字库占用内存的大小。 所以当说到某款字库有多大时,其实指的是这款字库所包含的字形数据量是多少,跟我们平时感觉到的字库的大小完全是两码事。
举个栗子: 上图左侧为一个简繁汉字字库的一部分,共42953个字形,42880个字(这里为了便于展示,将重复的字形去掉了)。那么,根据已知条件,可以算出该字库总共需要占用约6.9MB的内存空间,约为690万个字节。 而上图右侧所示为一款名为“华文行书”的字体文件,其文件大小(按压缩后的CAB文件计算)为7.9MB。也就是说,这款字体中包含了大约100万个汉字字形(注:Windows系统下的CAB压缩包是可以解压的,并且内部的文件名是以“00_”开头的,因此可以得知“华文行书”字体中一共含有230个“00_xxxx”的文件,每一个文件对应一种汉字字形,共计100万个汉字)。
综上可知,说某款字库有多大,理论上说的是字库所包含的字形数据量是多少(即字库的大小),但实际上我们感受到的字库的大小却是从浏览器下载字体文件到硬盘中所花费的时间,二者并不是一回事!! 而当我们说“字体库里有多少字”时,这个“多少字”其实又变成了“多少个字形”的意思,同样不是指字体库里实际含有的字。因为字库不存在“多少字”的问题。 好了,说到这里应该已经说清楚了——“字库多大”“字体库里有多少字”这样的问题本身就很模糊,并没有一个准确答案。不过通过上面的计算,你应该可以大概知道,你所说的“字库”到底是装了多大。呵呵。