佛典宝库计算机录入和文本整理技术应用通例介绍
----------------------------------------------------------------------------------------------
 



  随着互联网时代的来临,佛教的传播和普及手段也在与时俱进,佛经和其它佛典文本的载体形式了随着计算机和互联网的普及应用而发生了巨大的变化。从二十世纪九十年代开始,美国的华人佛教机构和韩国、日本佛教机构就随着计算机的普及而开始了佛经录入工作,台湾和中国大陆也紧随其后,自发地掀起了一个佛典电子化的全球性高潮。
  由于不同的国家和地区在处理汉字时采用了不同的字符集标准、字库、输入法和文件格式等,产生了较大差异,大陆佛网的文本来源也各式各样,对此有所留意的读者也就此提出过一些问题。本文着重向对这一部分感兴趣的网络读者说明以中华佛典宝库网站为主的中国大陆在佛典的计算机录入和文本整理技术及其应用通例及流程,说明使用过程中体会到的优点和不足,以供目前和今后国内其它机构和个人在处理佛典文本时参考。

  计算机录入和文本整理的技术进程
  从1997年始,在迟来的中国互联网上出现了一些佛教个人网站,收录的佛经几乎全是从台湾和国外的大五码字符集转换过来的。在处理佛典中碰到以下几个共同的棘手问题:
  1. 由于当时的转码软件都是从有13050字的大五码转到只有6763字的国标码,所以出现大量缺字;
  2. 当时国内和台湾的输入法处在万码奔腾的年代,很多输入法无法录入计算机采用的最大字符集的字数;
  3. 对于前两条遗留的大量的替换字的问题,缺乏高效的处理软件。
  十几年来大陆佛网上早期有各种文字处理痕迹特点的文本是在这一基础上起源的,在此情况下,中华佛典宝库率先采取相应措施解决了以上问题,多年来形成了一个事实上的国内佛经电子文本的处理中心。下面介绍我们的做法。

  采用简洁和基本的录入和保存格式
  保存格式为最普通的TXT文本,优点是可以快速批量处理,例如可在数千部经内迅速查找到某个文字、批量替换组字式、将多卷文本合并成一个文件等操作,这是DOC等文件格式所不能的。
  TXT格式也可为各种编辑软件、排版软件所调用,以供印经等目的,也可存放到各种数据库中。
  TXT文本格式的优点是高效、小巧、灵活。缺点是无排版记号,例如DOC文件的字体、字号、标题、居中等;也不能有区别地容纳正文以外的信息,例如校勘信息和注脚等。
  中华佛典宝库对于佛教藏经采用TXT格式,而对近现代佛教书籍则分别根据情况采用DOC、CHM、PDF、HTM、XML等样式,以分别对待各种需要。
  我们在TXT中采用自然段内无回车的方式,这是最普通的电子文本形式。虽然形式上不同于传统佛典中每行有规定字数的做法,但由于有全文检索的方便,故不拘泥于逐字逐句不变的排版格式。后者在应用中受到行末硬回车的影响,会在全文检索中产生大量漏检。其缺点是学者引用时无法给出准确的页面信息。中华佛典宝库囿于人力和财力不足,无力做两个以上版本的持续更新,暂以修学佛法的目的为上。需要详细引用页码数据的论文作者可以安装台湾“中华电子佛典协会”的CBReader软件以阅读其XML格式佛经,可基本满足引用标志的要求。

  采用大字符集和相应字库和输入法
  国内的国标码字符集标准在计算机流行的最初几年内落后于台湾和国外常用的大五码,但中国很快就制订了国标扩展码字符集(GBK,21003字),并在跟进国际通用的ISO10646标准和UNICODE码的进程上也领先于台湾和国外。中华佛典宝库在佛经中采用符合国标的最新最大的字符集,所以目前在电子文本的可读性上超过大陆外其他华语地区通常使用的字符方案,后者对某些大字符集已包括但受系统平台和软件限制而不能显示的字被迫采用组字式的方式,影响了文本可读性和全文检索。
  由于目前还没有包容国际上全部字体的字库,中华佛典宝库目前采用的是海峰居士的一种混合字体技术,即通过Windows的注册表技术将对应于不同字符集的四种不同字体链接到宋体中,这样使用宋体就能显示目前计算机最大字符集中的75814个汉字。而目前的大陆外其他华语地区通常使用的字符方案在显示汉字字数上还落后于这一做法。
  由于古代佛经中有些难字在字典上都很难查到读音,故在输入法中使用形码比音码要有利得多,而且目前支持大字符集的输入法还未见音码。中华佛典宝库推荐使用五笔输入法,它在中国起步早、用者多,还有网友的各种创作使得五笔输入法及其工具呈百花齐放之势。中华佛典宝库网站自编的菩提五笔综合了现代佛典录入和兼顾古代难字的优势,是国内佛教界最常用的输入法。能录入目前计算机最大字符集中的75814个汉字。

  自编的中文文本批处理利器——TextPro
  佛典宝库在佛经电子化工作中发现了现有软件的明显不足,迫切感觉到需要自己编程来解决自己的需求。在自己没有编程人员且缺经费的情况下,通过几位长于编程的居士和许多网友的努力,编出了几个重量级的软件。为了高效处理TXT文本,中华佛典宝库从1998年起编辑了以处理佛典文本为主要目的的专用软件“中文文本批处理软件(TextPro)”,纳入多种专用功能,兼容常用的普通功能,共计有20多项功能。
  TextPro的独到之处是有比国内行现行的转码程序(例如njstar、richwin、magicwin、MSoffice等)更准确的简繁体转换功能,由于通常提供这些程序的商业公司未必愿意在这一无几商业回报的项目上反复加大投入,而佛教徒对佛经的认真程度又不允许较明显的错误频出,所以只能自己编程序。TextPro还增加了一些其它软件所不具备的独有功能,例如自定义替换表、带中文支持的正则表达式、可以忽略异体字的文件比较、转BIG5码前的预处理等,也开发了支持unicode文件的批处理功能。这些功能对宝库能做好批处理佛典文本的工作起到了关键性的作用。
  国内佛教界对TextPro反应良好,许多寺院和佛教机构都在使用。除此之外,国内的电脑爱好者和国外的佛教机构也在使用后给予了好评。台湾的中华电子佛典协会和美国佛教资讯功德会在综合比较各种转码软件后,也采用了TextPro做为转码软件。
  目前版本是2007年底完成的6.0重编测试版第一阶段,2008年将进入第二阶段编程。

  自编的读经器软件FoReader
  对中华佛典宝库采用的TXT格式佛经,既要满足阅读的方便,例如自动换行、显示图像和显示组字式图等功能;又要满足快速检索,例如快速的全文索引、忽略标点、查佛学辞典FoDict等功能;宝库相对同行较早开始了编辑与藏经配套的读经器软件FoReader。经过1.0至2.0版的升级,该软件已经比较完善地满足了设计要求。不仅可以方便地浏览佛经,也可用数秒时间就能在《大正藏》和《卍续藏》的3690部佛经中查出读者想查的字词。今后将与藏经光盘一起配套使用。

  自编的佛学辞典软件FoDict
  辞典是99年时由方居士开始编程。文本部分,基于经验尚待积累,早期录入使用的几个辞典文本中有部分校对错误,请注意版本的更新。从2001年起中华佛典宝库网站接手重新制作辞典内容,收录大藏经中的佛典、国内外现有的无版权要求的佛教辞典、根据网上资料自行编辑而成。多数辞典提供GBK简体和GBK繁体两种版本,集二十多部辞典于一身,在兼容性上稍优于其他地区开发的佛学辞典软件。
   宝库陆续对FoDict程序增加了更多的功能,如组字式图片显示、全文检索、显示图像、支持音频、增加书籍层次等。从接手时的V2.2版升级到V3.0版,后来一直发展到V3.7版,常用功能比较齐全。
   但软件仍存在技术上的问题,宝库也将重编程序列入了2008年的计划,以适应更高的要求。

  在全球性的佛典电子化进程中,中国内地虽然起步稍晚,但迎头赶上的趋势很猛。随着教界、学界和广大三宝弟子的一齐努力,相信佛教在华语世界的传播事业会越来越好。