CBETA電子佛典一般組字式基本規則

中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)的電子佛典資料庫,以《大正新脩大藏經》(以下簡稱《大正藏》)(大藏出版株式會社(c))第一卷至第五十五卷,以及第八十五卷,共計五十六卷的資料為底本,並正式取得該底本版權所有者--「大藏出版株式會社」有關輸入與公開的授權。

《大正藏》第一卷到第八十五卷(《大正藏》一卷即一冊,為了和內文的卷區別,以下用《大正藏》第幾冊代替第幾卷,避免混淆),全部的字數,估計約一億多字,而電腦缺字部分,在目前已經完成的五十六冊經文中,有一萬五千個字左右(不包括悉曇字)(註1)。

根據統計,大五碼第一級字有 5,401 個字,第二級字 7,652 個字,共計 13,053 個字(Ken Lunde 著,CJKV Information Processing,頁72)。以目前 CBETA 所收集的一萬五千個左右的《大正藏》電腦缺字,數量超過大五碼字數的 13,053 個。

目前 CBETA 整理《大正藏》缺字情形,從第一冊到第五十冊,所得缺字近六千個;而最後六卷(第五十一冊至第五十五冊及第八十五冊)缺字,有八千多個。

本組字法含*/@-+?六個半形基本符號,及()[]兩組半形分隔符號。
今舉例說明如下:
符號 說明 範例
* 表橫向連接 明=日*月
/ 表縱向連接 音=立/日
@ 表包含 因=囗@大 或 閒=門@月
- 表去掉某部份 青=請-言
-+ 若前後配合,表示去掉某部份,
而改以另一部份代替
閒=間-日+月
? 表字根特別,尚未找到足以表示者 背=(?*匕)/月
() 為運算分隔符號 繞=組-且+((土/(土*土))/兀)
[] 為文字分隔符號 羅[目*侯]羅母耶輸陀羅比丘尼

註1:為求方便,不排除採用全形注音、標點及英文符號做為組字用字根。

註2:組字字根在不同的字型下會有所差別。(下圖:不同字型下字體的差異,標楷體/新細明體)

資料來源:CBETA電子佛典缺字處理

標籤: ,

本文張貼於 2010 年 7 月 15 日 星期四 13:10:58 歸檔於 其他. 您可透過 RSS 2.0 追蹤此文的迴響. 目前暫時不接受迴響, 但您可從您的網站 trackback.

迴響暫時關閉