CBETA電子佛典一般組字式基本規則
中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)的電子佛典資料庫,以《大正新脩大藏經》(以下簡稱《大正藏》)(大藏出版株式會社(c))第一卷至第五十五卷,以及第八十五卷,共計五十六卷的資料為底本,並正式取得該底本版權所有者--「大藏出版株式會社」有關輸入與公開的授權。
《大正藏》第一卷到第八十五卷(《大正藏》一卷即一冊,為了和內文的卷區別,以下用《大正藏》第幾冊代替第幾卷,避免混淆),全部的字數,估計約一億多字,而電腦缺字部分,在目前已經完成的五十六冊經文中,有一萬五千個字左右(不包括悉曇字)(註1)。
根據統計,大五碼第一級字有 5,401 個字,第二級字 7,652 個字,共計 13,053 個字(Ken Lunde 著,CJKV Information Processing,頁72)。以目前 CBETA 所收集的一萬五千個左右的《大正藏》電腦缺字,數量超過大五碼字數的 13,053 個。
目前 CBETA 整理《大正藏》缺字情形,從第一冊到第五十冊,所得缺字近六千個;而最後六卷(第五十一冊至第五十五冊及第八十五冊)缺字,有八千多個。
