漢字編碼轉換工具——PUACleaner開源項目與開放原子開源基金會簽約----中國科學院軟件研究所

漢字編碼轉換工具——PUACleaner開源項目與開放原子開源基金會簽約

文章來源： | 發布時間：2023-06-16 | 【打印】【關閉】

　　6月11日，在2023開放原子全球開源峰會上，中國科學院軟件研究所與中國電子技術標準化研究院合作研發的PUACleaner漢字編碼轉換工具與開放原子開源基金會簽約。

　　據介紹，目前最新國際編碼字符集標準ISO/IEC 10646收錄的漢字近10萬，但信息系統中能夠實現完全無障礙處理的漢字數量只有2萬多，大量的漢字無法正確輸入、顯示、存儲、交換、打印，從而衍生出“生僻字”問題。涉及生僻字的數據在處理時面臨障礙，會影響公共服務和社會生活。特別是對于姓名中包含生僻字的人，在涉及實名制的場景下，如辦理銀行卡、社保卡、房產證以及乘坐公共交通出行等方面都帶來諸多不便。

　　為解決上述問題，PUACleaner以實現“書同文，字同碼”為目標，清理全國各地目前在用的PUA（用戶自定義區）字，統一轉換為國際標準ISO/IEC 10646和強制性國家標準GB 18030中的正式碼，從而為實現人名、地名等重要數據的互聯互通、順暢交換、順暢比對提供基礎支撐，便利公共服務和社會生活。

　　在2023開放原子全球開源峰會上，PUACleaner開源項目面向政務服務和公共服務行業重點用戶進行了主題路演和展臺展示。

　　中國科學院軟件研究所時空數據管理與數據科學研究中心在漢字信息處理方面有多年的技術積累，曾為新聞出版重大科技工程項目“中華字庫”工程解決了100萬量級字符的基礎應用支撐問題，參與了強制性國家標準GB18030-2022《信息技術中文編碼字符集》和金融行業標準JR/T0253-2022《金融服務生僻字處理指南》編制。此外，軟件所聯合相關單位研發了“卓碼生僻字解決方案”，可提供涉及生僻字處理的輸入法、字庫以及涉及業務系統升級改造相關的軟件組件，可解決Windows、國產信創Linux、Web應用、移動終端等場景中使用生僻字的問題。

中國科學院軟件研究所劉匯丹做路演報告