中國的漢文字非常了不起,中華民族的形成和發展離不開漢文字的維系。
——習近平
河南日報客戶端記者 謝建曉 楊之甜
“一片甲骨驚天下”,代代學人焚膏繼晷。1899年,沉睡地下3000多年的甲骨被發現,隱藏的中華智慧和文明密碼被一一破譯。
12月26日,記者來到安陽師范學院甲骨文信息處理教育部重點實驗室。工作人員登錄“殷契文淵”網站,在字形庫中選擇甲骨字“人”字形,所有包含該字形的402個甲骨片信息就全部顯示出來。
安陽師范學院計算機與信息工程學院院長、甲骨文信息處理教育部重點實驗室主任劉永革介紹,“殷契文淵”是目前最大的甲骨文數據庫,從開放的第一天起,平臺就為全世界用戶提供免費服務。它不僅服務全球的甲骨文、考古、歷史、文字方面的研究專家,還吸引了古文字愛好者、中小學語文教師、書法愛好者等使用。
為什么要專門建立甲骨文數據庫?甲骨文“撞上”現代科技,又會發生什么?
劉永革(右)和研究員在甲骨文信息處理教育部重點實驗室工作。河南日報客戶端記者 楊之甜 攝
2000年,計算機軟件碩士劉永革到安陽師范學院任教,兩位研究甲骨文的老師建議他開展甲骨文信息化研究?!耙活^是中國古老文明中的甲骨文,另一頭是先進的計算機技術、人工智能?!眲⒂栏锾寡?,當時覺得這個課題簡直是兩個極端。
“釋讀甲骨文本就是世界難題,此外,還有一個難題擺在面前——甲骨文沒法輸入到電腦里?!眲⒂栏镎f,這是他最初想要解決的問題。
“甲骨文和漢字不一樣,好多字我們不認識,使用拼音輸入法不行,而且還有一些字像畫一樣,不能用部首輸入,也不能拆分。此前甲骨文輸入法采用編碼輸入方式,記憶負擔較重,學習成本較高?!眲⒂栏镎f。
因此,研發甲骨文輸入法,建立一個基本字庫,讓任何人都可以輕松輸入,至關重要。
“用計算機技術研究甲骨文的編碼、字庫、輸入法、數據庫建設,為專家提供一些工具,輔助甲骨文研究,這是我們建立甲骨文數據庫的初衷?!眲⒂栏镎f。
可只有技術優勢顯然不夠。為了學習最新的甲骨文研究成果,每當有甲骨文或古文字研究專家到安陽,劉永革和團隊成員一定想方設法當面請教;當地、外地召開的甲骨文學術研究會議,時間再緊他們也要參加……隨著了解越來越深入,劉永革發現,甲骨文作為中華民族最古老的文字,因晦澀難懂和研究資料較少,與現代技術不兼容,研究效率低下。
如何共享甲骨文的研究信息,讓全人類資源互通、群力群策一起研究呢?劉永革他們決定利用自己的專業,讓甲骨文這一“冷門”絕學“熱”起來。
于是,一個匯集甲骨文信息的“殷契文淵”項目悄然啟動。劉永革帶領團隊30多名老師和50多名學生,對甲骨研究的權威資料逐條、逐頁進行掃描、裁切、編號,尋找釋文。
2019年,團隊用8年時間精心打造的全球首個免費甲骨文數據庫“殷契文淵”驚艷亮相。該平臺建設的甲骨文字庫包含單字5086個、字形6234個,甲骨文研究文獻3萬多篇,支持多種甲骨文輸入檢索方式。
“此前甲骨文資料很難查到,即使甲骨文專家也不可能擁有全部資料,‘殷契文淵’項目建成后解決了這個問題?!奔坠俏男畔⑻幚斫逃恐攸c實驗室副主任高峰說。
甲骨文“人”字。
據介紹,平臺接下來將繼續補充基礎數據,同時采用人工智能技術進行數據分析,包括甲骨文識別與字形分析、甲骨文語言計算、甲骨文知識圖譜、計算機自動綴合甲骨文系統等,有可能成為海內外最詳贍、最完備的甲骨文大數據平臺。
與此同時,安陽師范學院還積極整合校內資源,集合文學、歷史、計算機、體育等專業優勢,形成了一支跨專業、多學科聯合攻關的學術團隊——甲骨文信息化處理團隊。憑借已經建成的甲骨文數據庫優勢,該團隊開始嘗試利用語言學、數學、計算機科學、信息技術對甲骨文進行語義、語法處理和知識挖掘。
“利用人工智能技術破譯甲骨文,讓科技賦能甲骨文研究,揭開一片片甲骨背后的文明密碼,講好甲骨文的故事?!眲⒂栏镎f,他們要將甲骨文研究帶入新的智能化時代。
編輯:張龍(大)