合合信息攜手高校為古彝文“建庫”,AI助力民族文化傳承發(fā)展

2023-09-26 15:02:43來源:威易網(wǎng)作者:

在古彝文語料收集過程中,研究團隊選取的古籍圖片采集工具是合合信息旗下的智能掃描“掃描全能王”。

 “烏蒙山連著山外山,月光灑向了響水灘。”近期在各大短視頻平臺爆火的《奢香夫人》你聽過嗎?奢香夫人是一位彝族“巾幗英雄”,這首同名歌曲早在2009年便已發(fā)布,如今突然“翻紅”,不僅體現(xiàn)了大眾對于少數(shù)民族文化高漲的興趣,也見證著優(yōu)秀的傳統(tǒng)文化不息的生命力。

文字是文化的重要載體,古彝文承載了深遠的彝族歷史內(nèi)涵,蘊含著豐富的文化信息。近期,合合信息聯(lián)合上海大學(xué)、華南理工大學(xué)發(fā)布業(yè)內(nèi)首個古彝文基礎(chǔ)編碼數(shù)據(jù)庫,該項目由合合信息與上海大學(xué)社會學(xué)院、華南理工大學(xué)文檔圖像分析識別與理解實驗室共同推進,針對現(xiàn)有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術(shù)開展統(tǒng)一編碼,古彝文在數(shù)字社會中從此有了“身份證號碼”。

校企合力,把七萬多個字符“濃縮”成精簡的字典

以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學(xué)習(xí)技術(shù)的發(fā)展,為古文字識別提供了高效的工具,極大地提高了古代文獻和文字數(shù)字化進程的速度和效率,本次古彝文基礎(chǔ)編碼數(shù)據(jù)庫的發(fā)布,將成為古文字數(shù)字化的重要成果之一。

 \

單一古彝文可表達多個釋義(圖源:《滇川黔桂彝文字集》 )

當(dāng)前,古彝文數(shù)字化方面的成果相對較少,其原因之一是古彝文字符集龐大,且缺乏成熟的手寫樣本庫。據(jù)《滇川黔桂彝文字集》中所有字符的合計,古彝文和現(xiàn)在仍然使用的各地的彝文,總數(shù)多達87046字,對如此龐大的字符集進行分類非常困難。另一方面,在彝文的發(fā)展過程中,由于種種因素,導(dǎo)致異體字、變體字特別豐富,字符和釋義“一對多、多對一”是常態(tài)。古彝文手寫體的隨意性、多樣性等,都給古彝文的識別帶來了極大的挑戰(zhàn)。

基于上述情況,合合信息與華南理工大學(xué)共同成立的文檔圖像分析識別與理解聯(lián)合實驗室,聯(lián)合上海大學(xué)社會學(xué)院組建研究團隊,共同解決數(shù)據(jù)庫建設(shè)中的學(xué)術(shù)性、技術(shù)性難點。

項目技術(shù)負責(zé)人、華南理工大學(xué)電子與信息學(xué)院教授金連文表示,原生態(tài)彝文此前沒有被系統(tǒng)性地進行數(shù)字化編碼,古彝文沒有公開數(shù)據(jù)集,標(biāo)注困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風(fēng)格差異大。因此,建立一個專門的數(shù)據(jù)庫,通過基礎(chǔ)編號將不同樣式歸納,才能“破解”古彝文“一對多”的關(guān)系,解決文字查詢問題。

 \

古彝文典籍編碼、識別過程(圖源:西南彝志)

在對7萬6千字符的樣本進行訓(xùn)練后,團隊成功建立了包含上千個古彝文基礎(chǔ)編碼的數(shù)據(jù)庫。通過API數(shù)據(jù)接口等形式,該數(shù)據(jù)庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,如同“大字典”一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。

“古彝文數(shù)據(jù)庫的發(fā)布并非一個最終的研究結(jié)果,而是一項非常重要的基礎(chǔ)性工作。”古彝文數(shù)字化項目發(fā)起人、上海大學(xué)人類學(xué)民俗學(xué)研究所講師邵文苑表示,基礎(chǔ)編碼的發(fā)布,意味著這些文字在數(shù)字社會里從此擁有了“身份證號碼”,能夠被更多地展現(xiàn)在網(wǎng)絡(luò)空間上,被更廣泛的人群看見、認識、研究。

AI幫人類降低古彝文閱讀難度

構(gòu)建古彝文“大字典”需要解決的首要問題并非文字識別,而是低質(zhì)量的圖片資料處理。傳統(tǒng)的古彝文大多被記錄在巖書、布書、竹簡等,在潮濕的自然環(huán)境下難以完整保存,往往會變得模糊不清或殘缺不全。在資料文檔數(shù)字化的過程中,采用科技手段優(yōu)化圖像質(zhì)量問題是關(guān)鍵的一環(huán)。

在古彝文語料收集過程中,研究團隊選取的古籍圖片采集工具是合合信息旗下的智能掃描“掃描全能王”。該產(chǎn)品的“智能高清濾鏡”功能基于AI技術(shù)及智能掃描引擎,可自動檢測圖像中存在的問題,并智能判定圖像的優(yōu)化方式,一鍵處理模糊、陰影、手指、屏幕紋等干擾因素,減輕后續(xù)圖片處理工作,縮短內(nèi)容識別、編碼的操作周期。

  \

掃描全能王“智能高清濾鏡”古籍掃描效果(圖源:西南彝志)

2022年5月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于推進實施國家文化數(shù)字化戰(zhàn)略的意見》,文件指出,到2035年,建成全面共享、重點集成的國家文化大數(shù)據(jù)體系。文化數(shù)據(jù)要素和人工智能技術(shù)的融合,將推動文化數(shù)字化戰(zhàn)略的有效實施和文化產(chǎn)業(yè)的高質(zhì)量發(fā)展,是優(yōu)秀傳統(tǒng)文化傳承創(chuàng)新的有效路徑。

合合信息在智能文字識別領(lǐng)域已有十七年深耕經(jīng)驗。此前,在AI識別甲骨文、西周鐘鼎文(金文)領(lǐng)域,公司已進行了領(lǐng)先的探索和研究,為古彝文識別積累了經(jīng)驗,奠定了良好的技術(shù)基礎(chǔ),相關(guān)項目曾獲得央視、新華社、《人民日報》等多家主流媒體的關(guān)注。

  \

掃描全能王小程序上線H5,面向全社會進行古彝文典籍公益性征集及文化海報傳遞

加強文化遺產(chǎn)的保護、傳承與合理利用任重道遠,需要全社會共同行動。為發(fā)動更多的社會力量參與到古彝文識別和保護,掃描全能王已同步啟動公益性活動,上線古彝文典籍上傳入口,面向全社會征集古籍資料。研究團隊在接收古籍后會將其轉(zhuǎn)交給對應(yīng)專家、部門進行研究,助力中華文化瑰寶傳承。

近年來,國家正不斷推進文化數(shù)字化戰(zhàn)略。2022年,國務(wù)院辦公廳印發(fā)《關(guān)于推進實施國家文化數(shù)字化戰(zhàn)略的意見》,提出了“中華文化全景呈現(xiàn),中華文化數(shù)字化成果全民共享”的目標(biāo),體現(xiàn)了傳統(tǒng)文化“數(shù)字化”的重要性。AI技術(shù)與古彝文的“牽手”,將助力民族文化在深入群眾的過程中與新事物融合,為文化傳承提供創(chuàng)新的源泉。

 \

網(wǎng)友自發(fā)“創(chuàng)作”的古彝文對聯(lián)
 
 
關(guān)鍵詞:合合信息