【甘快看】西北師大發(fā)布DeepJiandu數(shù)據(jù)集:AI解密簡(jiǎn)牘 全球與眾共享
中新網(wǎng)蘭州3月28日電 為破解智能化簡(jiǎn)牘文字識(shí)別與內(nèi)容理解這一重大難題,近日,西北師范大學(xué)聯(lián)合甘肅簡(jiǎn)牘博物館推出了DeepJiandu數(shù)據(jù)集,全球與眾共享。
DeepJiandu數(shù)據(jù)集,是在該校簡(jiǎn)牘學(xué)術(shù)資源數(shù)據(jù)共享平臺(tái)的基礎(chǔ)之上,研究發(fā)布的全球首個(gè)專(zhuān)門(mén)用于復(fù)雜場(chǎng)景下簡(jiǎn)牘字符檢測(cè)與識(shí)別的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集的發(fā)布,極大促進(jìn)人工智能技術(shù)對(duì)簡(jiǎn)牘文獻(xiàn)信息的理解,為簡(jiǎn)牘學(xué)搭上AI技術(shù)快車(chē)提供有力支撐。
圖為DeepJiandu數(shù)據(jù)集的字符標(biāo)注示例,標(biāo)注框標(biāo)明了字符的位置和類(lèi)別。西北師范大學(xué)供圖
該工作由西北師范大學(xué)簡(jiǎn)牘研究院、甘肅省簡(jiǎn)牘智能計(jì)算與數(shù)字人文工程研究中心張強(qiáng)教授團(tuán)隊(duì)負(fù)責(zé)開(kāi)展,甘肅簡(jiǎn)牘博物館、上海中西書(shū)局、甘肅文化出版社、西南大學(xué)等單位參與了該項(xiàng)工作。
據(jù)張強(qiáng)介紹,在紙張普及前的千余年中,簡(jiǎn)牘是中國(guó)古代記錄歷史信息的重要媒介,承載了戰(zhàn)國(guó)、秦、漢、魏晉等時(shí)期的典籍、律令、契約等,形成了完整的文明記憶鏈條,簡(jiǎn)牘是文字傳播的核心媒介。
然而,簡(jiǎn)牘因竹木材質(zhì)易受腐蝕,尤其在出土后易出現(xiàn)氧化、變色或粘連問(wèn)題;同時(shí)由于簡(jiǎn)牘材料的脆弱性,長(zhǎng)期埋藏環(huán)境導(dǎo)致字符模糊、字跡缺損、產(chǎn)生畸變等問(wèn)題,使得人工識(shí)別與整理這些珍貴文獻(xiàn)極為困難。現(xiàn)有的數(shù)字化技術(shù)雖在甲骨文、東巴文、古彝文、古希臘銘文、古埃及象形文字、瑪雅文字等相關(guān)文獻(xiàn)資料等領(lǐng)域取得突破,但在簡(jiǎn)牘文獻(xiàn)資料的智能化處理與分析程度不高,特別缺乏高質(zhì)量的數(shù)據(jù)集,制約了人工智能技術(shù)在該領(lǐng)域的應(yīng)用。
圖為DeepJiandu數(shù)據(jù)集圖像示例。西北師范大學(xué)供圖
“DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問(wèn)題?!睆垙?qiáng)介紹說(shuō),研究團(tuán)隊(duì)通過(guò)高光譜成像、圖像增強(qiáng)、多光譜融合等技術(shù),確保了高質(zhì)量的數(shù)據(jù)構(gòu)建。數(shù)據(jù)集涵蓋2242種字符類(lèi)別,并由簡(jiǎn)牘學(xué)專(zhuān)家與計(jì)算機(jī)專(zhuān)家合作標(biāo)注,確保數(shù)據(jù)的專(zhuān)業(yè)性與準(zhǔn)確性。此外,數(shù)據(jù)集的設(shè)計(jì)考慮到簡(jiǎn)牘中字符的殘損、異形字、多種布局等復(fù)雜場(chǎng)景,有效提升了模型對(duì)歷史文獻(xiàn)的適應(yīng)能力。
DeepJiandu數(shù)據(jù)集的發(fā)布,填補(bǔ)了歷史文獻(xiàn)數(shù)字化與人工智能結(jié)合的空白,為簡(jiǎn)牘整理與自動(dòng)識(shí)別提供了重要支持,提升考古學(xué)者對(duì)簡(jiǎn)牘文獻(xiàn)的解讀效率。此外,結(jié)合計(jì)算機(jī)視覺(jué)與歷史語(yǔ)言學(xué),該數(shù)據(jù)集還將推動(dòng)文博機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護(hù)提供新的技術(shù)路徑。
張強(qiáng)表示,隨著DeepJiandu數(shù)據(jù)集的推廣,研究團(tuán)隊(duì)預(yù)計(jì)將有更多深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者加入簡(jiǎn)牘文獻(xiàn)的數(shù)字化處理研究,并推動(dòng)人工智能在歷史文獻(xiàn)解析、文化遺產(chǎn)保護(hù)等多學(xué)科交叉領(lǐng)域的應(yīng)用。未來(lái),團(tuán)隊(duì)將繼續(xù)優(yōu)化數(shù)據(jù)集,并探索多模態(tài)融合等前沿技術(shù),為數(shù)字人文研究提供更強(qiáng)大的技術(shù)支持。
目前,DeepJiandu數(shù)據(jù)集已載入西北師范大學(xué)簡(jiǎn)牘學(xué)術(shù)資源數(shù)據(jù)共享平臺(tái)。該平臺(tái)已開(kāi)發(fā)了實(shí)物庫(kù)、釋文庫(kù)、字形庫(kù)、著錄庫(kù)、文獻(xiàn)庫(kù)和專(zhuān)家?guī)炝鶄€(gè)庫(kù),利用人工智能、大數(shù)據(jù)分析、虛擬現(xiàn)實(shí)等先進(jìn)技術(shù),完成了對(duì)4萬(wàn)枚西北漢簡(jiǎn)的數(shù)字化收錄,不僅為專(zhuān)家學(xué)者提供了便捷的研究工具,也向公眾展示了簡(jiǎn)牘文化的獨(dú)特魅力。該平臺(tái)現(xiàn)擁有千余名國(guó)內(nèi)外在線(xiàn)用戶(hù),覆蓋了國(guó)內(nèi)外384個(gè)科研、文化機(jī)構(gòu)和高等院校。
丁思 劉玉桃
責(zé)任編輯:車(chē)丹清
版權(quán)聲明:
凡文章來(lái)源為"蘭州新聞網(wǎng)"的稿件,均為蘭州新聞網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"蘭州新聞網(wǎng)",并保留"蘭州新聞網(wǎng)"的電頭。如本網(wǎng)轉(zhuǎn)載稿涉及版權(quán)等問(wèn)題,請(qǐng)及時(shí)與我們聯(lián)系。