我省研究團隊填補空白 首個簡牘字符檢測與識別大規(guī)模數(shù)據(jù)集正式發(fā)布
3月26日,記者從西北師范大學獲悉,由該校聯(lián)合甘肅簡牘博物館推出的簡牘字符檢測與識別數(shù)據(jù)集——DeepJiandu數(shù)據(jù)集正式對外發(fā)布。該數(shù)據(jù)集的發(fā)布填補了歷史文獻數(shù)字化與人工智能結(jié)合的空白,標志著簡牘智能化研究的重要進展,不僅為簡牘整理與自動識別提供了重要支持,也將進一步推動數(shù)字人文領(lǐng)域的持續(xù)創(chuàng)新與發(fā)展。
據(jù)介紹,該數(shù)據(jù)集共包含7416張圖像,標注了99852個字符,涵蓋2242個類別,能夠提供極具挑戰(zhàn)性的簡牘字符識別任務(wù)場景。數(shù)據(jù)集基于紅外圖像資料構(gòu)建,顯著增強了墨跡清晰度,為簡牘的數(shù)字化保護與學術(shù)研究提供了堅實的數(shù)據(jù)基礎(chǔ)。
簡牘(Jiandu)是中國古代記錄歷史信息的重要媒介,其歷史可追溯至戰(zhàn)國、秦、漢、魏晉等時期。然而,由于簡牘材料的脆弱性,長期埋藏環(huán)境導致字符模糊、字跡缺損、布局復雜等問題,使得人工識別與整理極為困難?,F(xiàn)有的文獻數(shù)字化技術(shù)雖在甲骨文、蒙文手寫體、巴厘島棕櫚葉手稿等領(lǐng)域取得突破,但在簡牘字符識別方面仍缺乏高質(zhì)量的數(shù)據(jù)集,制約了深度學習在該領(lǐng)域的應用。DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問題。
該數(shù)據(jù)集由簡牘學專家與計算機團隊聯(lián)合標注,涵蓋2242種常用字符類別,確保專業(yè)性與準確性。其設(shè)計充分考慮了字符殘損、異形字、多種排布等復雜場景,有效提升了模型對歷史文獻的適應能力。
據(jù)了解,研究團隊依托已有紅外圖像資料,從1萬余件簡牘文物中篩選出7416張高質(zhì)量圖像,覆蓋不同材料、書寫風格與字體特征,確保數(shù)據(jù)的代表性與多樣性。所有圖像使用目標檢測標注工具(LabelImg)對99852個字符進行了精細標注,包括字符位置與類別信息。整個過程在專家釋讀指導下完成,兼顧學術(shù)價值與機器可讀性。
為確保科學性,研究團隊將數(shù)據(jù)集按比例劃分為訓練集、驗證集和測試集,提升模型的泛化能力。數(shù)據(jù)集的字符類別統(tǒng)計顯示,盡管字符尺寸差異較大,但該數(shù)據(jù)集仍可為多尺度目標檢測任務(wù)提供良好的支持。此外,結(jié)合計算機視覺與歷史語言學,該數(shù)據(jù)集還將推動文博機構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護提供新的技術(shù)路徑。
據(jù)悉,隨著該數(shù)據(jù)集的推廣,研究團隊預計將有更多深度學習、計算機視覺領(lǐng)域的研究者加入簡牘OCR研究,并推動人工智能在歷史文獻解析、文化遺產(chǎn)保護等多學科交叉領(lǐng)域的應用。未來,團隊將繼續(xù)優(yōu)化數(shù)據(jù)集,并探索圖像融合、文獻綴合、書寫風格分析、端到端識別等前沿技術(shù),為數(shù)字人文研究提供更加全面的技術(shù)支持。
據(jù)了解,該工作由西北師范大學簡牘研究院、甘肅省簡牘智能計算與數(shù)字人文工程研究中心張強教授團隊具體開展,上海中西書局、甘肅文化出版社提供相關(guān)數(shù)據(jù)資源,西南大學參與數(shù)據(jù)驗證實驗工作,相關(guān)研究論文發(fā)表于國際期刊《Scientific Data》。
蘭州日報社全媒體記者 馬文艷
責任編輯:王旭偉
版權(quán)聲明:
凡文章來源為"蘭州新聞網(wǎng)"的稿件,均為蘭州新聞網(wǎng)獨家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"蘭州新聞網(wǎng)",并保留"蘭州新聞網(wǎng)"的電頭。如本網(wǎng)轉(zhuǎn)載稿涉及版權(quán)等問題,請及時與我們聯(lián)系。