手機(jī)蘭州新聞網(wǎng)

首頁| 蘭州| 新聞| 政務(wù)| 房產(chǎn)| 旅游| 汽車| 教育| 財(cái)經(jīng)| 健康| 公益| 女性| 商業(yè)| 企業(yè)| 蘭州日?qǐng)?bào)| 蘭州晚報(bào)| 全媒體矩陣

您的位置:網(wǎng)站首頁 > 新聞中心>甘肅新聞> 正文

【甘快看】我科研團(tuán)隊(duì)推出簡(jiǎn)牘字符檢測(cè)與識(shí)別大規(guī)模數(shù)據(jù)集

2025-03-27 20:08:48 智能朗讀:

3月25日,記者從西北師范大學(xué)獲悉,該校聯(lián)合甘肅簡(jiǎn)牘博物館推出了國(guó)際首個(gè)面向深度學(xué)習(xí)任務(wù)的簡(jiǎn)牘字符檢測(cè)與識(shí)別大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集名為DeepJiandu數(shù)據(jù)集,是國(guó)際上首個(gè)專門用于簡(jiǎn)牘字符檢測(cè)與識(shí)別的大規(guī)模數(shù)據(jù)集。相關(guān)研究成果日前發(fā)表在國(guó)際期刊《數(shù)據(jù)科學(xué)》上。

記者了解到,DeepJiandu數(shù)據(jù)集包含7416張圖像,共標(biāo)注99852個(gè)字符,涵蓋2242個(gè)類別,提供了極具挑戰(zhàn)性的簡(jiǎn)牘字符識(shí)別任務(wù)場(chǎng)景,為簡(jiǎn)牘數(shù)字化保護(hù)與學(xué)術(shù)研究提供了堅(jiān)實(shí)的數(shù)據(jù)支持。該工作由西北師范大學(xué)簡(jiǎn)牘研究院、甘肅省簡(jiǎn)牘智能計(jì)算與數(shù)字人文工程研究中心張強(qiáng)教授團(tuán)隊(duì)具體開展,上海中西書局、甘肅文化出版社提供相關(guān)數(shù)據(jù)資源,西南大學(xué)參與研究工作。

簡(jiǎn)牘是中國(guó)古代記錄歷史信息的重要媒介,其歷史可追溯至戰(zhàn)國(guó)、秦、漢、魏晉等時(shí)期。然而,簡(jiǎn)牘材料的脆弱性,以及長(zhǎng)期埋藏環(huán)境,導(dǎo)致出現(xiàn)字符模糊、字跡缺損、布局復(fù)雜等問題,使得人工識(shí)別與整理極為困難?,F(xiàn)有的文獻(xiàn)數(shù)字化技術(shù)雖在甲骨文、蒙文手寫體、巴厘島棕櫚葉手稿等領(lǐng)域取得突破,但在簡(jiǎn)牘字符識(shí)別方面仍缺乏高質(zhì)量的數(shù)據(jù)集,制約了深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用。

DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問題。數(shù)據(jù)集覆蓋2242種字符類別,由簡(jiǎn)牘學(xué)專家與計(jì)算機(jī)團(tuán)隊(duì)聯(lián)合標(biāo)注,確保高水平的釋讀準(zhǔn)確性和機(jī)器可讀性。此外,數(shù)據(jù)集的設(shè)計(jì)考慮到簡(jiǎn)牘中字符的殘損、異形字、多種布局等復(fù)雜場(chǎng)景,具備良好的模型泛化能力與適應(yīng)性,對(duì)推動(dòng)人工智能在古文字領(lǐng)域的應(yīng)用具有重要意義。

DeepJiandu數(shù)據(jù)集圖像示例

DeepJiandu數(shù)據(jù)集的字符標(biāo)注示例,標(biāo)注框標(biāo)明了字符的位置和類別

研究團(tuán)隊(duì)在DeepJiandu數(shù)據(jù)集上測(cè)試了多種主流字符檢測(cè)與識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,該數(shù)據(jù)集能夠有效支持字符檢測(cè)與識(shí)別任務(wù),現(xiàn)有模型在該任務(wù)上的表現(xiàn)仍有優(yōu)化空間,特別是在面對(duì)字符模糊、殘缺、長(zhǎng)尾分布等挑戰(zhàn)時(shí),DeepJiandu數(shù)據(jù)集能夠有效推動(dòng)相關(guān)研究的發(fā)展。

張強(qiáng)介紹,DeepJiandu數(shù)據(jù)集的發(fā)布填補(bǔ)了歷史文獻(xiàn)數(shù)字化與人工智能結(jié)合的空白,為簡(jiǎn)牘整理與自動(dòng)識(shí)別提供了重要支持。該數(shù)據(jù)集不僅能夠提升考古學(xué)者對(duì)簡(jiǎn)牘文獻(xiàn)的解讀效率,還為歷史文獻(xiàn)OCR技術(shù)的突破提供了寶貴的數(shù)據(jù)資源。此外,結(jié)合計(jì)算機(jī)視覺與歷史語言學(xué),DeepJiandu數(shù)據(jù)集還將推動(dòng)文博機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護(hù)提供新的技術(shù)路徑。

張強(qiáng)表示,未來,團(tuán)隊(duì)將繼續(xù)優(yōu)化數(shù)據(jù)集,為簡(jiǎn)牘智能計(jì)算研究提供更好的支撐。團(tuán)隊(duì)還在積極開展簡(jiǎn)牘圖像融合、殘斷簡(jiǎn)綴合、書寫風(fēng)格識(shí)別和簡(jiǎn)牘大模型等研究,進(jìn)一步豐富簡(jiǎn)牘智能內(nèi)容,走出一條“冷門不冷、數(shù)智加熱”的人工智能賦能冷門絕學(xué)研究新路子。(受訪者供圖)

科技日?qǐng)?bào)記者 頡滿斌


責(zé)任編輯:黃璐

來源: 科技日?qǐng)?bào)

關(guān)閉
国内精品久久人妻无码免费,婷婷五月天久久中文,亚欧无码vs在线观看,久久国产精品久久国产