央廣網(wǎng)貴陽5月27日消息(記者陳屹)5月26日,中國科學(xué)技術(shù)信息研究所在正在貴陽舉行的2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上發(fā)布在網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)時代新型《漢語主題詞表》。新《漢語主題詞表》在體系結(jié)構(gòu)、詞匯術(shù)語、詞間關(guān)系等方面都進(jìn)行了改進(jìn)和創(chuàng)新,將對國家信息基礎(chǔ)建設(shè)提供支撐作用。
據(jù)悉,新型《漢語主題詞表》是支持漢語信息處理的語義工具,是以概念詞匯為知識節(jié)點(diǎn),以等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系為語義關(guān)聯(lián),構(gòu)建成的超大型知識庫系統(tǒng),編織成的多維度的知識網(wǎng)絡(luò)。通過新型《漢語主題詞表》的微觀知識結(jié)構(gòu),可以將大數(shù)據(jù)結(jié)構(gòu)化、語義化、規(guī)范化。
新型《漢語主題詞表》支持中文文獻(xiàn)文本語義處理;通過專業(yè)詞庫,支持對專業(yè)文獻(xiàn)的文本分詞;通過同義詞歸并,聚焦專業(yè)知識節(jié)點(diǎn);通過主題分析,批量揭示文獻(xiàn)信息涵蓋的知識內(nèi)容與分類類型,將海量信息進(jìn)行序化;提供在線概念檢索和輔助標(biāo)引服務(wù),通過可視化技術(shù),展示各類概念關(guān)系,為網(wǎng)絡(luò)時代大數(shù)據(jù)的語義化、結(jié)構(gòu)化、數(shù)據(jù)共享與開放提供了重要支撐;既可以運(yùn)用于資源組織與知識關(guān)聯(lián),也可以支撐知識展示與數(shù)據(jù)服務(wù),成為實(shí)現(xiàn)信息檢索、知識發(fā)現(xiàn)、語義推理的智能引擎;通過機(jī)器標(biāo)注、語義關(guān)聯(lián)為云計(jì)算、云儲存提供了信息描述的標(biāo)準(zhǔn)化模型;通過主題標(biāo)引、學(xué)科分類、知識聚類功能,成為物聯(lián)網(wǎng)與虛擬現(xiàn)實(shí)的精準(zhǔn)知識組織系統(tǒng)。
《漢語主題詞表》是1975年國家重點(diǎn)科技攻關(guān)項(xiàng)目“漢字信息處理系統(tǒng)工程”的配套項(xiàng)目,于1980年6月正式公開出版,1985年獲得國家科學(xué)技術(shù)進(jìn)步二等獎。1991年,出版自然科學(xué)增訂本。為我國大規(guī)模計(jì)算機(jī)信息存儲與檢索奠定了基礎(chǔ),促進(jìn)了中文文本信息處理工作的開展。
新型《漢語主題詞表》是為適應(yīng)網(wǎng)絡(luò)環(huán)境下海量文本大數(shù)據(jù)形式化、結(jié)構(gòu)化、語義化處理的需要,中國科學(xué)技術(shù)信息研究所從2009年開始牽頭組織分領(lǐng)域、分階段修訂和重新構(gòu)建的工程。目前已經(jīng)完成工程技術(shù)卷和自然科學(xué)卷的編制工作,覆蓋31個學(xué)科領(lǐng)域,術(shù)語詞匯達(dá)50萬條,已經(jīng)在國家工程技術(shù)數(shù)字圖書館中,提供科技信息的組織和檢索服務(wù)。