央廣網(wǎng)貴陽5月27日消息(記者陳屹)5月26日,中國科學技術(shù)信息研究所在正在貴陽舉行的2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上發(fā)布在網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)時代新型《漢語主題詞表》。新《漢語主題詞表》在體系結(jié)構(gòu)、詞匯術(shù)語、詞間關(guān)系等方面都進行了改進和創(chuàng)新,將對國家信息基礎(chǔ)建設(shè)提供支撐作用。
據(jù)悉,新型《漢語主題詞表》是支持漢語信息處理的語義工具,是以概念詞匯為知識節(jié)點,以等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系為語義關(guān)聯(lián),構(gòu)建成的超大型知識庫系統(tǒng),編織成的多維度的知識網(wǎng)絡(luò)。通過新型《漢語主題詞表》的微觀知識結(jié)構(gòu),可以將大數(shù)據(jù)結(jié)構(gòu)化、語義化、規(guī)范化。
新型《漢語主題詞表》支持中文文獻文本語義處理;通過專業(yè)詞庫,支持對專業(yè)文獻的文本分詞;通過同義詞歸并,聚焦專業(yè)知識節(jié)點;通過主題分析,批量揭示文獻信息涵蓋的知識內(nèi)容與分類類型,將海量信息進行序化;提供在線概念檢索和輔助標引服務(wù),通過可視化技術(shù),展示各類概念關(guān)系,為網(wǎng)絡(luò)時代大數(shù)據(jù)的語義化、結(jié)構(gòu)化、數(shù)據(jù)共享與開放提供了重要支撐;既可以運用于資源組織與知識關(guān)聯(lián),也可以支撐知識展示與數(shù)據(jù)服務(wù),成為實現(xiàn)信息檢索、知識發(fā)現(xiàn)、語義推理的智能引擎;通過機器標注、語義關(guān)聯(lián)為云計算、云儲存提供了信息描述的標準化模型;通過主題標引、學科分類、知識聚類功能,成為物聯(lián)網(wǎng)與虛擬現(xiàn)實的精準知識組織系統(tǒng)。
《漢語主題詞表》是1975年國家重點科技攻關(guān)項目“漢字信息處理系統(tǒng)工程”的配套項目,于1980年6月正式公開出版,1985年獲得國家科學技術(shù)進步二等獎。1991年,出版自然科學增訂本。為我國大規(guī)模計算機信息存儲與檢索奠定了基礎(chǔ),促進了中文文本信息處理工作的開展。
新型《漢語主題詞表》是為適應(yīng)網(wǎng)絡(luò)環(huán)境下海量文本大數(shù)據(jù)形式化、結(jié)構(gòu)化、語義化處理的需要,中國科學技術(shù)信息研究所從2009年開始牽頭組織分領(lǐng)域、分階段修訂和重新構(gòu)建的工程。目前已經(jīng)完成工程技術(shù)卷和自然科學卷的編制工作,覆蓋31個學科領(lǐng)域,術(shù)語詞匯達50萬條,已經(jīng)在國家工程技術(shù)數(shù)字圖書館中,提供科技信息的組織和檢索服務(wù)。