ЛАНДЕ Д.В., Формування мереж природних ієрархій термінів на основі аналізу текстових корпусів з правової тематики

УДК 004.67

ЛАНДЕ Д.В.,
доктор технічних наук,
Інститут проблем реєстрації інформації НАН України
 
Анотація. Пропонується методика виявлення і побудови мереж ієрархій термінів на основі аналізу текстових корпусів відповідної тематики. Методика базується на застосуванні методології компактифікованих графів горизонтальної видимості. Побудовано і досліджено мережі понять, сформовані на основі даних моделі Електронної енциклопедії законодавства України, а також тематичного фрагменту бази даних “Україніка наукова”.
Ключові слова: мовна мережа, ієрархія термінів, правова інформація, граф видимості, візуалізація.
Аннотация. Предлагается методика выявления и построения сетей иерархий терминов на основе анализа текстовых корпусов соответствующей тематики. Методика базируется на применении методологии компактифицированных графов горизонтальной видимости. Построены и исследованы сети понятий, сформированные на основе данных модели Электронной энциклопедии законодательства Украины, а также тематического фрагмента базы данных Украиника научная.
Ключевые слова: сеть языка, иерархия терминов, правовая информация, граф видимости, визуализация.
Summary. The methods of identifying and building of hierarchies of terms networks based on the analysis of text corps on relevant topics. The procedure is based on the application of the methodology of horizontal visibility graphs. Constructed and investigated concept networks are formed based on models of electronic encyclopedia of ukrainian legislation, as well as fragment of thematic database “Ukrainika Naukova”.
Keywords: language network, hierarchy of terms, legal information, visibility graph, visualization.
 
       Постановка проблеми. На цей час актуальними є задачі побудови онтологій з визначених галузей знань, зокрема, з правової тематики. Зрозуміло, побудова великих галузевих онтологій – це складна проблема, яка потребує великих ресурсних витрат. У будь-якому разі, певним етапом побудови загальної онтології є побудова відповідних тезаурусів, термінологічних онтологій [1].
        В цій роботі надається методика побудови мережі природної ієрархії термінів, яку можна розглядати як “квазіонтологію”, основу для формування відповідної термінологічної онтології. Мережа природної ієрархії термінів базується на інформаційно-значущих елементах тексту, опорних словах і словосполученнях, методологію виявлення яких наведено в роботі [2]. Використання таких елементів дозволяє формувати пошукові образи, зокрема, при обробці правової інформації, виявляти такі компоненти тексту, як колокації, надфразові єдності [3], охоплювати цілі галузі знань як основи для подальшої побудови загальних онтологій...