Модели документального и фактографического поиска для интеллектуальных информационных систем
Электронный журнал Cloud of Science. 2021. T. 1. № 4
http://cloudofscience.ru ISSN 2409-031X
Модели документального и фактографического поиска для интеллектуальных информационных систем1
В. Б. Барахнин, А. М. Федотов
Институт вычислительных технологий СО РАН 630090, Новосибирск, пр. Лаврентьева, 6 Новосибирский государственный университет 630090, Новосибирск, ул. Пирогова, 2 e-mail: bar@ict.nsc.ru, fedotov@sbras.ru
Аннотация. В статье рассматриваются вопросы построения моделей документального и фактографического поиска для интеллектуальных информационных систем, работающих с документами достаточно произвольной структуры, а также разработки технологии извлечения фактографической информации из научных документов достаточно произвольной структуры. Предложена модель классификации документов интеллектуальной информационной системы, основанная на использовании отношения толерантности, учитывающая возможное отсутствие априорно заданных классификаторов. Показано, что при создании фактографических систем целесообразно следующее понимание факта: содержащаяся в тексте и метаданных документа совокупность связей между сущностями, описываемыми в онтологии информационной системы. Предложена простейшая модель онтологии фактографической системы. Ключевые слова: интеллектуальные системы, документальный поиск, факт, фактографический поиск.
1. Введение
В классической монографии [1], изданной ВИНИТИ и содержащей подробный обзор теоретических проблем фактографического поиска, на основе выделения двух типов информационных потребностей: потребности в сведениях об источниках необходимой научной информации и потребности в самой необходимой научной информации — говорится, что для удовлетворения информационных потребностей первого типа предназначены информационные системы, получившие название документальных, второго — фактографических. В настоящее время наиболее востребованным средством информационного обеспечения научной деятельности становятся интеллектуальные системы (ИИС), сочетающие возможности информа-
1 Работа выполнена при частичной поддержке РФФИ (проекты 12-07-00472, 13-07-00258) и президентской программы «Ведущие научные школы РФ» (грант 5006.2021.9).
ционных систем обоих названных типов и позволяющие удовлетворять информационные потребности квалифицированного пользователя в соответствии со схемой «документ — факт — рассуждение» [2, 3]. В дальнейшем мы будем использовать термин «фактографические системы» в широком смысле, включающем и ИИС.
Важным этапом процесса функционирования фактографических систем является извлечение из текстов документов содержащихся в них фактов, т. е. в наиболее общем смысле, «особого рода предложений, фиксирующих эмпирическое знание» [4].
К сожалению, указанная задача далека не только от сколько-нибудь удовлетворительного решения, но и от достаточно общей постановки. Одна из основных причин этого заключается в том, что с появлением в конце 1970-х годов персональных компьютеров появились мощные средства визуализации информации, вследствие чего были почти остановлены научные изыскания в области теории создания информационно-поисковых систем. Другой причиной приостановки развития новых алгоритмов обработки фактографической информации стало появление в начале 1980-х годов в Японии проекта так называемых «компьютеров пятого поколения», который активно подхватили США, СССР, Великобритания и структуры Европейского сообщества. В процессе реализации этого проекта предполагалось, в частности, разработать технологии логических заключений для обработки знаний, способные делать логические выводы из представленных фактов, хранящихся в сверхбольших базах данных и базах знаний, при этом предусматривалась параллельная обработка данных. Доступ к данным должен был осуществляться с помощью языка логического программирования Пролог. Кроме того, планировалось реализовать поиск характерных признаков в массивах данных автоматическое реферирование текстов на естественном языке и т. п. Требуемое для решения поставленных задач резкое увеличение производительности предполагалось достигнуть путем замены программных решений на аппаратные, что означало приостановку теоретических исследований в области фактографического поиска.
Однако в 1992 году проект завершился, не достигнув цели. Среди множества причин провала проекта мы остановимся лишь на тех, которые связаны с разработкой программного обеспечения. Прежде всего, возможности решения задач в области искусственного интеллекта были переоценены, разработчики питали ничем не обоснованную надежду на то, что возможно создание системы искусственного интеллекта, которая, будучи реализованной на компьютере достаточно большой мощности, будет способна к самоорганизации, проявляющейся, в частности, в самостоятельном (не зависящим от человека) изменении внутренних правил и параметров системы. Эта идея оказалась непродуктивной: система, которой было позволено «самоорганизовываться», быстро утрачивала целостность и начинала проявлять неадекватную реакцию. Ошибочным был и выбор языка логического программирования Пролог: программы, написанные на нем, плохо отлаживались и не распараллеливались. Наконец, сделанная в процессе реализации проекта ставка на развитие преимущественно аппаратных решений в ущерб программным оказалась ошибочной: аппаратные средства неоправданно усложнялись, а развитие и совер-
систем
шенствование алгоритмов резко затормозилось. Но окончательно похоронило «японский проект компьютеров пятого поколения» появление Интернета, приведшее к возникновению принципиально новой парадигмы распределения и хранения данных. Таким образом, научные изыскания в области теории создания информационно-поисковых систем возобновились лишь в середине 1990-х в связи с развитием информационных технологий сети Интернет и перехода к распределенному хранению информации.
К настоящему моменту в указанной области получены важные теоретические результаты, а также сделан ряд практических шагов по их реализации (см., например, [5, 6]). Эти разработки обычно опираются на неявное предположение о возможности широкого распространения более или менее подробной стандартизации представления информации, например, на основе словарей, как это сделано в рамках концепции Semantic Web консорциума W3 [7].
Однако при попытке автоматизировать процесс извлечения фактографической информации из реальных массивов документов, например, размещенных в сети Интернет, использование концепции Semantic Web неизбежно порождает серьезные проблемы, поскольку наработки консорциума W3 носят лишь рекомендательный характер, а объявить их стандартами могут только организации, имеющие соответствующий статус, например ISO, ГОСТ или ANSI. Ввиду этого реальное развитие большинства ресурсов Интернета, в том числе научной направленности, идет без учета подобных необязательных рекомендаций. Более того, свободный характер размещения материалов в сети Интернет превращает требование соблюдения даже обязательных стандартов представления информации всего лишь в благое пожелание (особенно это касается российской части Интернета). Разумеется, сказанное относится еще в большей степени к электронным документам, не размещенным в Интернете и полученным создателями ИИС для обработки посредством локального доступа.
Таким образом, возникает необходимость разработки моделей документального и фактографического поиска для интеллектуальных информационных систем, работающих с документами достаточно произвольной структуры. Данная статья посвящена построению таких моделей.
2. Модель классификации документов в ИИС
Так как задачи поиска и классификации информации взаимно-обратны, то нам достаточно рассмотреть модель классификации документов, наиболее адекватно отражающую особенности работы с ИИС, имеющих дело с документами достаточно произвольной структуры, в частности, возможное отсутствие априорно заданных классификаторов.
Наиболее распространенным вариантом классификации библиографических ресурсов является фасетная классификация, теория построения которой формализована индийским библиотековедом Ш. Р. Ранганатаном (см. [8]). Объекты классифицируются одновременно по нескольким независимым друг от друга признакам
(фасетам). Применительно к электронным ресурсам в качестве фасетов выступают элементы метаданных.
Важно отметить, что при создании ИИС библиографические признаки документов не играют решающей роли, в силу чего подмножества множеств значений библиографических метаданных, образующих значения фасетов, как правило, более широки. Так, ссылки на различные переиздания одного и того же документа в данной ситуации целесообразно считать эквивалентными.
Простейшая формальная модель классификации документов с использованием структурированных метаданных документов выглядит следующим образом [9]. Пусть в справочно-поисковом аппарате ИИС хранится информация о документах . При этом любой документ представляется как
= (т,к),
где т!, к — значения элементов метаданных Мк — количество значений (с учетом повторений) соответствующего элемента метаданных в описании документа. Рассмотрим подмножество метаданных Мс, определяющее набор классификационных признаков документов, используемых для составления поискового предписания (с учетом заданных логических операций). Для фиксированного элемента метаданных М], где М} с Мс, заранее определяются подмножества М/ множества значений этого элемента метаданных (указанные подмножества могут, вообще говоря, пересекаться).
Будем считать два документа толерантными (напомним, что толерантность — отношение, которое обладает свойствами рефлексивности и симметричности, но, вообще говоря, может не обладать, в отличие от отношения эквивалентности, свойством транзитивности; подробно свойства этого отношения исследованы в [10]), если у них значения некоторого элемента метаданных входят в одно и то же подмножество М/, при этом если значения рассматриваемого элемента метаданных могут повторяться, то документы считаются толерантными при совпадении хотя бы одного из значений. Каждое такое подмножество порождает на множестве документов справочно-информационного аппарата ИИС предкласс толерантности, который обозначим К-.
Более того, в большинстве случаев такие предклассы максимальны, т. е. являются классами толерантности. Предкласс К’к является классом, если не существует отличного от него (т. е. порожденного другим набором элементов метаданных) предкласса К/ такого, что К’к с К/, в противном случае К’к классом не является.
Выясним, в каких случаях предклассы не являются классами (это необходимо, например, для описываемого ниже определения базиса пространства толерантности). Прежде всего, если М’1 сМ’к, то К’к сК’1, и поэтому К’к классом не является, за исключением конкретного подбора документов, когда К’к = К11, но и в этом слу-
систем
чае, очевидно, нет смысла рассматривать К’к в качестве отдельного класса. С содержательной точки зрения этой ситуации соответствует вхождение некоторого раздела классификатора ИИС в раздел более высокого уровня, когда оба этих раздела учитываются при описании пространства толерантности (разумеется, можно и не учитывать раздел более низкого уровня при определении толерантных элементов, но тогда мы будем иметь дело с пространством толерантности, отличным от первоначального). В описанной ситуации предклассы, не являющиеся классами, определяются априори.
Однако возможна и ситуация, когда К’к с К/ из-за конкретных особенностей документов ИИС. Например, в ИИС по истории математики все документы с географическим признаком Египет имеют хронологической признак до новой эры, при этом указанный хронологический признак имеют и документы, относящиеся к другим регионам. Ясно, что в этом случае все документы с признаком Египет попарно толерантны не только в силу географического, но и в силу хронологического признака, однако появление в справочно-информационном аппарате ИИС хотя бы одного документа с признаком Египет, датируемого новой эрой, изменит эту ситуацию. Тем самым в рассматриваемой ситуации предкласс К’к целесообразно рассматривать (например, при построении базиса) в качестве класса.
Совокупность всех классов толерантности (включая предклассы, рассматриваемые в соответствии со сказанным выше в качестве классов) будем обозначать через Н.
Далее опишем, как устроен базис описываемого пространства толерантности (некоторая совокупность Нв классов толерантности называется базисом, если для всякой толерантной пары документов существует класс из Нв, содержащий оба этих документа, а удаление из Нв хотя бы одного класса приводит к потере этого свойства). Очевидно, что множество классов толерантности Нм (включающее по нашему построению, в том числе, и предклассы, рассматриваемые в качестве классов), порожденных всей совокупностью подмножеств М/, содержит базис. Утверждать, что НМ в точности является базисом нельзя потому, что входящие в него
предклассы, не являющиеся классами, могут быть удалены без потери первого свойства из определения базиса. Однако, так как добавление в справочно-информационный аппарат ИИС даже одного документа может сделать предкласс классом и, стало быть, «полноценным» элементом базиса, поэтому рассмотрение таких предклассов в качестве элементов базиса целесообразно с точки зрения организации классификации и поиска документов ИИС.
Описание классов толерантности для ИИС имеет большое практическое значение. Прежде всего, рассмотрим множество всех документов, для которых существует такая совокупность классов (включая предклассы, рассматриваемые в качестве классов) из Н, что каждый из этих документов входит в эти и только эти классы. Такое множество представляет собой ядро толерантности, а множество всех
ядер толерантности задает отношение эквивалентности на множестве документов справочно-информационного аппарата ИИС. При этом для построения ядер толерантности достаточно рассматривать лишь классы (и предклассы) из базиса Нм [10].
Таким образом, поисковое предписание, содержащее подмножество метаданных, определяющее набор классификационных признаков, с указанием сочетаний значений этих метаданных при помощи логических операций, определяет конкретное ядро толерантности на множестве документов, которое и выдается пользователю в качестве ответа на его информационный запрос.
Кроме того, на множестве классов толерантности также можно, в свою очередь, ввести отношение толерантности, при этом толерантными считаются классы, имеющие хотя бы один общий документ. Такая конструкция оказывается полезной, например, для организации поиска документов «по аналогии».
Формализм, основанный на использовании отношения толерантности, оказывается более удобным при создании ИИС, работающих с документами достаточно произвольной структуры, не имеющих единых априорно заданных классификаторов, поскольку в них нередко приходится использовать те или иные алгоритмы кластеризации документов (см., например, [3]), а уже потом, исходя из результатов кластеризации, устанавливать подмножества множества значений элементов метаданных, выступающие в качестве значений фасетов.
3. Уточнение понятия «факт»
Прежде чем обсуждать проблемы работы с фактографической информацией, следует уточнить, какое именно содержание мы будет вкладывать в понятие «факт».
К сожалению, в официальных документах: ГОСТ 7.73-96 «Поиск и распространение информации» и ГОСТ 7.74-96 «Информационно-поисковые языки» — этот термин практически не формализован. Так, в ГОСТ 7.74-96 дано лишь косвенное, причем не слишком содержательное, определение факта: «7.7. фактографическое индексирование: Индексирование, предусматривающее отражение в поисковом образе документа конкретных сведений (фактов)». Интересно отметить, что иноязычные эквиваленты терминов, относящихся к фактографическому поиску (в отличие от подавляющего большинства прочих терминов), в указанном ГОСТе отсутствуют. Что же касается ГОСТ 7.73-96, то интересующее нас понятие косвенно раскрывается в следующем определении: «3.3.7. база первичных данных; фактографическая база данных: База данных, содержащая информацию, относящуюся непосредственно к предметной области».
Подробный анализ значения термина «факт» и его производных, основанный на соответствующих статьях «Философской энциклопедии» и «Словаря современного русского литературного языка», был проведен в монографии [1]. В итоге были выявлены следующие признаки фактов.
систем
1. Факты следует отличать от данных, фиксирующих специфику объекта, условия наблюдения и т. п. Понятие же научного факта «предполагает элиминирование такой информации, т. е. требует определенного обобщения непосредственных данных». Однако при этом отмечается, что четкого различия между указанными понятиями в «Словаре современного русского литературного языка» не приводится.
2. Фактом можно назвать лишь знание, выдержавшее критическую проверку, т. е. полученное в результате обобщения и переработки данных абстрактно-логическим мышлением (разумеется, при этом надо отдавать отчет в том, что достижение абсолютно достоверного знания является лишь идеалом развития науки, практически недостижимым).
3. Любой факт, прежде чем стать объектом научной коммуникации, должен быть преобразован в текст или изображение, получив форму научного документа или его части. Более того, «объектом сбора, хранения, поиска и выдачи в так называемых фактографических информационно-поисковых системах… могут быть лишь соответствующие тексты или документы, описывающие некоторые данные или факты, если под документом понимать. любой фрагмент такого текста» [1].
Нетрудно видеть, что сформулированные признаки весьма расплывчаты. Прежде всего, признаки 1 и 2 предполагают обобщение и оценку перерабатываемых данных. Поэтому жесткое соблюдение требований, вытекающих из указанных признаков, выводит работу с фактами за рамки собственно научно-информационной деятельности, поскольку в той или иной степени требует использования теорий и методик конкретных научных дисциплин, к которым относятся данные.
К тому же, как уже отмечалось выше, очень трудно провести четкую границу между фактами и непосредственными данными. Это касается следующих типов сущностей, описывающих тот или иной объект исследования: имена собственные, хронологические сведения, различные характеристики объектов и т. п. Например, даже такой, казалось бы, бесспорный факт: «Температура кипения воды равна 100 0С» — неявно предполагает указание на условия наблюдения, например, химическую чистоту воды и давление в 1 атм., причем последнее условие нельзя заменить на более абстрактное: «стандартное атмосферное давление», поскольку в химии таковым, согласно решению Международного союза теоретической и прикладной химии (ИЮПАК), считается давление 100 кПа, меньшее 1 атм., и при «стандартном давлении» температура кипения воды несколько меньше 100 оС.
Еще больше проблем возникает в области гуманитарных наук, в частности истории, где некое утверждение, снабженное ссылкой на источник информации, нередко становится новым утверждением, являющимся предметом изучения источниковедения. При этом если исходное высказывание может быть спорным и не являться историческим фактом (например, «Император Александр Первый и старец Федор Кузьмич — одно и то же лицо»; о том, что данное высказывание отнюдь не относится к «лженаучным», а заслуживает, по крайней мере, серьезного обсуждения, см. монографию [11]), то утверждение со ссылкой может являться фактом источниковедения («Князь Н.С. Голицын опубликовал версию о том, что император
Александр Первый и старец Федор Кузьмич — одно и то же лицо, в журнале “Русская старина”, 11 книга, 1880 г.»).
Наконец, рассмотрение в качестве фактов имен собственных предполагает, как показано в [1], наличие связей имен собственных с информацией о конкретных носителях этих имен, ибо в противном случае имя несет лишь назывную, но не информационную функцию.
Сказанное объясняет наметившуюся тенденцию стирания граней между понятиями «данные» и «факты», которая отчетливо проявилась в более современной монографии [2], также изданной ВИНИТИ. Данные понимаются в ней как факты и идеи, представленные в символьной форме, позволяющей проводить их передачу, обработку и интерпретацию, а информация — как смысл, приписываемый данным на основании известных правил представления фактов и идей. Структурированная (связанная причинно-следственными и иными отношениями) информация, образующая систему, составляет знания.
Для уточнения смысла, вкладываемого в термин «факт» применительно к той области информатики, которая изучает процессы взаимных преобразований данных, информации и знаний в процессе функционирования ИИС, представляется целесообразным использование семиотического подхода. Понятие «факт» является центральным в «Логико-философском трактате» Л. Витгенштейна [12], одним из источников которого, как отметил Витгенштейн, в предисловии трактата, стали работы Г. Фреге — основателя семиотики. Процитируем основные положения трактата, касающиеся фактов:
«…1.1. Мир есть совокупность фактов, а не вещей.
1.2. Мир распадается на факты.
1.21. Любой факт может иметь место или не иметь места, а все остальное останется тем же самым.
2. То, что имеет место, что является фактом, — это существование атомарных фактов.
2.01. Атомарный факт есть соединение объектов (вещей, предметов).
2.011. Для предмета существенно то, что он может быть составной частью атомарного факта.
2.034. Структура факта состоит из структур атомарных фактов.
2.04. Совокупность всех существующих атомарных фактов есть мир.
2.05. Совокупность всех существующих атомарных фактов определяет также, какие атомарные факты не существуют.
2.06. Существование или несуществование атомарных фактов есть действительность. (Существование атомарных фактов мы также называем положительным фактом, несуществование — отрицательным.)
2.061. Атомарные факты независимы друг от друга.
систем
2.062. Из существования или несуществования какого-либо одного атомарного факта нельзя заключать о существовании или несуществовании другого атомарного факта.
4.21. Простейшее предложение, элементарное предложение, утверждает существование атомарного факта.
4.22. Элементарное предложение состоит из имен. Оно есть связь, сцепление имен».
Положения, выдвинутые в «Логико-философском трактате», имеют большое значение для семиотики, в частности, потому, что в нем устанавливается полное соответствие между онтологическими и семантическими понятиями [13]. Кроме того, Витгенштейн не исключает ложные (или, если угодно, представляющиеся на данном уровне познания ложными) утверждения из числа атомарных фактов, а называет такие факты несуществующими.
Нетрудно заметить, что процитированные положения «Логико-философского трактата» (прежде всего, ключевые определения из раздела 2.01: «Атомарный факт есть соединение объектов (вещей, предметов)… Структура факта состоит из структур атомарных фактов») практически полностью воспроизводятся в модели данных «сущность-связь» [14], являющейся основой для унификации различных представлений данных (при этом следует отметить, что в статье [14] для обозначения связи между сущностями не используется термин «факт», а в ее библиографическом списке отсутствует ссылка на «Логико-философский трактат»).
Для единообразия определения понятия «факт» удобно использовать модификацию модели данных «сущность-связь» из той же статьи, называемую моделью множества сущностей. Ее отличительные особенности заключаются в том, что, во-первых, в ней все трактуется как объекты (в том числе, например, цвет, в то время как в модели «сущность-связь» цвет обычно трактуется как «значение», а согласно «Логико-философскому трактату» «2.0251. Пространство, время и цвет (цветность) есть формы объектов») а, во-вторых, все связи в этой модели — бинарные. Связи между объектами в модели множества сущностей также рассматриваются как объекты, связанные, в свою очередь, с объектами — атрибутами связей.
Важно подчеркнуть, что создание фактографических систем подразумевает извлечение фактов не только непосредственно из текста документа, но и из его метаданных. Это следует, например, из традиционного понимания научно-информационного процесса [15], 2-й этап которого (аналитико-синтетическая переработка документальной информации) предусматривает как извлечение сведений о содержании документа (индексирование, аннотирование и т. п.), так и обработку его библиографических данных.
Более того, в некоторых случаях целесообразно извлекать и факты, касающиеся не только семантического, но и синтаксического уровня сообщения. В частности, при анализе поэтических текстов [16] исследуются их метрические, ритмические и фонетические характеристики. При этом они могут представлять не только
непосредственный интерес, но и использоваться для установления фактов, касающихся, например, авторства документов. Так, Д. С. Самойлов [17], проанализировав особенности рифм одной из версий продолжения X главы «Евгения Онегина», полностью исключил авторство Пушкина, поскольку в этом тексте процент рифм с совпадающими опорными согласными в несколько раз превышает этот показатель в произведениях Пушкина.
Однако всякий ли факт, содержащийся в тексте или метаданных документа, обрабатываемого ИИС с целью извлечения из него фактов, представляет интерес с точки зрения создателей и пользователей данной ИИС? Чтобы ответить на этот вопрос, формализуем введенное понятие факта подобно тому, как это было сделано в нашей работе [18] для терминов «информация», «знание», «тезаурус», «онтология». В этой работе, в частности, показано, что данные соответствуют синтаксическому уровню сообщения (в том числе документа), информация (в узком смысле!) — семантическому, а знания — прагматическому. Отсюда вытекает, что функционирование интеллектуальной информационной системы основано на двух противоположных процессах: при пополнении ИИС новыми сведениями происходит преобразование семантической информации в данные, однако непосредственно потребности пользователя удовлетворяет обратный процесс — извлечение из данных нужной пользователю информации и знаний.
Следовательно, в качестве «первичного» факта рассматривается некоторая информация (как правило, семантическая; примеры возможных исключений приведены выше), но в справочно-информационный фонд ИИС факт заносится в качестве совокупности элементов данных, описывающих сущности и связи между ними, что соответствует уже упоминавшемуся соотнесению данных и фактов из монографии [2].
Но какого рода информация может быть занесена в справочно-информационный фонд системы в виде данных? Ведь сами по себе данные не несут никакой информационной ценности без соответствующих моделей: например, А. Н. Колмогоров неоднократно отмечал, что данные представляют информационную ценность лишь тогда, когда они являются составной частью некоторой модели реального мира и связаны с другими данными [19, 20]. Таким образом, применение информационных технологий должно основываться на использовании различных моделей (феноменологических, информационных, математических и др.). Как подчеркивал А. А. Ляпунов (см., например, [21]): «нет модели — нет информации».
В качестве модели предметной области обычно выступает ее онтология (какой именно смысл мы вкладываем в это весьма широко трактуемое понятие — будет уточнено в следующем разделе).
Таким образом, при создании фактографических информационных систем разумно следующее понимание факта: содержащаяся в тексте и метаданных документа совокупность связей между сущностями, описываемыми в онтологии информационной системы.
Отсюда, в частности, вытекает следующее важное замечание: именно онтология фактографической системы определяет, что будет считаться фактом в рамках
систем
этой системы. Здесь мы имеем дело с ситуацией, столь характерной для естественных наук, о которой говорил, например, А. Эйнштейн в своей известной беседе с В. Гейзенбергом: «Только теория решает, что можно наблюдать» [22].
4. Особенности онтологий для фактографических систем
Прежде всего, уточним, какого именно понимания термина онтология мы будем придерживаться в данной работе.
В работе [18] нами было проведено (применительно к рассматриваемой предметной области) установление определенности в понимании и разграничении использования терминов «тезаурус» и «онтология». Более или менее однозначное трактование термина «тезаурус» сложилось еще в конце 1960-х годов [23]: это «словарь-справочник, содержащий все лексические единицы информационно-поискового языка — дескрипторы (вместе с ключевыми словами, которые в пределах данной информационно-поисковой системы считаются синонимами этих дескрипторов), причем дескрипторы в словаре должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены».
Что же касается термина «онтология», в настоящее время, как отмечено в [24], под онтологией нередко стали понимать широкий спектр структур, представляющих знания о той или иной предметной области с разной степенью формализации [25]:
– словарь с определениями;
– простая таксономия;
– тезаурус (таксономия с терминами);
– модель с произвольным набором отношений;
– таксономия и произвольный набор отношений;
– полностью аксиоматизированная теория.
Было показано в [18], что тезаурус становится онтологией тогда, когда связи между дескрипторами не просто эксплицированы (как это предусмотрено в классическом определении тезауруса), но и классифицированы универсальными зависимостями типа «общее — частное», «часть — целое», «причина — следствие» и т. п. (см., например, [26]). Разумеется, это — лишь «нижняя граница» сложности онтологии. Для эффективной работы с фактами следует, чтобы сущности, относящиеся к предметной области, были представлены не только обозначающими их терминами, но и достаточно широким набором атрибутов, т. е. речь идет об онтологии, обладающей известными признаками модели предметной области.
Разумеется, на первоначальном этапе создания ИИС речь, как правило, идет о создании лишь каркаса онтологии, содержащего только краткие сведения о сущностях, а их более подробное описание будет происходить в процессе функционирования ИИС посредством извлечения из документов соответствующих фактов, выступающих в качестве тех или иных атрибутов сущностей. При этом следует хра-
нить и библиографическую ссылку на информационный источник, из которого был извлечен данный факт.
Поскольку, как уже отмечалось выше, «объектом сбора, хранения, поиска и выдачи в так называемых фактографических информационно-поисковых системах … могут быть лишь соответствующие тексты или документы, описывающие некоторые данные или факты, если под документом понимать. любой фрагмент такого текста» [1], постольку в роли онтологии — модели предметной области — может выступать та или иная модель интеллектуальной информационной системы, например, предложенная нами в работе [27]. Эта модель, записанная в качестве модели предметной области, имеет вид
S = ( K, M, MJ(K,, K)), где K — классы сущностей; M — множество используемых атрибутов сущностей, M1 {К ^ Ki}¡ — типы возможных связей между классами сущностей, когда сущность из класса K ‘ может входить в качестве значения атрибута M j сущности из класса Ki. Тем самым любая сущность st представляется как
d = (mj,k),
где mj’k — значения атрибутов сущности; k — количество значений (с учетом повторений) j-го атрибута в описании сущности.
При создании информационной системы сущности будут представлены в виде описывающих их документов, а атрибуты сущностей будут представлять собой элементы метаданных.
Предложенная модель онтологии полностью соответствует введенному нами пониманию факта, что делает ее наиболее пригодной для создания фактографической системы. Разумеется, пользуясь знаниями о предметной области, возможно и целесообразно накладывать различные ограничения (морфологические, синтаксические, семантические, структурно-текстовые) на характеристики сущностей, входящих в те или иные классы (подробно принципы установления ограничений описаны в [28]).
Отметим, что применительно к фактографическим информационным системам, создаваемым в рамках концепции Semantic Web, довольно близкий подход был предложен в работе [5]. Речь идет об использовании модели, в которой сущности внешнего мира представляются атрибутированными информационными единицами, а отношения между сущностями реализуются либо в виде прямых ссылок, либо в виде составных конструкций определенного вида, при этом спецификация такой модели воплощается в виде онтологии.
5. Автоматизированное извлечение фактов из документов
Разработка методик автоматизированного извлечения фактов из документов представляет собой наиболее сложную проблему, возникающую при создании фак-
систем
тографических систем. Это было подчеркнуто еще в [1]: «не существует сколько-нибудь значительных различий в теории и методике построения документальных и фактографических информационно-поисковых систем, если фактографический поиск понимать лишь как процесс отыскания уже готовых данных и фактов, ранее введенных в фактографическую систему. Однако под фактографическим поиском можно понимать и нечто принципиально иное, а именно отыскание машиной требуемых данных и фактов в текстах научных документов, написанных на одном или нескольких разных естественных языках, .[что] требует оперирования со смыслом текстов его анализа и синтеза, т. е. моделирования достаточно сложных мыслительных процессов».
Собственно говоря, в середине 1970-х годов возможности компьютеров были явно недостаточными для сколько-нибудь полноценного практического решения поставленной задачи. К настоящему моменту рост мощности компьютеров позволил создавать разнообразные алгоритмы для извлечения данных и фактов из документов на естественных языках. Выбор конкретного алгоритма (или, точнее, даже типа алгоритмов) зависит от того, насколько структурированы (и структурированы ли вообще) данные и факты, содержащиеся в конкретном документе.
1. Табличные данные. Они могут выступать, согласно [1], в качестве фактов, если являются, например, характеристиками предметов, географических объектов и т. п. Для их извлечения из документов существуют разнообразные, весьма надежные алгоритмы (см., в частности, [29], включая библиографический обзор).
2. Массивы однородных слабоструктурированных текстовых документов. Нередко первоначальный этап создания онтологий удобно проводить, занося факты, содержащиеся в массивах однородных документов, описывающих предметную область: биографических справочниках, геологических, ботанических или зоологических каталогах и т. п. В таких случаях наиболее целесообразно использовать алгоритмы, учитывающие информацию о закономерностях их текстовой структуры (например, общих для всех документов массива синтаксических и семантических конструкциях), а также о гипертекстовой разметке обрабатываемых документов (при наличии таковой). Такой алгоритм, извлекающий факты (метаданные) о библиографии документов, подробно описан, например, в нашей монографии [3]. Он может быть легко адаптирован к фактографической информации произвольного характера, содержащейся в массивах документов, имеющих более или менее однородную текстовую структуру.
3. Тексты произвольного характера. Задача извлечения фактов из произвольных текстов на естественном языке до сих пор, по-видимому, не имеет сколько-нибудь общего решения, поскольку построение такого решения предполагает, в частности, достаточно точное моделирование когнитивной деятельности человека, а также наличие мощных средств как синтаксического, так и семантического анализа текстов, включая подробнейшие онтологии, тезаурусы которых учитывают, например, все богатство синонимии естественного языка (не столько даже в части научной лексики, сколько в части лексики общеупотребительной).
«Частное решение» этой задачи применительно к той или иной предметной области предполагает, прежде всего, построение онтологии, тезаурус которой включает, наряду с описанием сущностей предметной области, по крайней мере, те пласты общеупотребительной лексики (разумеется, с учетом синонимии), которые наиболее характерны для данной области.
Непосредственная работа по извлечению фактов из текста может основываться на совокупном применении методов синтаксического и семантического анализа. Например, общедоступным средством анализа текстов является стеммер (морфологический анализатор) компании «Яндекс» (http://company.yandex.ru/technologies/ mystem/), позволяющий извлекать словосочетания заданной структуры, например, (прилагательное) (существительное) или (существительное) (существительное в родительном падеже), т. е. проводить не только морфологический, но и синтаксический анализ. Для семантического анализа текстов может быть применен подробно описанный в [3] алгоритм выявления в тексте терминов, в том числе и составных, входящих в словарь онтологии данной предметной области. Само же извлечение факта, относящегося к тому или иному упоминаемому в тексте субъекту, описанному в онтологии, состоит в определении значения предиката, связанного с этим субъектом (описание подробностей конкретной реализации алгоритмов синтаксического и семантического анализа выходит за рамки данной статьи).
6. О взаимодействии фактографических систем с пользователями
Факты, извлеченные из текстов документов, и занесенные в фактографическую информационную систему, могут быть использованы как для дальнейшего получения новых знаний (что, собственно, и характеризует интеллектуальные системы), так и для непосредственного поиска пользователем системы. При этом нередко в качестве чуть ли непременного атрибута качественной фактографической системы называют возможность формулировки запроса на естественном языке. Однако из изложенного выше, на наш взгляд, вытекает вывод о том, что такая функция не дает пользователям специализированных систем каких-то принципиальных удобств. Действительно, коль скоро мы рассматриваем в качестве фактов характеристики сущностей, описанных в онтологии, то весьма несложный интерфейс, позволяющий просматривать онтологию посредством использования последовательности гиперссылок (или даже посредством таблицы), сможет предоставить пользователю возможность без труда найти нужный факт или, по крайней мере, убедиться в том, что этот факт не занесен в систему. С другой стороны, задача «понимания» системой запросов на естественном языке практически эквивалентна задаче извлечения фактов из текстов на естественном языке, о трудностях в решении которой нами сказано выше. При этом следует учесть, что далеко не все пользователи (пусть даже являющиеся высококвалифицированными специалистами в своей предметной области) способны формулировать свой вопрос так четко и недвусмысленно, как, согласно стихотворению проф. А. С. Компанейца, это умел делать на своем
систем
знаменитом семинаре в Институте физических проблем АН СССР Л. Д. Ландау (цит. по [30]):
С первых слов, как Вельзевул во плоти,
Навалился Дау на него:
«Лучше вы скажите, что в работе
Ищется как функция чего?»
Слишком же расплывчатая постановка вопроса, «не распознанная» информационной системой, может привести к тому, что у пользователя сложится ошибочное мнение, будто бы система не располагает необходимой ему информацией. Таким образом, непосредственный просмотр онтологии представляется наиболее надежным путем получения конкретной фактографической информации.
Разумеется, возможна и усложненная постановка задачи, когда пользователю требуются не только (или даже не столько) сами факты, но и их анализ, обобщение и т. п. Для решения этой задачи требуются такие компоненты ИИС [2], как рассуждающая информационная система, формализующая правила логического вывода, и интеллектуальный интерфейс (диалог, графика и т. д.).
Таким образом, функционирование фактографических информационных систем как частного случая ИИС основано на двух противоположных процессах: при пополнении фактографической системы новыми фактами происходит преобразование семантической информации в данные, однако непосредственно потребности пользователя удовлетворяет обратный процесс — извлечение из данных нужной пользователю информации и знаний.
7. Заключение
В статье изложены модели документального и фактографического поиска в интеллектуальных информационных системах, работающих с документами достаточно произвольной структуры. Предложена модель классификации документов интеллектуальной информационной системы, основанная на использовании отношения толерантности, учитывающая возможное отсутствие априорно заданных классификаторов. Показано, что при создании фактографических информационных систем целесообразно следующее понимание факта: содержащаяся в тексте и метаданных документа совокупность связей между сущностями, описываемыми в онтологии информационной системы. Предложена простейшая модель онтологии фактографической системы.
Важным этапом практической реализации предлагаемых в статье подходов является реализация алгоритмов синтаксического и семантического анализа текстов с целью извлечения фактов. Например, в [31] на основе анализа диссертационных работ исследована структура научных связей исследователей.
Примером практического использования фактографических систем может служить проверка в научных издательствах и редакциях журналов достоверности сведений, содержащихся в рукописях, имеющих биографический, научно-публицистический, обзорный и т. п. характер. Факты, извлекаемые из текста руко-
писей, подвергаются сравнению с «эталонными» фактами из онтологии информационной системы, и в случае расхождения редакция просит автора уточнить правильность приведенных им сведений.
Литература
[1] Михайлов А. И., Черный А. И., Гиляревский Р. С. Научные коммуникации и информатика. — М. : Наука, 1976.
[2] Арский Ю. М., Гиляревский Р. С., Туров И. С., Черный А. И. Инфосфера: Информационные структуры, системы и процессы в науке и обществе. — М. : ВИНИТИ, 1996.
[3] Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. — Новосибирск : Наука, 2021.
[4] Ракитов А. Факт // Философская энциклопедия. — М : Советская энциклопедия, 1970. Т. 5. С. 298.
[5] Марчук А. Г. О распределенных фактографических системах // Труды 10 Всероссийской научн. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2008). — Дубна, 2008. С.93-102.
[6] Марчук А. Г., Марчук П. А. Архивная фактографическая система // Труды 11 Всероссийской науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2009). — Петрозаводск, 2009. С. 177-185.
[7] Berners-Lee T., Hendler J., Lassila O. The Semantic Web // Scientific American. 2001. Vol. 284. No. 5. P. 34-43.
[8] Ранганатан Ш. Р. Классификация двоеточием. Основная классификация / пер. с англ. — М. : ГПТНБ СССР, 1970.
[9] Федотов А. М., Барахнин В. Б. Проблемы поиска информации: история и технологии // Вестник НГУ. Серия: Информационные технологии. 2009. Т. 7. Вып. 2. С. 3-17.
[10] Шрейдер Ю. А. Равенство, сходство, порядок. — М. : Наука, 1971.
[11] Сахаров А. Н. Александр I. — М : Наука, 1998.
[12] Wittgenstein L. Logisch-Philosophische Abhandlung // Annalen der Naturphilosophie. 1921. Vol. XIV. Parts 3/4. P. 185-262. [Рус. пер.: Витгенштейн Л. Логико-философский трактат. — М. : Изд. иностранной литературы, 1958].
[13] Грязнов А. Ф. Витгенштейн. Новая философская энциклопедия. — М. : Мысль, 2000. Т. 1. С. 406-408.
[14] Chen P. P. The entity-relational model. Toward a unified view of data // ACM Transactions on Database Systems. 1976. Vol. 1. No. 1. P. 9-36. [Рус. пер.: Чен П. П.-Ш. Модель «сущность-связь — шаг к единому представлению данных // СУБД. 1995. № 3. С.137-158.]
систем
[15]Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. — М. : Наука, 1968.
[16] Барахнин В. Б., Кожемякина О. Ю. Об автоматизации комплексного анализа русского поэтического текста // Труды 14 Всероссийской науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2021). — Переславль-Залесский, 2021. С. 213-217.
[17] Самойлов Д. С. Книга о русской рифме. — М. : Художественная литература, 1982.
[18] Барахнин В. Б., Федотов А. М. Уточнение терминологии, используемой при описании интеллектуальных информационных систем, на основе семиотического подхода // Известия вузов. Проблемы полиграфии и издательского дела. 2008. № 6. С. 73-81.
[19] Колмогоров А. Н. Три подхода к определению понятия «количество информации» // Проблемы передачи информации. 1965. Т. 1. Вып. 1. С. 3-11.
[20] Колмогоров А. Н. Теория информации и теория алгоритмов. — М. : Наука, 1987.
[21] Ляпунов А. А. О соотношении понятий материя, энергия и информация // В кн.: Ляпунов А. А. Проблемы теоретической и прикладной кибернетики. — Новосибирск : Наука, 1980. С. 320-323.
[22] Heisenberg W. Der Teil und das Ganze. Gespräche im Umkreis der Atomphysik. — Munich : Piper, Werner Karl. Publication, 1969.
[23]Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. — М. : Наука, 1968.
[24] Добров Б. В., Лукашевич Н. В., Синицын М. Н., Шапкин В. Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска // Труды 7 Всероссийской науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2005). — Ярославль, 2005. С. 70-79.
[25] Welty C., McGuinness D., Uschold M., Gruninger M., Lehmann F. Ontologies: Expert Systems all over again // AAAI-1999 Invited Panel Presentation. 1999.
[26] Нариньяни А. С. Кентавр по имени ТЕОН: Тезаурус Онтология // Труды международного семинара Диалог’2001 по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. Т. I. C. 184-188.
[27] Барахнин В. Б., Леонова Ю. В., Федотов А. М. К вопросу о формулировке требований для построения информационных систем научно-организационной направленности // Вычислительные технологии. 2006. Т. 11. Спец. вып. С. 5258.
[28] Сидорова Е. А. Онтологический подход к представлению знаний для задачи анализа текстовых ресурсов // Материалы Всероссийской конференции с международным участием «Знания-Онтологии-Теории» (ЗОНТ-07), — Новосибирск, 2007. Т. 1. С. 221-228.
[29] Бычков И. В., Ружников Г. М., Хмельнов А. Е., Шигаров А. О. Эвристический метод обнаружения таблиц в разноформатных документах // Вычислительные технологии. 2009. Т. 14. № 2. С. 58-73.
[30] Горобец Б. С. Советские физики шутят. Хотя бывало не до шуток. — М. : Книжный дом «ЛИБРОКОМ», 2021.
[31] Леонова Ю. В., Федотов А. М. Исследование научных связей на основе анализа диссертационных работ // Вестник НГУ. Сер.: Информационные технологии. 2021. Т. 12. № 1. С. 34-49.
Авторы:
Барахнин Владимир Борисович, доктор технических наук, доцент, старший научный сотрудник Института вычислительных технологий СО РАН, заведующий кафедрой информационных технологий Высшего колледжа информатики Новосибирского государственного университета
Федотов Анатолий Михайлович, член-корреспондент РАН, доктор физико-математических наук, профессор, главный научный сотрудник Института вычислительных технологий СО РАН, декан факультета информационных технологий Новосибирского государственного университета
систем
Models of Documentary and Factographic Retrieval in Artificial Intelligence Systems
V. B. Barakhnin, A. M. Fedotov
Institute of Computational Technologies, Siberian Branch, Russian Academy of Sciences 630090, pr. Lavrentyeva, 6, Novosibirsk, Russia Novosibirsk State University 630090, Pirogova, 2, Novosibirsk, Russia E-mail: bar@ict.nsc.ru, fedotov@sbras.ru
Abstract. This article about a building models of documentary and factual search for artificial intelligence systems working with documents. There is developed the technology of extracting factual information from scientific documents sufficiently arbitrary structure. Proposed a model document classification artificial intelligent system based on the use of tolerance relation, in the conditions of a possible lack a priori defined qualifiers. In creating factograph-ic systems, it is suggested that the concept of a fact should be understood as a totality of relationships, as contained in the text and document metadata, between the entities described in the information system ontology. A simple model is proposed to describe the ontology of a factographic system. Keyword: artificial intelligence systems, documentary search, fact, factual search.
Reference
[1] Mikhailov A. I., Chernyi A. I., Gilyarevskyi R. S. (1976) Nauchnye kommunikacii i informatika. Moscow, Nauka. (In Rus.)
[2] Arsky Yu. M., Gilyarevskyi R. S., Turov I. S., Chernyi A. I. Chernyj A. I. (1996) In-fosfera: Informacionnye struktury, sistemy i processy v nauke i obshhestve. Moscow, VINITI. (In Rus.)
[3] Shokin Yu. I., Fedotov A. M., Barakhnin V. B. (2021) [Problems of information retrieval] Problemy poiska informacii. Novosibirsk: Nauka. (In Rus.)
[4] Rakitov A. I. (1970) Fact. In Filosofskaja jenciklopedija. Moscow, Sovetskaja jenci-klopedija, 5, 298. (In Rus.)
[5] Marchuk A. G. (2008) [About Distributed Factographic Systems] O raspredelennyh faktograficheskih sistemah. Trudy 10 Vserossijskoj nauchnoj konferencii «Jel-ektronnye biblioteki: perspektivnye metody i tehnologii, jelektronnye kollekcii» (RCDL’2008). Dubna. P. 93-102. (In Rus.)
[6] Marchuk A. G. Marchuk P. A. (2009) Arhivnaja faktograficheskaja sistema. Trudy 11 Vserossijskoj nauchnoj konferencii «Jelektronnye biblioteki: perspektivnye metody i tehnologii, jelektronnye kollekcii» (RCDL’2009). Petrozavodsk. P. 177-185. (In Rus.)
[7] Berners-Lee T., Hendler J., Lassila O. (2001) The Semantic Web. Scientific American, 284(5):34-43.
[8] Ranganathan S. R. (1970) Klassifikacija dvoetochiem. Osnovnaja klassifikacija. Moscow, GPTNB SSSR. (In Rus.)
[9] Fedotov A. M., Barakhnin V. B. (2009) Problemy poiska informacii: istorija i
tehnologii. Vestnik NGU. Serija: Informacionnye tehnologii, 7(2), 3-17. (In Rus.)
[10] Shreyder Yu. A. (1971) Ravenstvo, shodstvo, porjadok. Moscow, Nauka. (In Rus.)
[11] Sakharov A. N. (1998) Aleksandr I. Moscow, Nauka. (In Rus.)
[12] Wittgenstein L. (1922) Tractatus Logico-Philosophicus. New York: Harcourt Brace.
[13] Gryaznov A. F. (2000) Wittgenstein. In Novaja filosofskaja jenciklopedija. Moscow, Mysl, 1, 406-408. (In Rus.)
[14] Chen P. P. S. (1976) The entity-relationship model — toward a unified view of data.
ACM Transactions on Database Systems (TODS), 1(1), 9-36.
[15] Barakhnin V. B., Kozhemyakina O. Yu. (2021) About the Automation of the Complex Analysis of Russian Poetic Text. Proceedings of the Fourteenth Anniversary of All-Russian Scientific Conference “Digital Libraries: Advanced Methods and Technologies, Digital Collections” (RCDL’2021). Pereslavl-Zalessky. P. 213-217. (In Rus.)
[16]Mikhailov A. I., Chernyi A. I., Gilyarevskyi R. S. (1968) Osnovy informatiki. Moscow, Nauka. (In Rus.)
[17] Samoylov D. S. (1982) Kniga o russkoj rifme. Moscow, Hudozhestvennaja literatura. (In Rus.)
[18] Barakhnin V. B., Fedotov A. M. (2008) Utochnenie terminologii, ispolzuemoj pri opisanii intellektual’nyh informacionnyh sistem, na osnove semioticheskogo pod-hoda. Izvestija vuzov. Problemy poligrafii i izdatel’skogo dela, 6, 73-81. (In Rus.)
[19] Kolmogorov A. N. (1965) Tri podhoda k opredeleniju ponjatija «kolichestvo informacii». Problemyperedachi informacii, 1(1), 3-11. (In Rus.)
[20] Kolmogorov A. N. (1987) Teorija informacii i teorija algoritmov. Moscow, Nauka. (In Rus.)
[21] Lyapunov A. A. (1980) O sootnoshenii ponjatij materija, jenergija i informacija. In A. A. Ljapunov. Problemy teoreticheskoj i prikladnoj kibernetiki. Novosibirsk, Nauka. P. 320-323. (In Rus.)
[22] Heisenberg W. (1969) Der Teil und das Ganze. Gespräche im Umkreis der Atomphysik. Werner Karl. Publication, Munich : Piper.
[23] Dobrov B. V., Loukachevitch N. V., Sinitsyn M. N., Shapkin V. N. (2005) Razrabotka lingvisticheskoj ontologii po estestvennym naukam dlja reshenija zadach infor-macionnogo poiska. Trudy 7 Vserossijskoj nauchnoj konferencii «Jelektronnye bibli-oteki: perspektivnye metody i tehnologii, jelektronnye kollekcii» (RCDL’2005). Jaro-slavl, P. 70-79. (In Rus.)
[24] Welty C., McGuinness D., Uschold M., Gruninger M., Lehmann F. (1999) Ontologies: Expert Systems all over again. AAAI-1999 Invited Panel Presentation.
систем
[25] Narinyani A. S. (2GGi) Kentavr po imeni TEON: Tezaurus Ontologija. Trudy mezhdunarodnogo seminara Dialog’2001 po komp’juternoj lingvistike i ee prilozhenijam.Aksakovo, i, iS4-iSS. (In Rus.)
[26] Barakhnin V. B., Leonova Y. V., Fedotov A. M. (2GG6) K voprosu o formulirovke trebovanij dlja postroenija informacionnyh sistem nauchno-organizacionnoj naprav-lennosti. Vychislitel’nye tehnologii, ii(Spec.), 52-5S. (In Rus.)
[27] Sidorova E. A. (2GG7) Ontologicheskij podhod k predstavleniju znanij dlja zadachi analiza tekstovyh resursov. Materialy Vserossijskoj konferencii s mezhdunarodnym uchastiem «Znanija – Ontologii – Teorii» (ZONT-07), i, 22i-22S. (In Rus.)
[2S] Bychkov I. V., Ruzhnikov G. M, Hmelnov A. E., Shigarov A. O. (2GG9) Jevristicheskij metod obnaruzhenija tablic v raznoformatnyh dokumentah. Vychislitel’nye tehnologii, i4(2), 5S-73. (In Rus.)
[29] Gorobets B. S. (2GiG) Sovetskie fiziki shutjat… Hotja byvalo ne do shutok. Moscow, Knizhnyj dom «LIBROKOM». (In Rus.)
[3G] Leonova Y. V., Fedotov A. M. (2Gi4) Issledovanie nauchnyh svjazej na osnove analiza dissertacionnyh rabot. Vestnik NGU. Ser.; Informacionnye tehnologii, i2(i), 3449. (In Rus.)