РОССИЙСКАЯ ФЕДЕРАЦИЯ ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ Номер регистрации (свидетельства): 2016612587 Дата регистрации: 02.03.2016 Номер и дата поступления заявки: 2015662151 03.12.2015 Дата публикации: 20.04.2016 Контактные реквизиты: Krivonos_DS@nrcki.ru Авторы: Рыбка Роман Борисович, Сбоев Александр Георгиевич, Молошников Иван Александрович, Гудовских Дмитрий Владимирович Правообладатель: Федеральное государственное бюджетное учреждение «Национальный исследовательский центр «Курчатовский институт» Название программы для ЭВМ: «Программа отбора тематически схожих документов на основе эталонной коллекции с использованием вероятностно-энтропийных подходов» Реферат: Программа реализует алгоритм отбора тематически схожих документов на основе эталонной коллекции текстов. Алгоритм основан на интеграции множества вероятностно-энтропийных индикаторов для выделения набора ключевых слов и словосочетаний, описывающего тему для поиска. Входными данными для программы является запрос пользователя в виде эталонной коллекции документов (около 20 документов), описывающих объект поиска: новости, статьи, записи в блогах и т.п. Выходными данными является список документов тематически схожих с заданной эталонной коллекцией и контекстно-семантический граф, отражающий основные вложенные темы в результате поиска. Для решения данной задачи программой производится моделирование темы на основе анализа вероятностно-энтропийными и семантическими методами эталонной коллекции и статистических данных Национального Корпуса Русского Языка. В программе используется дивергенции Кульбака —Лейблера, для сравнения распределений терминов, информационная энтропия, отражающая равномерность распределения терминов по документам коллекции. Также применяются веса, на основе распределении Бернулли. Дополнительно используется семантический алгоритм Гинзбурга, для определения близости двух слов. Тип реализующей ЭВМ: IBM PC-совмест. ПК Язык программирования: Python Вид и версия операционной системы: Linux Объем программы для ЭВМ: 4 Мб