РОССИЙСКАЯ ФЕДЕРАЦИЯ

ФЕДЕРАЛЬНАЯ СЛУЖБА
ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ
RU2016660288
(12) ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ

Номер регистрации (свидетельства):
2016660288

Дата регистрации: 12.09.2016

Номер и дата поступления заявки:
2016617491 13.07.2016

Дата публикации: 20.10.2016

Авторы:
Гусарова Наталия Федоровна,
Дёмин Александр Дмитриевич,
Овсянников Тимофей Александрович,
Змиевец Лилия Станиславовна (RU)

Правообладатель:
федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»

Название программы для ЭВМ:
Утилита для оценки сходства абзацев текста методом латентно-семантического анализа

Реферат:
Программа предназначена для оценивания сходства между соседними абзацами текста и разбиения текста на тематические сегменты из подряд идущих связанных по смыслу абзацев. Из входного текста производится построение начальной матрицы слово-абзац, её сингулярное разложение, оценка смысловой близости абзацев с помощью косинусной меры сходства и само разбиение на сегменты. Входные аргументы: путь к файлу с текстом (без стоп-слов); количество измерений семантического пространства; граничное значение косинуса; путь к файлу для записи значений косинусов между абзацами; путь к файлу для записи результатов разбиения на сегменты; путь, если он указан, к файлу с экспертной оценкой (на каждой строке которого указаны данные в формате номер_абзаца_1 номер_абзаца_2 +_ (абзацы связаны) или_- (абзацы не связаны).

Тип реализующей ЭВМ: IBM PC- совмест. ПК

Язык программирования: Java SE 8

Вид и версия операционной системы: поддерживающая JRE 1.8 (Windows и др.)

Объем программы для ЭВМ: 11,85 Кб