РОССИЙСКАЯ ФЕДЕРАЦИЯ ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ |
|
||
Номер регистрации (свидетельства): Дата регистрации: 12.09.2016 Номер и дата поступления заявки: Дата публикации: 20.10.2016 |
Авторы:
Правообладатель:
|
Название программы для ЭВМ:
Утилита для оценки сходства абзацев текста методом латентно-семантического анализа
Реферат:
Программа предназначена для оценивания сходства между соседними абзацами текста и разбиения текста на тематические сегменты из подряд идущих связанных по смыслу абзацев. Из входного текста производится построение начальной матрицы слово-абзац, её сингулярное разложение, оценка смысловой близости абзацев с помощью косинусной меры сходства и само разбиение на сегменты. Входные аргументы: путь к файлу с текстом (без стоп-слов); количество измерений семантического пространства; граничное значение косинуса; путь к файлу для записи значений косинусов между абзацами; путь к файлу для записи результатов разбиения на сегменты; путь, если он указан, к файлу с экспертной оценкой (на каждой строке которого указаны данные в формате номер_абзаца_1 номер_абзаца_2 +_ (абзацы связаны) или_- (абзацы не связаны).
Тип реализующей ЭВМ: IBM PC- совмест. ПК
Язык программирования: Java SE 8
Вид и версия операционной системы: поддерживающая JRE 1.8 (Windows и др.)
Объем программы для ЭВМ: 11,85 Кб