РОССИЙСКАЯ ФЕДЕРАЦИЯ ФЕДЕРАЛЬНАЯ СЛУЖБА ПО ИНТЕЛЛЕКТУАЛЬНОЙ СОБСТВЕННОСТИ ГОСУДАРСТВЕННАЯ РЕГИСТРАЦИЯ ПРОГРАММЫ ДЛЯ ЭВМ Номер регистрации (свидетельства): 2016660949 Дата регистрации: 26.09.2016 Номер и дата поступления заявки: 2016616408 20.06.2016 Дата публикации: 20.10.2016 Контактные реквизиты: ois@herzen.spb.ru, www.herzen.spb.ru Авторы: Осочкин Александр Анатольевич, Фомин Владимир Владимирович Правообладатель: федеральное государственное бюджетное образовательное учреждение высшего образования «Российский государственный педагогический университет им. А. И. Герцена» Название программы для ЭВМ: Классификация русскоязычных текстов на основе частотного и морфологического анализа Реферат: Программа предназначена для комплексной обработки текстов, изложенных на русском языке. Позволяет осуществить классификацию текстов. Интегрирует в себе алгоритмы частотного, морфологического и интеллектуального анализа. Цель: извлечение при помощи частотного и морфологического анализа из анализируемых текстов информации о частоте употребления слов и их характеристиках, расчет на их основе коэффициентов для последующего анализа в пакетах интеллектуального анализа данных. Реализуется процедура классификации тестов на основе методов регрессионных деревьев (деревьев решений). Практика применения: для распознавания функционального стиля статей и публикаций, авторского стиля и др. Включает в себя три главных модуля: частотный модуль. Осуществляет первичную обработку, в ходе которой весь текст разделяется на символы (цифры, буквы, знаки препинания, предложения, абзацы, слова и словосочетания и т.д.) и считает их частоту употребления; модуль морфологического анализа. Используется для определения части речи и различных характеристик слова (род, число, падеж, и т.д.), а также определения приставки, корня, суффикса, окончания и начальной формы слова; модуль формирования показателей. Формирование обобщённой таблицы абсолютных частотных значений результатов и относительных показателей текста (коэффициентов) и конечной таблицы признаков (частотных, характеристических показателей) текстов. Тип реализующей ЭВМ: IBM PC-совмест. ПК Язык программирования: С# (среда Visual Studio 2013 SP3) Вид и версия операционной системы: Windows 10 Объем программы для ЭВМ: 83 Кб