Метод вилучення помилкових збігів текстів в електронних документах
Дата
2015
Автори
Білощицький, Андрій Олександрович
Криштоф, Світлана Дмитрівна
Білощицька, Світлана Василівна
Діхтяренко, Олександр Васильович
Заголовок журналу
Журнал ISSN
ISSN журналу
2219-5300
Назва тому
Видавець
КНУБА
Анотація
Розглянуто модель збігу та метод визначення нечітких збігів у тексті, на їх основі
запропоновано метод вилучення помилкових збігів текстів у документах, що перевіряються. Показано, що за рахунок використання методу локально-чутливої хеш-функції знаходження нечітких збігів можна отримати кращий результат, ніж при використанні криптографічної хеш-функції. Оскільки зі збільшенням повноти охоплення точок страждає точність методу, було розроблено метод фільтрації помилкових збігів, який базується на припущенні, що справжні збіги між елементами індексу обов’язково будуть з’являтися на незначній відстані один від одного (відстань – різниця номерів елементів індексу), причому одна група збігів повинна мати незначні відстані як в документі, що перевіряється, так і в документі, з яким перевіряється. Розроблений метод використовує Декартову площину та оптимізований спосіб розрахунку відстаней між елементами для вилучення помилкових результатів і визначення нечітких збігів.
Опис
Ключові слова
хеш-функції, хешування, шингли, перевірка збігів, плагіат, a hash-function, hashing, shingles, test matches, plagiarism, хэш-функции, хеширование, шинглы, проверка совпадений, плагиат
Кафедра авторів
кафедра інформаційних технологій, кафедра інформаційних технологій проєктування та прикладної математики, кафедра інформаційних технологій
Бібліографічний опис
Метод вилучення помилкових збігів текстів в електронних документах / А. О. Білощицький, С. Д. Криштоф, С. В. Білощицька, О. В. Діхтяренко // Управління розвитком складних систем : зб. наук. праць / Київ. нац. ун-т буд-ва і архітектури ; гол. ред. П. П. Лізунов. – Київ : КНУБА, 2015. – № 22. – С. 144-150. - Бібліогр. : 18 назв.
УДК
008.5