Метод вилучення помилкових збігів текстів в електронних документах

Анотація
Розглянуто модель збігу та метод визначення нечітких збігів у тексті, на їх основі запропоновано метод вилучення помилкових збігів текстів у документах, що перевіряються. Показано, що за рахунок використання методу локально-чутливої хеш-функції знаходження нечітких збігів можна отримати кращий результат, ніж при використанні криптографічної хеш-функції. Оскільки зі збільшенням повноти охоплення точок страждає точність методу, було розроблено метод фільтрації помилкових збігів, який базується на припущенні, що справжні збіги між елементами індексу обов’язково будуть з’являтися на незначній відстані один від одного (відстань – різниця номерів елементів індексу), причому одна група збігів повинна мати незначні відстані як в документі, що перевіряється, так і в документі, з яким перевіряється. Розроблений метод використовує Декартову площину та оптимізований спосіб розрахунку відстаней між елементами для вилучення помилкових результатів і визначення нечітких збігів.
Опис
Ключові слова
хеш-функції, хешування, шингли, перевірка збігів, плагіат, кафедра інформаційних технологій, кафедра інформаційних технологій проектування та прикладної математики, кафедра основ інформатики, a hash-function, hashing, shingles, test matches, plagiarism, хэш-функции, хеширование, шинглы, проверка совпадений, плагиат
Бібліографічний опис
Метод вилучення помилкових збігів текстів в електронних документах / А. О. Білощицький, С. Д. Криштоф, С. В. Білощицька, О. В. Діхтяренко // Управління розвитком складних систем : зб. наук. праць / Київ. нац. ун-т буд-ва і архітектури ; гол. ред. П. П. Лізунов. – Київ : КНУБА, 2015. – № 22. – С. 144-150. - Бібліогр. : 18 назв.
Зібрання