Метод вилучення помилкових збігів текстів в електронних документах

Ескіз

Дата

2015

Автори

Білощицький, Андрій Олександрович
Криштоф, Світлана Дмитрівна
Білощицька, Світлана Василівна
Діхтяренко, Олександр Васильович

Заголовок журналу

Журнал ISSN

Назва тому

Видавець

КНУБА

Анотація

Розглянуто модель збігу та метод визначення нечітких збігів у тексті, на їх основі запропоновано метод вилучення помилкових збігів текстів у документах, що перевіряються. Показано, що за рахунок використання методу локально-чутливої хеш-функції знаходження нечітких збігів можна отримати кращий результат, ніж при використанні криптографічної хеш-функції. Оскільки зі збільшенням повноти охоплення точок страждає точність методу, було розроблено метод фільтрації помилкових збігів, який базується на припущенні, що справжні збіги між елементами індексу обов’язково будуть з’являтися на незначній відстані один від одного (відстань – різниця номерів елементів індексу), причому одна група збігів повинна мати незначні відстані як в документі, що перевіряється, так і в документі, з яким перевіряється. Розроблений метод використовує Декартову площину та оптимізований спосіб розрахунку відстаней між елементами для вилучення помилкових результатів і визначення нечітких збігів.

Опис

Ключові слова

хеш-функції, хешування, шингли, перевірка збігів, плагіат, кафедра інформаційних технологій, кафедра інформаційних технологій проектування та прикладної математики, кафедра основ інформатики, a hash-function, hashing, shingles, test matches, plagiarism, хэш-функции, хеширование, шинглы, проверка совпадений, плагиат

Бібліографічний опис

Метод вилучення помилкових збігів текстів в електронних документах / А. О. Білощицький, С. Д. Криштоф, С. В. Білощицька, О. В. Діхтяренко // Управління розвитком складних систем : зб. наук. праць / Київ. нац. ун-т буд-ва і архітектури ; гол. ред. П. П. Лізунов. – Київ : КНУБА, 2015. – № 22. – С. 144-150. - Бібліогр. : 18 назв.

Зібрання

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced