Ранжирование документов при полнотекстовом поиске с учетом расстояния с использованием индексов с многокомпонентными ключами

 pdf (371K)

Рассматривается задача полнотекстового поиска с учетом расстояния. Применение индексов с многокомпонентными ключами позволяет существенно ускорить обработку запросов, включающих часто встречающиеся слова, в сравнении с обычными инвертированными индексами. Было показано, что если запросы состоят из очень часто встречающихся слов, то время поиска может быть сокращено в 130 раз. В данной статье изучается влияние на точность поиска, выдачу в результатах поиска релевантных документов, архитектуры индексов с многокомпонентными ключами. Рассмотрен ряд методов определения релевантности документов разных авторов. Каждый метод применен при поиске в обычном индексе, а затем при поиске с использованием индексов многокомпонентных ключей. Результаты экспериментов подтверждают, что для ряда методов расчета релевантности поиск с использованием индексов многокомпонентных ключей предоставляет близкие результаты при сравнении с поиском в обычном индексе.

Ключевые слова: полнотекстовый поиск, поисковые системы, релевантность, инвертированные файлы, поиск с учетом близости слов, индексы с трехкомпонентными ключами
Цитата: Вестник Удмуртского университета. Математика. Механика. Компьютерные науки, 2021, т. 31, вып. 1, с. 132-148
DOI: 10.35634/vm210110

Relevance ranking for proximity full-text search based on additional indexes with multi-component keys

The problem of proximity full-text search is considered. If a search query contains high-frequently occurring words, then multi-component key indexes deliver improvement of the search speed in comparison with ordinary inverted indexes. It was shown that we can increase the search speed up to 130 times in cases when queries consist of high-frequently occurring words. In this paper, we are investigating how the multi-component key indexes architecture affects the quality of the search. We consider several well-known methods of relevance ranking; these methods are of different authors. Using these methods we perform the search in the ordinary inverted index and then in the index that is enhanced with multi-component key indexes. The results show that with multi-component key indexes we obtain search results that are very near in terms of relevance ranking to the search results that are obtained by means of ordinary inverted indexes.

Keywords: full-text search, search engines, relevance ranking, inverted indexes, proximity search, three-component key indexes
Citation in English: Vestnik Udmurtskogo Universiteta. Matematika. Mekhanika. Komp'yuternye Nauki, 2021, vol. 31, issue 1, pp. 132-148

Журнал индексируется в Web of Science (Emerging Sources Citation Index)

Журнал индексируется в Scopus

Журнал входит в базы данных zbMATH, MathSciNet

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал включен в перечень ВАК.

Электронная версия журнала на Общероссийском математическом портале Math-Net.Ru.

Журнал включен в Crossref