Все выпуски
- 2025 Том 35
- 2024 Том 34
- 2023 Том 33
- 2022 Том 32
- 2021 Том 31
- 2020 Том 30
- 2019 Том 29
- 2018 Том 28
- 2017 Том 27
- 2016 Том 26
- 2015 Том 25
- 2014
- 2013
- 2012
- 2011
- 2010
- 2009
- 2008
-
Рассматривается задача полнотекстового поиска с учетом расстояния. Применение индексов с многокомпонентными ключами позволяет существенно ускорить обработку запросов, включающих часто встречающиеся слова, в сравнении с обычными инвертированными индексами. Было показано, что если запросы состоят из очень часто встречающихся слов, то время поиска может быть сокращено в 130 раз. В данной статье изучается влияние на точность поиска, выдачу в результатах поиска релевантных документов, архитектуры индексов с многокомпонентными ключами. Рассмотрен ряд методов определения релевантности документов разных авторов. Каждый метод применен при поиске в обычном индексе, а затем при поиске с использованием индексов многокомпонентных ключей. Результаты экспериментов подтверждают, что для ряда методов расчета релевантности поиск с использованием индексов многокомпонентных ключей предоставляет близкие результаты при сравнении с поиском в обычном индексе.
-
Рассматривается задача полнотекстового поиска с учетом близости в больших текстовых массивах. Пользователь вводит несколько слов в качестве поискового запроса. В результате поиска формируется список документов, содержащих заданные слова. В современных поисковых системах, документы, в которых слова поискового запроса встречаются вблизи, считаются более релевантными. Рассматриваемая задача требует сохранения в индексе информации о каждом вхождении каждого слова в индексируемых текстах. Скорость выполнения поискового запроса зависит от числа вхождений слов запроса в текстах. Следовательно, запросы, включающие часто встречающиеся слова, выполняются существенно медленнее, чем запросы, состоящие из обычных слов. Для каждого слова текста сохраняем в индексах информацию о часто встречающихся словах, которые располагаются в тексте рядом с ним, на расстоянии не более $MaxDistance$. Данный параметр может принимать значения 5, 7 и даже больше. Применение индексов с трехкомпонентными ключами позволяет добиться быстрого выполнения поисковых запросов. Результаты экспериментов поиска, представленные автором ранее, показывают, что среднее время поискового запроса, состоящего из очень часто встречающихся слов, при применении индексов с трехкомпонентными ключами, меньше в 94.7 раза, чем среднее время поиска с использованием обычных инвертированных индексов. В текущей работе рассмотрен новый алгоритм создания индекса с трехкомпонентными ключами. Доказана корректность алгоритма. Представлены результаты экспериментов построения индексов для разных значений параметра $MaxDistance$.
Журнал индексируется в Web of Science (Emerging Sources Citation Index)
Журнал входит в базы данных zbMATH, MathSciNet
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в перечень ВАК.
Электронная версия журнала на Общероссийском математическом портале Math-Net.Ru.