Уточнение результатов распознавания математических формул с использованием расстояния Левенштейна

 pdf (348K)

Рассматривается задача распознавания сканированных математических текстов с повторяющимися формулами либо формулами с общими фрагментами. Описывается метод сравнения результатов распознавания, позволяющий выделять идентичные элементы из множества вариантов распознавания. Метод основывается на вычислении расстояний Левенштейна между отдельными фрагментами с учетом дополнительных параметров. Предложенный метод отличается от обычного метода тем, что при наличии неопределенностей в процессе сравнения участвуют все возможные варианты распознавания, представленные в виде пары символ-вес. В случае нелинейных формул в сравнении участвуют дополнительные числовые параметры, задающие расположение отдельных символов на плоскости. Такое сравнение позволит сгруппировать формулы, а полученные данные будут полезны при принятии решений как человеком, так и программой. Использование данного метода упростит процесс ручного исправления ошибок, который будет основываться на динамическом управлении промежуточными результатами в процессе тесного человеко-машинного взаимодействия.

Ключевые слова: расстояние Левенштейна, вес замены, вес перемещения, множество вариантов распознавания, формулы с общими фрагментами
Цитата: Вестник Удмуртского университета. Математика. Механика. Компьютерные науки, 2020, т. 30, вып. 3, с. 513-529
DOI: 10.35634/vm200311

Refinement of the results of recognition of mathematical formulas using the Levenshtein distance

The article deals with the problem of recognizing scanned mathematical texts with repeating formulas or formulas with same fragments. A method for comparing recognition results is described, which allows one to select similar elements from a variety of recognition options. The method is based on calculating the Levenshtein distances between individual fragments with additional parameters. The proposed method differs from the usual method in that, in the presence of uncertainties in comparison, all possible recognition options are used, presented as a symbol-weight pair. In the case of nonlinear formulas, numerical parameters that specify the location of individual symbols on the plane are also used in comparison. This comparison will allow you to group the formulas, and the data obtained will be useful in making decisions both by a user and by a program. Using this method will simplify the process of manual error correction, which will be based on the dynamic management of intermediate results in the process of close man-machine interaction.

Keywords: Levenshtein distance, replacement weight, displacement weight, variety of recognition options, formulas with common fragments
Citation in English: Vestnik Udmurtskogo Universiteta. Matematika. Mekhanika. Komp'yuternye Nauki, 2020, vol. 30, issue 3, pp. 513-529

Журнал индексируется в Web of Science (Emerging Sources Citation Index)

Журнал индексируется в Scopus

Журнал входит в базы данных zbMATH, MathSciNet

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал включен в перечень ВАК.

Электронная версия журнала на Общероссийском математическом портале Math-Net.Ru.

Журнал включен в Crossref