Текущий выпуск Выпуск 1, 2025 Том 35

Все выпуски

Результыты поиска по 'GPU':

Найдено статей: 3

Копысов С.П., Новиков А.К., Сагдеева Ю.А.
Решение систем уравнений метода Галёркина с разрывными базисными функциями на графическом ускорителе, с. 121-131

Рассматриваются особенности решения систем уравнений метода Галёркина с разрывными функциями на графических процессорах GPU прямым методом и методами подпространств Крылова с различными предобуславливателями. Производительность программной реализации решения систем на GPU сравнивается с аналогичной, полученной на многоядерном процессоре CPU.

метод Галёркина с разрывными базисными функциями, системы линейных алгебраических уравнений, методы подпространств Крылова, предобуславливатель, разрежённые матрицы, вычисления общего назначения на графических устройствах.

Kopysov S.P., Novikov A.K., Sagdeeva Y.A.
Solving of discontinuous Galerkin method systems on GPU, pp. 121-131

Solving systems of equations obtained in Discontinuous Galerkin method by GPU-computing is considered. The direct method and iterative Krylov methods with preconditioning are used. The performance of GPU-computing for these systems of equations is compared with one of multicore CPU.

discontinuous Galerkin method, system of linear algebraic equations, Krylov subspaces methods, preconditioner, sparse matrices, general purpose сomputing on GPU.
Коромыслов Е.В., Усанин М.В., Синер А.А.
Расчет генерации шума вентилятора авиационного двигателя методами высокого порядка на графических процессорах, с. 618-633

В работе проводился расчет генерации шума вентилятора турбореактивного двухконтурного авиационного двигателя (ТРДД) для различных режимов его работы с помощью собственного программного пакета GHOST CFD, реализованного для графических процессоров (ГПУ). Программный пакет основан на схемах типа DRP (Dispersion Relation Preserving), имеющих высокий порядок аппроксимации и высокую разрешающую способность. Для интегрирования по времени также использовалась оптимизированная схема типа LDDRK (Low Dispersion and Dissipation Runge-Kutta). Для моделирования турбулентности использовался неявный метод крупных вихрей с релаксационной фильтрацией (LES-RF). В качестве ротор-статор-интерфейса применялись пересекающиеся (CHIMERA) сетки. Ускорение за счет использования ГПУ, по сравнению с обычным центральным процессором, составило до порядка 12-20 раз, при этом было достигнуто приемлемое время счета. Расчеты в GHOST CFD проводились в постановке «вентилятор - спрямляющий аппарат наружного контура (СА) с полными колесами лопаток». Результаты расчетов сравнивались как с экспериментальными данными, так и с результатами аналогичных расчетов в коммерческом программном пакете ANSYS CFX. При этом в части расчетов в ANSYS CFX учитывался и направляющий аппарат внутреннего контура (НА).

аэроакустика, ТРДД, тональный шум, широкополосный шум, вентилятор, DRP, LDDRP, ГПУ

Koromyslov E.V., Usanin M.V., Siner A.A.
Computation of aircraft engine fan noise generation with high-order numerical methods on Graphic Processing Units, pp. 618-633

The present paper considers the computation of noise generation by aircraft engine fan for different operating parameters with an in-house solver for Graphic Processing Units (GPUs), called GHOST CFD (GPU High Order Structured). The solver is based on DRP (Dispersion Relation Preserving) schemes which have a high order of approximation and a high resolution. An Optimized LDDRK (Low Dispersion and Dissipation Runge-Kutta) scheme was utilized for time integration. Large Eddy Simulation based on Relaxation Filtering (LES-RF) was used for the turbulence modeling. The solver implements overset (“CHIMERA”) meshes which were used as rotor-stator interface treatment. The speedup gained from GPUs utilization was about 12-20 times compared to modern 8-core CPU, allowing computations to be performed in a reasonable time period. The computations with GHOST CFD were performed in full annulus formulation with fan and outlet guide vane (OGV) blades. The results were compared with the experimental data as well as the results of similar computations in the commercial ANSYS CFX solver some of which also included inlet guide vane (IGV) blades.

aeroacoustics, turbofan, tonal noise, broadband noise, fan, DRP, LDDRK, GPU
Романенко А.А., Снытников А.В.
Особенности параллельной реализации метода частиц в ячейках, с. 419-426

Метод частиц в ячейках широко используется для моделирования плазмы, в то время как графические процессоры представляются наиболее эффективным инструментом для проведения расчетов с помощью этого метода. В данной работе предлагается подход, позволяющий ускорить один из наиболее затратных по времени этапов в проведении расчетов по методу частиц в ячейках на графических ускорителях. Этот этап представляет собой переупорядочивание модельных частиц, или перераспределение их между ячейками сетки. Переупорядочивание модельных частиц позволяет обеспечить локальность данных, которая в первую очередь определяет эффективность реализации метода частиц в ячейках. В данной работе предлагается разделить переупорядочивание на два этапа. На первом этапе для каждой ячейки нужно собрать все модельные частицы, которые должны покинуть данную ячейку, в массивы, число которых равно количеству соседних ячеек (в трехмерном случае имеется 26 соседних ячеек). На втором этапе каждая из соседних ячеек копирует частицы из соответствующего массива рассматриваемой ячейки в ее собственный массив частиц. Так как второй этап может выполняться одновременно двадцатью шестью нитями без синхронизации и ожиданий, и при этом не используются критические секции, семафоры, мутексы, атомарные операции и другие подобные инструменты, то в результате время выполнения переупорядочивания сокращается более чем в 10 раз по сравнению с неоптимизированной реализацией переупорядочивания с использованием синхронизации.

оптимизация, GPU, графические процессоры, моделирование, PIC

Romanenko A.A., Snytnikov A.V.
The peculiarities of the parallel implementation of Particle-In-Cell method, pp. 419-426

Particle-In-Cell (PIC) method is widely used for plasma simulation and the GPUs appear to be the most efficient way to run this method. In this work we propose a technique that enables one to speed up one of the most time-consuming operations in the GPU implementation of the PIC method. The operation is particle reordering, or redistribution of particles between cells, which is performed after pushing. The reordering operation provides data locality which is the key performance issue of the PIC method. We propose to divide the reordering into two stages. First, gather the particles that are going to leave a particular cell into arrays, the number of arrays being equal to the number of neighbor cells (26 for 3D case). Second, each neighbor cell copies the particles from the necessary array to its own particle array. The second operation is done in 26 threads independently with no synchronization or waiting and involves no critical sections, semaphores, mutexes, atomic operations etc. It results in the more than 10 times reduction of the reordering time compared to the straightforward reordering algorithm.

optimization, GPU, simulation, PIC

Журнал индексируется в Web of Science (Emerging Sources Citation Index)

Журнал индексируется в

Журнал входит в базы данных zbMATH, MathSciNet

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Журнал входит в систему Российского индекса научного цитирования.

Журнал включен в перечень ВАК.

Электронная версия журнала на Общероссийском математическом портале Math-Net.Ru.

Журнал включен в