Текущий выпуск Номер 1, 2025 Том 17

Все выпуски

Результаты поиска по 'memory':
Найдено статей: 52
  1. Прокопцев Н.Г., Алексеенко А.Е., Холодов Я.А.
    Использование сверточных нейронных сетей для прогнозирования скоростей транспортного потока на дорожном графе
    Компьютерные исследования и моделирование, 2018, т. 10, № 3, с. 359-367

    Краткосрочное прогнозирование потока трафика является однойиз основных задач моделирования транспортных систем, основное назначение которой — контроль дорожного движения, сообщение об авариях, избежание дорожных пробок за счет знания потока трафика и последующего планирования транспортировки. Существует два типа подходов для решения этой задачи: математическое моделирование трафика и модель с использованием количественных данных трафика. Тем не менее большинство пространственно-временных моделейст радают от высокой математической сложности и низкой эффективности. Искусственные нейронные сети, один из видных подходов второго типа, показывают обещающие результаты в моделировании динамики транспортнойс ети. В данной работе представлена архитектура нейронной сети, используемойдля прогнозирования скоростейт ранспортного потока на графе дорожной сети. Модель основана на объединении рекуррентнойней ронной сети и сверточнойней ронной сети на графе, где рекуррентная нейронная сеть используется для моделирования временных зависимостей, а сверточная нейронная сеть — для извлечения пространственных свойств из трафика. Для получения предсказанийна несколько шагов вперед используется архитектура encoder-decoder, позволяющая уменьшить накопление шума из-за неточных предсказаний. Для моделирования сложных зависимостей мы используем модель, состоящую из нескольких слоев. Нейронные сети с глубокойархитек туройсло жны для тренировки; для ускорения процесса тренировки мы используем skip-соединения между каждым слоем, так что каждыйслой учит только остаточную функцию по отношению к предыдущему слою. Полученная объединенная нейронная сеть тренировалась на необработанных данных с сенсоров транспортного потока из сети шоссе в США с разрешением в 5 минут. 3 метрики — средняя абсолютная ошибка, средняя относительная ошибка, среднеквадратическая ошибка — использовались для оценки качества предсказания. Было установлено, что по всем метрикам предложенная модель имеет более низкую погрешность предсказания по сравнению с ранее опубликованными моделями, такими как Vector Auto Regression, Long Short-Term Memory и Graph Convolution GRU.

    Prokoptsev N.G., Alekseenko A.E., Kholodov Y.A.
    Traffic flow speed prediction on transportation graph with convolutional neural networks
    Computer Research and Modeling, 2018, v. 10, no. 3, pp. 359-367

    The short-term prediction of road traffic condition is one of the main tasks of transportation modelling. The main purpose of which are traffic control, reporting of accidents, avoiding traffic jams due to knowledge of traffic flow and subsequent transportation planning. A number of solutions exist — both model-driven and data driven had proven to be successful in capturing the dynamics of traffic flow. Nevertheless, most space-time models suffer from high mathematical complexity and low efficiency. Artificial Neural Networks, one of the prominent datadriven approaches, show promising performance in modelling the complexity of traffic flow. We present a neural network architecture for traffic flow prediction on a real-world road network graph. The model is based on the combination of a recurrent neural network and graph convolutional neural network. Where a recurrent neural network is used to model temporal dependencies, and a convolutional neural network is responsible for extracting spatial features from traffic. To make multiple few steps ahead predictions, the encoder-decoder architecture is used, which allows to reduce noise propagation due to inexact predictions. To model the complexity of traffic flow, we employ multilayered architecture. Deeper neural networks are more difficult to train. To speed up the training process, we use skip-connections between each layer, so that each layer teaches only the residual function with respect to the previous layer outputs. The resulting neural network was trained on raw data from traffic flow detectors from the US highway system with a resolution of 5 minutes. 3 metrics: mean absolute error, mean relative error, mean-square error were used to estimate the quality of the prediction. It was found that for all metrics the proposed model achieved lower prediction error than previously published models, such as Vector Auto Regression, LSTM and Graph Convolution GRU.

    Просмотров за год: 36.
  2. Малков С.Ю.
    Режимы с обострением в истории человечества или воспоминания о будущем
    Компьютерные исследования и моделирование, 2019, т. 11, № 5, с. 931-947

    В статье рассмотрены режимы с обострением в социальной и биологической истории. Проведен анализ возможных причин резкого ускорения биологических и социальных процессов в определенные исторические эпохи. С использованием математического моделирования показано, что гиперболические тренды в социальной и биологической эволюции могут быть следствием переходных процессов в периоды расширения экологических ниш. Ускорение биологического видообразования связано с тем, что более ранние виды своей жизнедеятельностью изменяют среду обитания, делая ее более разнообразной, насыщая органикой, тем самым создавая благоприятные условия для появления новых видов. В социальной истории расширение экологических ниш связано с технологическими революциями, важнейшими из которых были: неолитическая революция — переход от присваивающего хозяйства к производящему (10 тыс. лет назад), «городская революция» — переход от неолита к бронзовому веку (5 тыс. лет назад), «осевое время» — переход к массовому освоению железных орудий (2.5 тыс. лет назад), промышленная революция — переход от ручного труда к машинному (200 лет назад). Все эти технологические революции сопровождались резким демографическим ростом, изменениями в социальной и политической сфе- рах. Так, наблюдаемый в последние столетия гиперболический характер роста некоторых демографических, экономических и других показателей мировой динамики — это следствие переходных процессов, начавшихся вследствие промышленной революции (замены ручного труда машинным) и предваряющих переход общества на новую стадию своего развития. Точка сингулярности гиперболического тренда характеризует окончание начального этапа этого процесса и переход к завершающей его стадии. Предложена математическая модель, описывающая демографические и экономические изменения в эпохи перемен. Показано, что прямым аналогом современной ситуации в этом смысле является «осевое время» (период с 8 века до нашей эры до начала нашей эры). Наличие такой аналогии позволяет заглянуть в будущее, изучая прошлое.

    Malkov S.Yu.
    Regimes with exacerbation in the history of mankind or memories of the future
    Computer Research and Modeling, 2019, v. 11, no. 5, pp. 931-947

    The article describes the modes with the exacerbation of social and biological history. The analysis of the possible causes of the sharp acceleration of biological and social processes in certain historical periods is carried out. Using mathematical modeling shows that hyperbolic trends in social and biological evolution may be the result of transitional processes in periods of expansion of ecological niches. Accelerating biological speciation due to the fact that its earlier life change inhabitancy, making it more diverse, saturating the organic, thus creating favourable conditions for the emergence of new species. In the social history of the expansion of ecological niches associated with technological revolutions, of which the most important were: Neolithic revolution — the transition from appropriating economy to producing economy (10 thousand years ago), “urban revolution” — a shift from the Neolithic epoch to the bronze epoch (5 thousand years ago), the “axial age” — transition to the development of iron tools (2.5 thousand years ago), the industrial revolution — the transition from manual labor to machine production (200 years ago). All of these technological revolutions have been accompanied by dramatic population growth, changes in social and political spheres. So, observed in the last century, hyperbolic nature of some demographic, economic growth and other indicators of world dynamics is a consequence of the transition process, which began as a result of the industrial revolution and to prepare for the transition of the society to a new stage of its development. Singularity point of hyperbolic trend shows the end of the initial phase of the process and marks the transition to the final stage. The mathematical model describing the demographic and economic changes in the era of change is proposed. It is shown that a direct analogue of the contemporary situation in this sense is the “axial age” (since 8 century BC to the beginning of our era). The existence of this analogy allows you to see into the future by studying the past.

  3. Недбайло Ю.А., Сурченко А.В., Бычков И.Н.
    Снижение частоты промахов в неинклюзивный кэш с инклюзивным справочником многоядерного процессора
    Компьютерные исследования и моделирование, 2023, т. 15, № 3, с. 639-656

    Хотя эпоха экспоненциального роста производительности компьютерных микросхем закончилась, даже настольные процессоры общего назначения сегодня имеют 16 и больше ядер. Поскольку пропускная способность памяти DRAM растет не с такой скоростью, как вычислительная мощность ядер, разработчики процессоров должны искать пути уменьшения частоты обменов с памятью на одну инструкцию. Непосредственным путем к этому является снижение частоты промахов в кэш последнего уровня. Предполагая уже реализованной схему «неинклюзивный кэш с инклюзивным справочником» (NCID), три способа дальнейшего снижения частоты промахов были исследованы.

    Первый способ — это достижение более равномерного использования банков и наборов кэша применением хэш-функций для интерливинга и индексирования. В экспериментах в тестах SPEC CPU2017 refrate, даже простейшие хэш-функции на основе XOR показали увеличение производительности на 3,2%, 9,1% и 8,2% в конфигурациях процессора с 16, 32 и 64 ядрами и банками общего кэша, сравнимое с результатами для более сложных функций на основе матриц, деления и CRC.

    Вторая оптимизация нацелена на уменьшение дублирования на разных уровнях кэшей путем автоматического переключения на эксклюзивную схему, когда она выглядит оптимальной. Известная схема этого типа, FLEXclusion, была модифицирована для использования в NCID-кэшах и показала улучшение производительности в среднемна 3,8%, 5,4% и 7,9% для 16-, 32- и 64-ядерных конфигураций.

    Третьей оптимизацией является увеличение фактической емкости кэша использованием компрессии. Частота сжатия недорогим и быстрыма лгоритмом B DI*-HL (Base-Delta-Immediate Modified, Half-Line), разработанным для NCID, была измерена, и соответствующее увеличение емкости кэша дало около 1% среднего повышения производительности.

    Все три оптимизации могут сочетаться и продемонстрировали прирост производительности в 7,7%, 16% и 19% для конфигураций с 16, 32 и 64 ядрами и банками соответственно.

    Nedbailo Y.A., Surchenko A.V., Bychkov I.N.
    Reducing miss rate in a non-inclusive cache with inclusive directory of a chip multiprocessor
    Computer Research and Modeling, 2023, v. 15, no. 3, pp. 639-656

    Although the era of exponential performance growth in computer chips has ended, processor core numbers have reached 16 or more even in general-purpose desktop CPUs. As DRAM throughput is unable to keep pace with this computing power growth, CPU designers need to find ways of lowering memory traffic per instruction. The straightforward way to do this is to reduce the miss rate of the last-level cache. Assuming “non-inclusive cache, inclusive directory” (NCID) scheme already implemented, three ways of reducing the cache miss rate further were studied.

    The first is to achieve more uniform usage of cache banks and sets by employing hash-based interleaving and indexing. In the experiments in SPEC CPU2017 refrate tests, even the simplest XOR-based hash functions demonstrated a performance increase of 3.2%, 9.1%, and 8.2% for CPU configurations with 16, 32, and 64 cores and last-level cache banks, comparable to the results of more complex matrix-, division- and CRC-based functions.

    The second optimisation is aimed at reducing replication at different cache levels by means of automatically switching to the exclusive scheme when it appears optimal. A known scheme of this type, FLEXclusion, was modified for use in NCID caches and showed an average performance gain of 3.8%, 5.4 %, and 7.9% for 16-, 32-, and 64-core configurations.

    The third optimisation is to increase the effective cache capacity using compression. The compression rate of the inexpensive and fast BDI*-HL (Base-Delta-Immediate Modified, Half-Line) algorithm, designed for NCID, was measured, and the respective increase in cache capacity yielded roughly 1% of the average performance increase.

    All three optimisations can be combined and demonstrated a performance gain of 7.7%, 16% and 19% for CPU configurations with 16, 32, and 64 cores and banks, respectively.

  4. Киселев М.В.
    Исследование двухнейронных ячеек памяти в импульсных нейронных сетях
    Компьютерные исследования и моделирование, 2020, т. 12, № 2, с. 401-416

    В данной работе изучаются механизмы рабочей памяти в импульсных нейронных сетях, состоящих из нейронов – интеграторов с утечкой и адаптивным порогом при включенной синаптической пластичности. Исследовались относительно небольшие сети, включающие тысячи нейронов. Рабочая память трактовалась как способность нейронной сети удерживать в своем состоянии информацию о предъявленных ей в недавнем прошлом стимулах, так что по этой информации можно было бы определить, какой стимул был предъявлен. Под состоянием сети в данном исследовании понимаются только характеристики активности сети, не включая внутреннего состояния ее нейронов. Для выявления нейронных структур, которые могли бы выполнять функцию носителей рабочей памяти, была проведена оптимизация параметров и структуры импульсной нейронной сети с помощью генетического алгоритма. Были обнаружены два типа таких нейронных структур: пары нейронов, соединенных связями с большими весами, и длинные древовидные нейронные цепи. Было показано, что качественная рабочая память может быть реализована только с помощью сильно связанных нейронных пар. В работе исследованы свойства таких ячеек памяти и образуемых ими структур. Показано, что характеристики изучаемых двухнейронных ячеек памяти легко задаются параметрами входящих в них нейронов и межнейронных связей. Выявлен интересный эффект повышения селективности пары нейронов за счет несовпадения наборов их афферентных связей и взаимной активации. Продемонстрировано также, что ансамбли таких структур могут быть использованы для реализации обучения без учителя распознаванию паттернов во входном сигнале.

    Kiselev M.V.
    Exploration of 2-neuron memory units in spiking neural networks
    Computer Research and Modeling, 2020, v. 12, no. 2, pp. 401-416

    Working memory mechanisms in spiking neural networks consisting of leaky integrate-and-fire neurons with adaptive threshold and synaptic plasticity are studied in this work. Moderate size networks including thousands of neurons were explored. Working memory is a network ability to keep in its state the information about recent stimuli presented to the network such that this information is sufficient to determine which stimulus has been presented. In this study, network state is defined as the current characteristics of network activity only — without internal state of its neurons. In order to discover the neuronal structures serving as a possible substrate of the memory mechanism, optimization of the network parameters and structure using genetic algorithm was carried out. Two kinds of neuronal structures with the desired properties were found. These are neuron pairs mutually connected by strong synaptic links and long tree-like neuronal ensembles. It was shown that only the neuron pairs are suitable for efficient and reliable implementation of working memory. Properties of such memory units and structures formed by them are explored in the present study. It is shown that characteristics of the studied two-neuron memory units can be set easily by the respective choice of the parameters of its neurons and synaptic connections. Besides that, this work demonstrates that ensembles of these structures can provide the network with capability of unsupervised learning to recognize patterns in the input signal.

  5. Богданов А.В., Пуае Сон K., Зайя К.
    Производительность OpenMP и реализация MPI на системе ultrasparc
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 485-491

    Данная работа нацелена на программистов и разработчики, заинтересованных в использовании технологии параллельного программирования для увеличения производительности приложений. Программное обеспечение Oracle Solaris Studio обеспечивает современную оптимизацию и распараллеливание компиляторов для языков C, C ++ и ФОРТРАН, продвинутый отладчик, и оптимизированные математи- ческие и быстродействующие библиотеки. Также включены чрезвычайно мощный инструмент анализа производительности для профилирования последовательных и параллельных приложений, инструмент анализа для обнаружения состязания при передаче данных и блокировки в памяти параллельных программ и IDE. Программное обеспечение Oracle Message Passing Toolkit обеспечивает высокопроизводительные MPI библиотеки и сопряжённую среду во время работы программы, необходимую для приложений передачи сообщений, которые могут работать на одной системе или по всему множеству вычислительных систем с высокопроизводительным сетевым оснащением, включая Gigabit Ethernet, 10 Gigabit Ethernet, InfiniBand и Myrinet. Примеры OpenMP и MPI представлены по всему тексту работы, включая их использование через программные продукты Oracle Solaris Studio и Oracle Message Passing Toolkit для развития и развертывания последовательных и параллельных приложений на основе систем SPARC и x86/x64. В работе продемонстрировано, как развивать и развертывать приложение, распараллеленное с OpenMP и/или MPI.

    Bogdanov A.V., P. Sone K. Ko, Zaya K.
    Performance of the OpenMP and MPI implementations on ultrasparc system
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 485-491

    This paper targets programmers and developers interested in utilizing parallel programming techniques to enhance application performance. The Oracle Solaris Studio software provides state-of-the-art optimizing and parallelizing compilers for C, C++ and Fortran, an advanced debugger, and optimized mathematical and performance libraries. Also included are an extremely powerful performance analysis tool for profiling serial and parallel applications, a thread analysis tool to detect data races and deadlock in memory parallel programs, and an Integrated Development Environment (IDE). The Oracle Message Passing Toolkit software provides the high-performance MPI libraries and associated run-time environment needed for message passing applications that can run on a single system or across multiple compute systems connected with high performance networking, including Gigabit Ethernet, 10 Gigabit Ethernet, InfiniBand and Myrinet. Examples of OpenMP and MPI are provided throughout the paper, including their usage via the Oracle Solaris Studio and Oracle Message Passing Toolkit products for development and deployment of both serial and parallel applications on SPARC and x86/x64 based systems. Throughout this paper it is demonstrated how to develop and deploy an application parallelized with OpenMP and/or MPI.

    Просмотров за год: 2.
  6. Богданов А.В., Зайя К., Пуае Сон K.
    Усовершенствование вычислительных возможностей в вычислительной среде с помощью технологий виртуализации
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 499-504

    В этой работе мы показываем способы увеличения возможностей вычислительных сред с помощью виртуализации, единого системного образа (SSI) и коллаборации технологий гипервизора с целью улучшения вычислительных возможностей. В последнее время облачные вычисления как новое сервисное понятие, стали популярными для обеспечения различных сервисов для пользователя типа разделения мультимедиа, офисное on-line программное обеспечение, игры и on-line хранилища. Облачные вычисления объединяют множество компьютеров и серверов в единую среду, разработанную для обращения к определённым типам задач, таких как научные задачи или сложные вычисления. С помощью технологий виртуализации среда облачных вычислений способна виртуализировать и разделять ресурсы между различными приложениями с целью лучшего использования сервера, лучшего балансирования загрузки и эффективности.

    Bogdanov A.V., Zaya K., P. Sone K. Ko
    Improvement of computational abilities in computing environments with virtualization technologies
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 499-504

    In this paper, we illustrates the ways to improve abilities of the computing environments by using virtualization, single system image (SSI) and hypervisor technologies’ collaboration for goal to improve computational abilities. Recently cloud computing as a new service concept has become popular to provide various services to user such as multi-media sharing, online office software, game and online storage. The cloud computing is bringing together multiple computers and servers in a single environment designed to address certain types of tasks, such as scientific problems or complex calculations. By using virtualization technologies, cloud computing environment is able to virtualize and share resources among different applications with the objective for better server utilization, better load balancing and effectiveness.

    Просмотров за год: 3.
  7. Голубев В.И., Шевченко А.В., Петров И.Б.
    Повышение порядка точности сеточно-характеристического метода для задач двумерной линейной упругости с помощью схем операторного расщепления
    Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 899-910

    Сеточно-характеристический метод успешно применяется для решения различных гиперболических систем уравнений в частных производных (например, уравнения переноса, акустики, линейной упругости). Он позволяет корректно строить алгоритмы на контактных границах и границах области интегрирования, в определенной степени учитывать физику задачи (распространение разрывов вдоль характеристических поверхностей), обладает важнымдля рассматриваемых задач свойством монотонности. В случае двумерных и трехмерных задач используется процедура расщепления по пространственным направлениям, позволяющая решить исходную систему путем последовательного решения нескольких одномерных систем. На настоящий момент во множестве работ используются схемы до третьего порядка точности при решении одномерных задач и простейшие схемы расщепления, которые в общем случае не позволяют получить порядок точности по времени выше второго. Значительное развитие получило направление операторного расщепления, доказана возможность повышения порядка сходимости многомерных схем. Его особенностью является необходимость выполнения шага в обратном направлении по времени, что порождает сложности, например, для параболических задач.

    В настоящей работе схемы расщепления 3-го и 4-го порядка были применены непосредственно к решению двумерной гиперболической системы уравнений в частных производных линейной теории упругости. Это позволило повысить итоговый порядок сходимости расчетного алгоритма. В работе эмпирически оценена сходимость по нормам $L_1$ и $L_\infty$ с использованиемана литических решений определяющей системы достаточной степени гладкости. Для получения объективных результатов рассмотрены случаи продольных и поперечных плоских волн, распространяющихся как вдоль диагонали расчетной ячейки, так и не вдоль нее. Проведенные численные эксперименты подтверждают повышение точности метода и демонстрируют теоретически ожидаемый порядок сходимости. При этом увеличивается в 3 и в 4 раза время моделирования (для схем 3-го и 4-го порядка соответственно), но не возрастает потребление оперативной памяти. Предложенное усовершенствование вычислительного алгоритма сохраняет простоту его параллельной реализации на основе пространственной декомпозиции расчетной сетки.

    Golubev V.I., Shevchenko A.V., Petrov I.B.
    Raising convergence order of grid-characteristic schemes for 2D linear elasticity problems using operator splitting
    Computer Research and Modeling, 2022, v. 14, no. 4, pp. 899-910

    The grid-characteristic method is successfully used for solving hyperbolic systems of partial differential equations (for example, transport / acoustic / elastic equations). It allows to construct correctly algorithms on contact boundaries and boundaries of the integration domain, to a certain extent to take into account the physics of the problem (propagation of discontinuities along characteristic curves), and has the property of monotonicity, which is important for considered problems. In the cases of two-dimensional and three-dimensional problems the method makes use of a coordinate splitting technique, which enables us to solve the original equations by solving several one-dimensional ones consecutively. It is common to use up to 3-rd order one-dimensional schemes with simple splitting techniques which do not allow for the convergence order to be higher than two (with respect to time). Significant achievements in the operator splitting theory were done, the existence of higher-order schemes was proved. Its peculiarity is the need to perform a step in the opposite direction in time, which gives rise to difficulties, for example, for parabolic problems.

    In this work coordinate splitting of the 3-rd and 4-th order were used for the two-dimensional hyperbolic problem of the linear elasticity. This made it possible to increase the final convergence order of the computational algorithm. The paper empirically estimates the convergence in L1 and L∞ norms using analytical solutions of the system with the sufficient degree of smoothness. To obtain objective results, we considered the cases of longitudinal and transverse plane waves propagating both along the diagonal of the computational cell and not along it. Numerical experiments demonstrated the improved accuracy and convergence order of constructed schemes. These improvements are achieved with the cost of three- or fourfold increase of the computational time (for the 3-rd and 4-th order respectively) and no additional memory requirements. The proposed improvement of the computational algorithm preserves the simplicity of its parallel implementation based on the spatial decomposition of the computational grid.

  8. Предложен метод отображения промежуточных представлений C-, C++-программ в пространство векторов (эмбеддингов) для оценки производительности программ на этапе компиляции, без необходимости исполнения. Использование эмбеддингов для данной цели позволяет не проводить сравнение графов исследуемых программ непосредственно, что вычислительно упрощает задачу сравнения программ. Метод основан на серии трансформаций исходного промежуточного представления (IR), таких как: инструментирование — добавление фиктивных инструкций в оптимизационном проходе компилятора в зависимости от разности смещений в текущей инструкции обращения к памяти относительно предыдущей, преобразование IR в многомерный вектор с помощью технологии IR2Vec с понижением размерности по алгоритму t-SNE (стохастическое вложение соседей с t-распределением). В качестве метрики производительности предлагается доля кэш-промахов 1-го уровня (D1 cache misses). Приводится эвристический критерий отличия программ с большей долей кэш-промахов от программ с меньшей долей по их образам. Также описан разработанный в ходе работы проход компилятора, генерирующий и добавляющий фиктивные инструкции IR согласно используемой модели памяти. Приведено описание разработанного программного комплекса, реализующего предложенный способ оценивания на базе компиляторной инфраструктуры LLVM. Проведен ряд вычислительных экспериментов на синтетических тестах из наборов программ с идентичными потоками управления, но различным порядком обращений к одномерному массиву, показано, что коэффициент корреляции между метрикой производительности и расстоянием до эмбеддинга худшей программы в наборе отрицателен вне зависимости от инициализации t-SNE, что позволяет сделать заключение о достоверности эвристического критерия. Также в статье рассмотрен способ генерации тестов. По результатам экспериментов, вариативность значений метрики производительности на исследуемых множествах предложена как метрика для улучшения генератора тестов.

    Zavodskikh R.K., Efanov N.N.
    Performance prediction for chosen types of loops over one-dimensional arrays with embedding-driven intermediate representations analysis
    Computer Research and Modeling, 2023, v. 15, no. 1, pp. 211-224

    The method for mapping of intermediate representations (IR) set of C, C++ programs to vector embedding space is considered to create an empirical estimation framework for static performance prediction using LLVM compiler infrastructure. The usage of embeddings makes programs easier to compare due to avoiding Control Flow Graphs (CFG) and Data Flow Graphs (DFG) direct comparison. This method is based on transformation series of the initial IR such as: instrumentation — injection of artificial instructions in an instrumentation compiler’s pass depending on load offset delta in the current instruction compared to the previous one, mapping of instrumented IR into multidimensional vector with IR2Vec and dimension reduction with t-SNE (t-distributed stochastic neighbor embedding) method. The D1 cache miss ratio measured with perf stat tool is considered as performance metric. A heuristic criterion of programs having more or less cache miss ratio is given. This criterion is based on embeddings of programs in 2D-space. The instrumentation compiler’s pass developed in this work is described: how it generates and injects artificial instructions into IR within the used memory model. The software pipeline that implements the performance estimation based on LLVM compiler infrastructure is given. Computational experiments are performed on synthetic tests which are the sets of programs with the same CFGs but with different sequences of offsets used when accessing the one-dimensional array of a given size. The correlation coefficient between performance metric and distance to the worst program’s embedding is measured and proved to be negative regardless of t-SNE initialization. This fact proves the heuristic criterion to be true. The process of such synthetic tests generation is also considered. Moreover, the variety of performance metric in programs set in such a test is proposed as a metric to be improved with exploration of more tests generators.

  9. Аксёнов А.А., Маркова Т.В.
    Памяти А.П. Тишина — ученого, инженера, учителя и друга
    Компьютерные исследования и моделирование, 2023, т. 15, № 4, с. 1091-1094
    Aksenov A.A., Markova T.V.
    In memory of A. P. Tishin — scientist, engineer, teacher and friend
    Computer Research and Modeling, 2023, v. 15, no. 4, pp. 1091-1094
  10. Минкин А.С., Книжник А.А., Потапкин Б.В.
    Реализация алгоритмов межатомного взаимодействия с использованием технологии OpenCL
    Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 549-558

    Моделирование углеродных наноструктур методом классической молекулярной динамики требует больших объемов вычислений. Один из способов повышения производительности соответствующих алгоритмов состоит в их адаптации для работы с SIMD-подобными архитектурами, в частности, с графическими процессорами. В данной работе рассмотрены особенности алгоритмов вычисления многочастичного взаимодействия на основе классических потенциалов Терсоффа и погруженного атома с использованием технологии OpenCL. Стандарт OpenCL позволяет обеспечить универсальность и переносимость алгоритмов и может быть эффективно использован для гетерогенных вычислений. В данной работе сделана оценка производительности OpenCL алгоритмов вычисления межатомного взаимодействия для систем на базе центральных и графических процессоров. Показано, что использование атомарных операций эффективно для вычисления потенциала Терсоффа и неэффективно в случае потенциала погруженного атома. Оценка производительности показывает значительное ускорение GPU реализации алгоритмов вычисления потенциалов межатомного взаимодействия по сравнению с соответствующими однопоточными алгоритмами.

    Minkin A.S., Knizhnik A.A., Potapkin B.V.
    OpenCL realization of some many-body potentials
    Computer Research and Modeling, 2015, v. 7, no. 3, pp. 549-558

    Modeling of carbon nanostructures by means of classical molecular dynamics requires a lot of computations. One of the ways to improve the performance of basic algorithms is to transform them for running on SIMD-type computing systems such as systems with dedicated GPU. In this work we describe the development of algorithms for computation of many-body interaction based on Tersoff and embedded-atom potentials by means of OpenCL technology. OpenCL standard provides universality and portability of the algorithms and can be successfully used for development of the software for heterogeneous computing systems. The performance of algorithms is evaluated on CPU and GPU hardware platforms. It is shown that concurrent memory writes is effective for Tersoff bond order potential. The same approach for embedded-atom potential is shown to be slower than algorithm without concurrent memory access. Performance evaluation shows a significant GPU acceleration of energy-force evaluation algorithms for many-body potentials in comparison to the corresponding serial implementations.

    Просмотров за год: 4. Цитирований: 1 (РИНЦ).
Страницы: « первая предыдущая следующая

Журнал индексируется в Scopus

Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU

Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science

Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"

Международная Междисциплинарная Конференция МАТЕМАТИКА. КОМПЬЮТЕР. ОБРАЗОВАНИЕ.