Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.
Ключевые слова: автоматическая обработка текстов, обучение без учителя, тематическое моделирование, аддитивная регуляризация тематических моделей, EM-алгоритм, PLSA, LDA, ARTM, BigARTM, TopicNet.
Additive regularizarion of topic models with fast text vectorizartion
Computer Research and Modeling, 2020, v. 12, no. 6, pp. 1515-1528The probabilistic topic model of a text document collection finds two matrices: a matrix of conditional probabilities of topics in documents and a matrix of conditional probabilities of words in topics. Each document is represented by a multiset of words also called the “bag of words”, thus assuming that the order of words is not important for revealing the latent topics of the document. Under this assumption, the problem is reduced to a low-rank non-negative matrix factorization governed by likelihood maximization. In general, this problem is ill-posed having an infinite set of solutions. In order to regularize the solution, a weighted sum of optimization criteria is added to the log-likelihood. When modeling large text collections, storing the first matrix seems to be impractical, since its size is proportional to the number of documents in the collection. At the same time, the topical vector representation (embedding) of documents is necessary for solving many text analysis tasks, such as information retrieval, clustering, classification, and summarization of texts. In practice, the topical embedding is calculated for a document “on-the-fly”, which may require dozens of iterations over all the words of the document. In this paper, we propose a way to calculate a topical embedding quickly, by one pass over document words. For this, an additional constraint is introduced into the model in the form of an equation, which calculates the first matrix from the second one in linear time. Although formally this constraint is not an optimization criterion, in fact it plays the role of a regularizer and can be used in combination with other regularizers within the additive regularization framework ARTM. Experiments on three text collections have shown that the proposed method improves the model in terms of sparseness, difference, logLift and coherence measures of topic quality. The open source libraries BigARTM and TopicNet were used for the experiments.
-
Персонализация математических моделей в кардиологии: трудности и перспективы
Компьютерные исследования и моделирование, 2022, т. 14, № 4, с. 911-930Большинство биомеханических задач, представляющих интерес для клиницистов, могут быть решены только с помощью персонализированных математических моделей. Такие модели позволяют формализовать и взаимоувязать ключевые патофизиологические процессы, на основе клинически доступных данных оценить неизмеряемые параметры, важные для диагностики заболеваний, спрогнозировать результат терапевтического или хирургического вмешательства. Использование моделей в клинической практике накладывает дополнительные ограничения: практикующие врачи требуют валидации модели на клинических случаях, быстроту и автоматизированность всей расчетной технологической цепочки от обработки входных данных до получения результата. Ограничения на время расчета, определяемые временем принятия врачебного решения (порядка нескольких минут), приводят к необходимости использования методов редукции, корректно описывающих исследуемые процессы в рамках численных моделей пониженной размерности или в рамках методов машинного обучения.
Персонализация моделей требует пациентоориентированной оценки параметров модели и создания персонализированной геометрии расчетной области и построения расчетной сетки. Параметры модели оцениваются прямыми измерениями, либо методами решения обратных задач, либо методами машинного обучения. Требование персонализации моделей накладывает серьезные ограничения на количество настраиваемых параметров модели, которые могут быть измерены в стандартных клинических условиях. Помимо параметров, модели включают краевые условия, которые также должны учитывать особенности пациента. Методы задания персонализированных краевых условий существенно зависят от решаемой клинической задачи, зоны ее интереса и доступных клинических данных. Построение персонализированной области посредством сегментации медицинских изображений и построение расчетной сетки, как правило, занимают значительную долю времени при разработке персонализированной вычислительной модели, так как часто выполняются в ручном или полуавтоматическом режиме. Разработка автоматизированных методов постановки персонализированных краевых условий и сегментации медицинских изображений с последующим построением расчетной сетки является залогом широкого использования математического моделирования в клинической практике.
Цель настоящей работы — обзор и анализ наших решений по персонализации математических моделей в рамках трех задач клинической кардиологии: виртуальной оценки гемодинамической значимости стенозов коронарных артерий, оценки изменений системного кровотока после гемодинамической коррекции сложных пороков сердца, расчета характеристик коаптации реконструированного аортального клапана.
Ключевые слова: вычислительная биомеханика, персонализированная модель.
Personalization of mathematical models in cardiology: obstacles and perspectives
Computer Research and Modeling, 2022, v. 14, no. 4, pp. 911-930Most biomechanical tasks of interest to clinicians can be solved only using personalized mathematical models. Such models allow to formalize and relate key pathophysiological processes, basing on clinically available data evaluate non-measurable parameters that are important for the diagnosis of diseases, predict the result of a therapeutic or surgical intervention. The use of models in clinical practice imposes additional restrictions: clinicians require model validation on clinical cases, the speed and automation of the entire calculated technological chain, from processing input data to obtaining a result. Limitations on the simulation time, determined by the time of making a medical decision (of the order of several minutes), imply the use of reduction methods that correctly describe the processes under study within the framework of reduced models or machine learning tools.
Personalization of models requires patient-oriented parameters, personalized geometry of a computational domain and generation of a computational mesh. Model parameters are estimated by direct measurements, or methods of solving inverse problems, or methods of machine learning. The requirement of personalization imposes severe restrictions on the number of fitted parameters that can be measured under standard clinical conditions. In addition to parameters, the model operates with boundary conditions that must take into account the patient’s characteristics. Methods for setting personalized boundary conditions significantly depend on the clinical setting of the problem and clinical data. Building a personalized computational domain through segmentation of medical images and generation of the computational grid, as a rule, takes a lot of time and effort due to manual or semi-automatic operations. Development of automated methods for setting personalized boundary conditions and segmentation of medical images with the subsequent construction of a computational grid is the key to the widespread use of mathematical modeling in clinical practice.
The aim of this work is to review our solutions for personalization of mathematical models within the framework of three tasks of clinical cardiology: virtual assessment of hemodynamic significance of coronary artery stenosis, calculation of global blood flow after hemodynamic correction of complex heart defects, calculating characteristics of coaptation of reconstructed aortic valve.
Keywords: computational biomechanics, personalized model. -
Описание процессов в ансамблях фотосинтетических реакционных центров с помощью кинетической модели типа Монте-Карло
Компьютерные исследования и моделирование, 2020, т. 12, № 5, с. 1207-1221Фотосинтетический аппарат растительной клетки состоит из множества фотосинтетических электронтранспортных цепей (ЭТЦ), каждая из которых участвует в усвоении квантов света, сопряженном с переносом электрона между элементами цепи. Эффективность усвоения квантов света варьирует в зависимости от физиологического состояния растения. Энергия той части квантов, которую не удается усвоить, диссипирует в тепло либо высвечивается в виде флуоресценции. При действии возбуждающего света уровень флуоресценции постепенно растет, доходя до максимума. Кривая роста уровня флуоресценции в ответ на действие возбуждающего света называется кривой индукции флуоресценции (КИФ). КИФ имеет сложную форму, которая претерпевает существенные изменения при различных изменениях состояния фотосинтетического аппарата, что позволяет использовать ее для получения информации о текущем состоянии растения.
В реальном эксперименте, при действии возбуждающего света, мы наблюдаем ответ системы, представляющей собой ансамбль миллионов фотосинтетических ЭТЦ. С целью воспроизведения вероятностной природы процессов в фотосинтетической ЭТЦ разработана кинетическая модель Монте-Карло, в которой для каждой индивидуальной цепи определены вероятности возбуждения молекул светособирающей антенны при попадании кванта света, вероятности захвата энергии либо высвечивания кванта света реакционным центром и вероятности переноса электрона с донора на акцептор в пределах фотосинтетических мультиферментных комплексов в тилакоидной мембране и между этими комплексами и подвижными переносчиками электронов. События, происходящие в каждой из цепей фиксируются, суммируются и формируют кривую индукции флуоресценции и кривые изменения долей различных редокс-состояний переносчиков электрона, входящих в состав фотосинтетической электронтранспортной цепи. В работе описаны принципы построения модели, изучены зависимости кинетики регистрируемых величин от параметров модели, приведены примеры полученных зависимостей, соответствующие экспериментальным данными по регистрации флуоресценции хлорофилла реакционного центра фотосистемы 2 и окислительно-восстановительных превращений фотоактивного пигмента фотосистемы 1 — хлорофилла.
Ключевые слова: кинетический метод Монте-Карло, фотосистема, электронный транспорт, кислород-выделяющий комплекс, пул пластохинонов, модель.
Describing processes in photosynthetic reaction center ensembles using a Monte Carlo kinetic model
Computer Research and Modeling, 2020, v. 12, no. 5, pp. 1207-1221Photosynthetic apparatus of a plant cell consists of multiple photosynthetic electron transport chains (ETC). Each ETC is capable of capturing and utilizing light quanta, that drive electron transport along the chain. Light assimilation efficiency depends on the plant’s current physiological state. The energy of the part of quanta that cannot be utilized, dissipates into heat, or is emitted as fluorescence. Under high light conditions fluorescence levels gradually rise to the maximum level. The curve describing that rise is called fluorescence rise (FR). It has a complex shape and that shape changes depending on the photosynthetic apparatus state. This gives one the opportunity to investigate that state only using the non invasive measuring of the FR.
When measuring fluorescence in experimental conditions, we get a response from millions of photosynthetic units at a time. In order to reproduce the probabilistic nature of the processes in a photosynthetic ETC, we created a Monte Carlo model of this chain. This model describes an ETC as a sequence of electron carriers in a thylakoid membrane, connected with each other. Those carriers have certain probabilities of capturing light photons, transferring excited states, or reducing each other, depending on the current ETC state. The events that take place in each of the model photosynthetic ETCs are registered, accumulated and used to create fluorescence rise and electron carrier redox states accumulation kinetics. This paper describes the model structure, the principles of its operation and the relations between certain model parameters and the resulting kinetic curves shape. Model curves include photosystem II reaction center fluorescence rise and photosystem I reaction center redox state change kinetics under different conditions.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"