Все выпуски
- 2025 Том 17
- 2024 Том 16
- 2023 Том 15
- 2022 Том 14
- 2021 Том 13
- 2020 Том 12
- 2019 Том 11
- 2018 Том 10
- 2017 Том 9
- 2016 Том 8
- 2015 Том 7
- 2014 Том 6
- 2013 Том 5
- 2012 Том 4
- 2011 Том 3
- 2010 Том 2
- 2009 Том 1
-
Новый подход к самообучению для обнаружения видов деревьев с использованием гиперспектральных и лидарных данных
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1747-1763Точное определение деревьев имеет решающее значение для экологического мониторинга, оценки биоразнообразия и управления лесными ресурсами. Традиционные методы ручного обследования трудоемки и неэффективны на больших территориях. Достижения в области дистанционного зондирования, включая лидар и гиперспектральную съемку, способствуют автоматизированному и точному обнаружению в различных областях.
Тем не менее, эти технологии обычно требуют больших объемов размеченных данных и ручной инженерии признаков, что ограничивает их масштабируемость. Данное исследование предлагает новый метод самообучения (Self-Supervised Learning, SSL) с использованием архитектуры SimCLR для улучшения классификации видов деревьев на основе неразмеченных данных. Модель SSL автоматически обнаруживает сильные признаки, объединяя спектральные данные гиперспектральной съемки со структурными данными лидара, исключая необходимость ручного вмешательства.
Мы оцениваем производительность модели SSL по сравнению с традиционными классификаторами, такими как Random Forest (RF), Support Vector Machines (SVM), а также методами обучения с учителем, используя набор данных конкурса ECODSE, который включает как размеченные, так и неразмеченные образцы видов деревьев на биологической станции Ordway-Swisher во Флориде. Метод SSL показал значительно более высокую эффективность по сравнению с традиционными методами, продемонстрировав точность 97,5% по сравнению с 95,56% для Semi-SSL и 95,03% для CNN при обучении с учителем.
Эксперименты по выборке показали, что техника SSL остается эффективной при меньшем количестве размеченных данных, и модель достигает хорошей точности даже при наличии всего 20% размеченных образцов. Этот вывод демонстрирует практическое применение SSL в условиях недостаточного объема размеченных данных, таких как мониторинг лесов в больших масштабах.
Ключевые слова: самообучение, обнаружение видов деревьев, SimCLR, гиперспектральные изображения, лидарные данные. -
Аддитивная регуляризация тематических моделей с быстрой векторизацией текста
Компьютерные исследования и моделирование, 2020, т. 12, № 6, с. 1515-1528Задача вероятностного тематического моделирования заключается в том, чтобы по заданной коллекции текстовых документов найти две матрицы: матрицу условных вероятностей тем в документах и матрицу условных вероятностей слов в темах. Каждый документ представляется в виде мультимножества слов, то есть предполагается, что для выявления тематики документа не важен порядок слов в нем, а важна только их частота. При таком предположении задача сводится к вычислению низкорангового неотрицательного матричного разложения, наилучшего по критерию максимума правдоподобия. Данная задача имеет в общем случае бесконечное множество решений, то есть является некорректно поставленной. Для регуляризации ее решения к логарифму правдоподобия добавляется взвешенная сумма оптимизационных критериев, с помощью которых формализуются дополнительные требования к модели. При моделировании больших текстовых коллекций хранение первой матрицы представляется нецелесообразным, поскольку ее размер пропорционален числу документов в коллекции. В то же время тематические векторные представления документов необходимы для решения многих задач текстовой аналитики — информационного поиска, кластеризации, классификации, суммаризации текстов. На практике тематический вектор вычисляется для каждого документа по необходимости, что может потребовать десятков итераций по всем словам документа. В данной работе предлагается способ быстрого вычисления тематического вектора для произвольного текста, требующий лишь одной итерации, то есть однократного прохода по всем словам документа. Для этого в модель вводится дополнительное ограничение в виде уравнения, позволяющего вычислять первую матрицу через вторую за линейное время. Хотя формально данное ограничение не является оптимизационным критерием, фактически оно выполняет роль регуляризатора и может применяться в сочетании с другими критериями в рамках теории аддитивной регуляризации тематических моделей ARTM. Эксперименты на трех свободно доступных текстовых коллекциях показали, что предложенный метод улучшает качество модели по пяти оценкам качества, характеризующим разреженность, различность, информативность и когерентность тем. Для проведения экспериментов использовались библиотеки с открытымк одомB igARTM и TopicNet.
-
Эффективная обработка и классификация энергетических спектров морского волнения на основе распределенного вычислительного конвейера
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 517-520Просмотров за год: 3. Цитирований: 2 (РИНЦ).Обработка больших массивов данных обычно происходит в несколько последовательно выполняемых этапов, таких как пред- и постобработка, после каждого из которых промежуточные данные записываются на диск; однако, для каждой задачи этап предварительной обработки может отличаться, и в таком случае непосредственная передача данных по вычислительному конвейеру от одного этапа (звена) к другому бу- дет более эффективным с точки зрения производительности решением. В более общем случае некоторые этапы можно разделить на параллельные части, сформировав таким образом распределенный вычислительный конвейер, каждое звено которого может иметь несколько входов и выходов. Такой принцип обработки данных применяется в задаче о классификации энергетических спектров морского волнения, которая основана на аппроксимациях, позволяющих извлекать параметры отдельных систем волн (тип волн, генеральное направление волн и т. п.). Система, построенная на этом принципе показывает более высокую производительность по сравнению с часто применяемой поэтапной обработкой данных.
-
Графовая сверточная нейронная сеть для быстрого и точного дизассемблирования инструкций x86
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1779-1792Дизассемблирование двоичных файлов x86 — важная, но нетривиальная задача. Дизассемблирование трудно выполнить корректно без отладочной информации, особенно на архитектуре x86, в которой инструкции переменного размера чередуются с данными. Более того, наличие непрямых переходов в двоичном коде добавляет еще один уровень сложности. Непрямые переходы препятствуют возможности рекурсивного обхода, распространенного метода дизассемблирования, успешно идентифицировать все инструкции в коде. Следовательно, дизассемблирование такого кода становится еще более сложным и требовательным, что еще больше подчеркивает проблемы, с которыми приходится сталкиваться в этой области. Многие инструменты, включая коммерческие, такие как IDA Pro, с трудом справляются с точным дизассемблированием x86. В связи с этим был проявлен определенный интерес к разработке более совершенного решения с использованием методов машинного обучения, которое потенциально может охватывать базовые, независимые от компилятора паттерны, присущие машинному коду, сгенерированному компилятором. Методы машинного обучения могут превосходитьпо точности классические инструменты. Их разработка также может занимать меньше времени по сравнению с эвристическими методами, реализуемыми вручную, что позволяет переложитьо сновную нагрузку на сбор большого представительного набора данных исполняемых файлов с отладочной информацией. Мы усовершенствовали существующую архитектуру на основе рекуррентных графовых сверточных нейронных сетей, которая строит граф управления и потоков для дизассемблирования надмножеств инструкций. Мы расширили граф информацией о потоках данных: при кодировании входной программы, мы добавляем ребра потока управления и зависимостей от регистров, вдохновленные вероятностным дизассемблированием. Мы создали открытый набор данных для идентификации инструкций x86, основанный на комбинации набора данных ByteWeight и нескольких пакетов Debian с открытым исходным кодом. По сравнению с IDA Pro, современным коммерческим инструментом, наш подход обеспечивает более высокую точность при сохранении высокой производительности в наших тестах. Он также хорошо себя показывает по сравнению с существующими подходами машинного обучения, такими как DeepDi.
-
Моделирование пространственной структуры гидрогеназы HydSL пурпурной серной бактерии Thiocapsa roseopersicina BBS
Компьютерные исследования и моделирование, 2013, т. 5, № 4, с. 737-747Просмотров за год: 2. Цитирований: 5 (РИНЦ).В данной работе представлены модели железоникелевой гидрогеназы HydSL пурпурной серной бактерии Thiocapsa roseopersicina BBS. Показано, что полученные модели обладают более высоким уровнем доверия по сравнению с опубликованными ранее; впервые получена полноразмерная модель HydSL-гидрогеназы. Показана свободная ориентация С-концевого фрагмента малой субъединицы относительно основной белковой глобулы. Показано, что у термостабильной гидрогеназы HydSL Allochromatium vinosum и у полученной нами модели примерно одинаковое количество межсубъединичных ионных пар и их больше, чем у термолабильной гидрогеназы HydAB Desulfovibrio vulgaris.
-
Решение распределенных вариационных неравенств с использованием смещенной компрессии, похожести данных и локальных обновлений
Компьютерные исследования и моделирование, 2024, т. 16, № 7, с. 1813-1827Вариационные неравенства представляют собой широкий класс задач, имеющих применение во множестве областей, включая теорию игр, экономику и машинное обучение. Однако, методы решения современных вариационных неравенств становятся все более вычислительно требовательными. Поэтому растет необходимость использовать распределенных подходов для решения таких задач за разумное время. В распределенной постановке вычислительным устройствам необходимо обмениваться данными друг с другом, что является узким местом. Существует три основных приема снижения стоимости и количества обменов данными: использование похожести локальных операторов, сжатие сообщений и применение локальных шагов на устройствах. Известен алгоритм, который использует эти три техники одновременно для решения распределенных вариационных неравенств и превосходит все остальные методы с точки зрения коммуникационных затрат. Однако этот метод работает только с так называемыми несмещенными операторами сжатия. Между тем использование смещенных операторов приводит к лучшим результатам на практике, но требует дополнительных модификаций алгоритма и больших усилий при доказательстве сходимости. В этой работе представляется новый алгоритм, который решает распределенные вариационные неравенства, используя похожесть локальных операторов, смещенное сжатие и локальные обновления на устройствах; выводится теоретическая сходимость такого алгоритма и проводятся эксперименты.
-
Редуцированная модель фотосистемы II для оценки характеристик фотосинтетического аппарата по данным индукции флуоресценции
Компьютерные исследования и моделирование, 2012, т. 4, № 4, с. 943-958Просмотров за год: 3. Цитирований: 2 (РИНЦ).Рассматривается подход для анализа некоторых биологических систем большой размерности, для которых справедливы предположения о квазиравновесных стадиях. Подход позволяет редуцировать детальные модели большой размерности и получить упрощенные модели, имеющие аналитическое решение. Это дает возможность достаточно точно воспроизводить экспериментальные кривые. Рассматриваемый подход был применен к детальной модели первичных процессов фотосинтеза в реакционном центре фотосистемы II. Упрощенная модель фотосистемы II хорошо описывает экспериментальных кривые индукции флуоресценции для высших и низших растений, полученные при разных интенсивностях света. Выведенные соотношения между переменными и параметрами детальной и упрощенной моделей, позволили использовать полученные оценки параметров упрощенной модели для описания динамики различных состояний фотосистемы II детальной модели.
-
Точное вычисление апостериорной функции распределения вероятно- сти при помощи вычислительных систем
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 539-542Представленная работа описывает опыт создания и развёртывания веб-приложения и гридинфраструктуры для решения задач геофизики, требующих большого количества вычислительных ресурсов. В работе представлен обзор технологии и механизма платформы интеграции геофизических приложений с распределёнными вычислительными системами. Разработанная платформа предоставляет собой промежуточное программное обеспечение, предоставляющая удобный доступ к развёрнутым на ее основе геофизическим приложениям. Доступ к приложению осуществляется через веб-браузер. Интеграция новых приложений облегчается за счёт предоставляемого стандартного универсального интерфейса взаимодействия платформы и новым приложением.
Для организации распределённой вычислительной системы применено ПО Gridway, экземпляр которого взаимодействует с виртуализированными вычислительными кластерами. Виртуализация вычислительных кластеров предоставляет новые возможности при утилизации вычислительных ресурсов по сравнению с традиционными схемами организации кластерного ПО.
В качестве пилотной задачи использована обратная задача определение параметров анизотропии коры и верхней мантии по данным телесейсмических наблюдений. Для решения использован вероятностный подход к решению обратных задач, основанный на формализме апостериорной функции распределения (АПФР). При этом вычислительная задача сводится к табулированию многомерной функции. Результат вычислений представлен в удобном для анализа высокоуровневом виде, доступ и управление осуществляется при помощи СУБД. Приложение предоставляет инструменты анализу АПФР: расчет первых моментов, двумерные маргинальные распределения, двумерные сечения АПФР в точках ее максимума. При тестировании веб-приложения были выполнены вычислены как синтетических, так и для реальных данных.
Ключевые слова: распределенные вычислительные системы, виртуальный вычислительный кластер, геофизика.Просмотров за год: 3. -
Реализация алгоритмов межатомного взаимодействия с использованием технологии OpenCL
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 549-558Просмотров за год: 4. Цитирований: 1 (РИНЦ).Моделирование углеродных наноструктур методом классической молекулярной динамики требует больших объемов вычислений. Один из способов повышения производительности соответствующих алгоритмов состоит в их адаптации для работы с SIMD-подобными архитектурами, в частности, с графическими процессорами. В данной работе рассмотрены особенности алгоритмов вычисления многочастичного взаимодействия на основе классических потенциалов Терсоффа и погруженного атома с использованием технологии OpenCL. Стандарт OpenCL позволяет обеспечить универсальность и переносимость алгоритмов и может быть эффективно использован для гетерогенных вычислений. В данной работе сделана оценка производительности OpenCL алгоритмов вычисления межатомного взаимодействия для систем на базе центральных и графических процессоров. Показано, что использование атомарных операций эффективно для вычисления потенциала Терсоффа и неэффективно в случае потенциала погруженного атома. Оценка производительности показывает значительное ускорение GPU реализации алгоритмов вычисления потенциалов межатомного взаимодействия по сравнению с соответствующими однопоточными алгоритмами.
-
Характеристика тестирования центрального процессора на базе процессоров ARM
Компьютерные исследования и моделирование, 2015, т. 7, № 3, с. 581-586Просмотров за год: 1.Большие научные проекты генерируют данные на всё более возрастающих скоростях. Типичные методы включают в себя хранение данных на диске, после незначительного фильтрования, а затем их обработку на больших компьютерных фермах. Производство данных достигло той точки, когда требуется обработка в режиме on-line, чтобы отфильтровать данные до управляемых размеров. Потенциальное решение включает в себя использование низко затратных процессоров ARM с маленькой мощностью в больших массивах для обеспечения массивного распараллеливания для вычислений потока данных (DSC). Главное преимущество в использовании систем на одном кристалле (SoCs) присуще самой философии этой разработки. Системы на микросхеме, прежде всего, используются в мобильных устройствах и, следовательно, потребляют меньше энергии при своей относительно хорошей производительности. Дано описание тестирования трех различных моделей процессоров ARM.
Журнал индексируется в Scopus
Полнотекстовая версия журнала доступна также на сайте научной электронной библиотеки eLIBRARY.RU
Журнал входит в систему Российского индекса научного цитирования.
Журнал включен в базу данных Russian Science Citation Index (RSCI) на платформе Web of Science
Международная Междисциплинарная Конференция "Математика. Компьютер. Образование"





