Using a Knowledge Base to Build a Digital Twin of the Process of Interaction between Molecular Systems

Cover Page

Cite item

Full Text

Abstract

A digital twin of the process of interaction of molecular systems allows for computer simulation, as a result of which a complex molecular system can be obtained. The production rules and parameters of the process of modeling the interaction between two molecular systems, compiled on the basis of previous experiments, are described. The use of a new technique and a formalized description of knowledge increased the speed of selecting parameters when constructing a digital twin of the process of interaction of molecular systems and made it possible to significantly reduce the time spent on modeling. A diagram of the knowledge base based on production rules is presented for automated and informational support for decision-making in the selection of geometric parameters during the interaction of molecular systems. Conclusions are drawn about the effectiveness of the developed methodology for selecting geometric parameters when compiling a complex molecular system using production rules.

Full Text

Введение

В различных отраслях промышленности (фармацевтической, химической, нефтяной и др.) возникает задача моделирования процесса взаимодействия в сложных молекулярных системах (СМС) [1 – 3]. При этом взаимодействие между молекулярными системами (МС) обычно происходит за счет образования водородной связи. Атомы, между которыми образовалась связь, называются активными центрами (АЦ), которые определяют формирование структуры СМС. Моделирование процесса образования АЦ способствует более глубокому пониманию механизмов взаимодействий между молекулами, позволяет вести целенаправленный подбор ингибиторов, осуществлять поиск антидотов, выявлять новые свойства веществ и т.п.

Любое моделирование взаимодействия молекулярных систем предусматривает несколько этапов, на каждом из которых обрабатываются большие массивы разнородной и часто плохо структурированной информации.

На данный момент нет программных комплексов, позволяющих выполнять все этапы моделирования процесса образования сложной молекулярной структуры (взаимодействия молекулярных систем) и проводить поиск активных центров.

В качестве нового решения предлагается методика моделирования взаимодействия двух молекулярных систем, в которой используется подход на основе построения цифрового двойника процесса взаимодействия сложных молекулярных систем, основанный на комплексном учете физических и геометрических особенностей взаимодействия отдельных атомов между собой. Это позволяет выявить молекулярные комплексы, реализация которых потенциально (физически) возможна. При этом предлагается сохранять полученные результаты правил взаимодействия в специализированную базу знаний, представленную в виде продукционных правил. Полученная база знаний может быть использована для дальнейшего ретроспективного поиска, что, в свою очередь, позволяет сократить время расчетов при исследовании других молекулярных структур.

Методика моделирования взаимодействия двух молекулярных систем

Разработанная методика моделирования взаимодействия двух молекулярных систем разбита на несколько этапов.

Этап 1. Составление формализованного компьютерного представления взаимодействующих молекул.

Наиболее распространенным способом записи модели молекулы в виде формализованного компьютерного представления является Z-матрица. [4] Общая структура матрицы предоставлена в формуле (1). Поскольку существующие программные комплексы формируют Z-матрицы в различных, не совместимых между собой форматах, необходимо осуществлять их трансформирование к единому виду. Для этого предлагается использовать методику, подробное описание которой приведено в [5, 6].

=A11A211R1A312R21α1Ai13R32α21ϕ2AN1,                                                                      (1)

где Ai – элемент системы (имя химического элемента); i – порядковый номер элемента системы; R – межатомное расстояние; α – валентный угол, образуемый между элементами системы; φ – двугранный угол, образованный плоскостями.

Каждому атому присваивается порядковый номер в данной n-атомной системе.

Этап 2. Составление описания взаимодействия двух молекулярных систем в виде формализованного компьютерного представления.

При составлении моделирования взаимодействия двух молекулярных систем необходимо описать СМС в виде формализованного компьютерного представления. Для этого необходимо:

  • – представить обе МС в виде формализованного компьютерного представления (матрицы Z1, Z2);
  • – составить множество SПАЦ потенциальных активных центров (ПАЦ) – множество атомов, благодаря которым может образовываться взаимодействие между двумя молекулами (так называемая водородная связь).

Теоретически образовывать водородную связь могут семь атомов: F, O, N, Cl, Br, I, S, с одной стороны, и атом Н – с другой [7]. Представим данную закономерность в виде

SПАЦ=Ai1;  Aj2:Ai1Z1Aj2Z2Ai1PAj2="H"Ai1="H"Aj2P,      (2)

где P=F, O, N, Cl, Br, I, SAi1,  Aj2 – элементы МС 1 и 2.

Рассмотрим две МС: Z1 – метионин (Риc. 1); Z2 – сероводород (рис. 2).

 

Риc. 1. Формализованное компьютерное представление молекулы «метионин»

 

Рис. 2. Формализованное компьютерное представление молекулы «сероводород»

 

На основе данных МС формируется список ПАЦ взаимодействия «метионин – сероводород»

SПАЦ=H2O4;  H2O5;  H2O6;  H3O4;  H3O5;  H3O6;                       S1H8;  S1H9;  S1H10;  S1H11;  S1H12;  S1H13.                                              (3)

Этап 3. Подбор параметров описания сложной молекулярной системы.

 

Рис. 3. Трансформация молекулярного графа сероводорода

 

  1. Трансформировать структуры МС Z2 [8]. Чтобы установить соединение между конкретными элементами двух МС, необходимо МС Z2 трансформировать так, чтобы в первой строке матрицы стоял элемент, с которым устанавливается связь. Поскольку все элементы системы связаны с другими элементами, то для более эффективной и быстрой работы с элементами предлагается представить данную связанную последовательность в виде молекулярного графа. Под трансформацией молекулярного графа будем считать его перестроение, начиная с новой вершины. На основе трансформированного графа формируется новое формализованное описание МС относительно нужного элемента.

На рисунке 3 представлена трансформация молекулярного графа молекулы сероводорода.

  1. Объединить две молекулярные системы относительно каждого ПАЦ

Znnew=12,                                                                                                  (4)

где

Ai11;Aj22;Ai1;Aj2S..                                                                                                  (5)

Приведем общую структуру СМС

Znnew=Za1Zb1aRZa1Zb1Zc1bRZa1Zb1aαZa1Zc1Zi1cRZb1Zc1bαZb1Zc1aϕZi1Za1Zb1Zd2Ze2dRZd2Ze2Zt2eRZe2Zt2aαZd2Ze2Zj2tRZt2Zj2bαZe2Zt2aϕZj2Zd2Ze2               (6)

  1. Подобрать параметры присоединения. Один из главных этапов в процессе составления СМС – описание геометрических параметров устойчивого состояния. Приведем общую структуру СМС с параметрами

Znnew=Za1Zb1aRZa1Zb1Zc1bRZa1Zb1aαZa1Zc1Zi1cRZb1Zc1bαZb1Zc1aϕZi1Za1Zb1Zd+i2AПАЦ1R1Ai+11α2Ai+21ϕ1Ze+i2dRZd2Ze2AПАЦ1α3Ai+11ϕ2Zt+i2eRZe2Zt2aαZd2Ze2AПАЦ1ϕ3Zj+i2tRZt2Zj2bαZe2Zt2aϕZj2Zd2Ze2,       (7)

где Z*1,Z*2 – две Z-матрицы (системы); Ai1,Aj2 – пара элементов; AПАЦ1 – ПАЦ МС Z*1; Ai+11, Ai+21,  – элемент, связанный с AПАЦ1 в МС Z*1; RZa1Zb1 – расстояние водородной связи; αZa1Zc1 – валентный угол;  – плоскостной угол.

Рассмотрим каждый критерий более подробно:

1) RZa1Zb1.

С помощью ван-дер-ваальсовых радиусов рассчитаем расстояние, на которое физически могут сблизиться атомы:

Rопт= FH[1,2...2,56],   OH[1,2...2,56],   NH[1,2...2,77],                  ClH[1,2...3,00],  BrH[1,2...3,15],   IH[1,2...3,35],                  SH[1,2...3,05].           (8)

2) αZa1Zc1

αопт=[45,  55,  75,  85,  95,  120,  150,  180,  210,  240,  280];                           (9)

3) φZi1Za1Zb1

180φZi1Za1Zb1180.                                                                           (10)

Таким образом, описание геометрических параметров устойчивого состояния СМС, а именно подбор параметров, может быть представлен следующей формулой:

Znnew=Z1Z2  :  Ai1;Aj2S,RAi1,A12Rопт,  αAi1,A12αопт.                 (11)

Для составления СМС необходимо перебирать все возможные варианты определения критериев (параметров). Например, если рассматривать взаимодействие между атомами фтора и водорода, то расстояние водородной связи между этими элементами от 1,2 до 2,56 согласно (8).

Тогда необходимо для параметра RAi1A12 рассмотреть значение связи 1,2, а для параметра αAi1A12 подставлять последовательно значения согласно (9):

1 вариант – RAi1A12 – 1,2; αAi1A12 – 45;

2 вариант – RAi1A12 – 1,2; αAi1A12 – 55;

  …………   …………  …………  ………….

11 вариант –  – 1,2;  – 280.

Таким образом, получается 11 вариантов (комбинаций). Каждую комбинацию необходимо проверить на модель существования, используя стороннюю программу квантово-химических расчетов. Если квантово-химический расчет не прошел, то такая реализация потенциально (физически) невозможна. Поэтому необходимо увеличить RAi1A12 на 0,01 и повторить перебор углов.

Тогда число комбинаций возможного взаимодействия между фтором и водородом составит 319. Поскольку для построения цифрового двойника процесса взаимодействия МС необходимо перебрать большое число параметров, влияющих на условия формирования СМС, вычислительная сложность алгоритма при прямом переборе возрастает настолько, что процесс построения цифрового двойника может занимать от нескольких часов до нескольких дней. Ускорить построение цифрового двойника процесса взаимодействия МС можно за счет использования ранее полученной информации о подобранных параметрах. Если в случае моделирования новой молекулярной структуры в качестве основной Z1 рассматривается система, для которой уже проведен подбор параметров, то можно использовать имеющуюся информацию прошлых экспериментов, за счет чего сокращается время подбора новых параметров.

Для этого разработана система поддержки принятия решений на основе базы продукционных правил (БПП) [9], где хранятся правила, описывающие условия, при которых возможно формирование СМС из числа ранее рассмотренных МС. Общая схема использования БПП для информационной поддержки принятия решений при подборе параметров моделирования СМС представлена на рис. 4.

 

Рис. 4. Общая схема использования БПП для информационной поддержки принятия решений при подборе параметров моделирования сложной молекулярной системы

 

Приведем алгоритм использования БПП для информационной поддержки принятия решений при подборе параметров моделирования СМС:

Шаг 1. Пользователь посылает на вход приложения название двух МС (Z1, Z2).

Шаг 2. Приложение подает запрос в базу данных (БД). База данных, согласно запросу, возвращает две описанные структуры каждой МС в отдельных кортежах.

Шаг 3. Приложение принимает кортежи и передает запрос в БПП: если молекулярная система Z1 проходила расчет взаимодействия и элемент Ai1 являлся активным центром, то из БПП берутся показатели предыдущих расчетов

P=RAi1;  AПАЦ1;  αAi1;  Ai1;  ϕZi1Za1Zb1;  Aj1;  Ai+11;  αAi+12;  Aj+11;                   (12)

где RAi1 – расстояние водородной связи; AПАЦ1 – потенциально активный центр основной молекулярной системы; αAi1 – валентный угол; φZi1Za1Zb1 – плоскостной угол;Ai1, Aj1; Ai+11, Aj+11; Ai+21 – элементы, связанные с AПАЦ1; αAi+12 – валентный угол между вторым атомом МС присоединения и атомом основной МС; φZi+11Za+11Zb+11 – плоскостной угол между вторым атомом МС присоединения и атомами основной МС; φZi+21Za+21Zb+21 – плоскостной угол между третьим атомом МС присоединения и атомами основной МС; k – коэффициент правила.

При этом, если подходящее правило обнаружено и таких правил несколько, то выбирается то, которое имеет наиболее высокий коэффициент (коэффициент выставляется на основе частоты успешного использования данного правила). База продукционных правил возвращает правило.

Шаг 4. На основе правила составляется сложная молекулярная система.

Шаг 5. Происходит расчет устойчивой структуры с использование сторонней квантово-химической программы. Проверяется образование СМС.

Шаг 6. Выгружается устойчивая структура СМС.

Шаг 7. Для использованного правила увеличивается его коэффициент.

Шаг 8. Коэффициент добавляется в БПП.

Если подходящее правило в БПП не найдено, то алгоритм продолжает подбирать параметры прямым перебором и, в случае успеха, добавляет в БПП найденные параметры в качестве нового правила.

Рассмотрим пример заполнение БПП параметрами моделирования процесса взаимодействия на примере взаимодействия метионина с лецитином:

  • – лецитин-система, состоящая из 46 элементов (атомов);
  • – метионин-система, состоящая из 20 элементов (атомов).

При полном переборе без использования предлагаемой методики необходимо было бы проверять 920 предполагаемых соединений. С использованием методики, согласно (1), исключаются 725 и остается проверить 195 предполагаемых соединений. После составления всех возможных объединений (взаимодействий) получено: 126 сложных молекулярных систем; 22 активных центра; 22 новых правила для БПП. Так как ни одно правило из БПП не подошло для расчета из-за того, что молекулярная система «лецитин» не была рассчитана ранее, то для подбора геометрических параметров используется прямой перебор, а найденные параметры добавляются в качестве нового правила. Моделирование проводилось 18 ч.

Проверка работы правил

Для построения цифрового двойника процесса взаимодействия молекулярных систем использованы МС лецитина и сероводорода:

  • – лецитин-система, состоящая из 46 элементов (атомов);
  • – сероводород-система, состоящая из трех элементов (атомов).

При полном переборе без использования методики необходимо проверить 138 предполагаемых соединений. С использованием методики, согласно (1), исключаются 96 предполагаемых соединений и остается проверить 42. После составления всех возможных объединений (взаимодействий) получено: 30 сложных молекулярных систем; 30 активных центров; 10 новых правил для БПП. В ходе моделирования применено 20 правил. Моделирование проводилось 5 ч.

Заключение

Таким образом, в работе представлена новая методика построения цифрового двойника процесса взаимодействия молекулярных систем, в основе которой используется цифровой двойник процесса взаимодействия молекулярных систем с применением продукционных правил. Практическая значимость полученных результатов заключается в эффективном практическом применении разработанного на основе предложенной методики программного обеспечения. Проведенный эксперимент по моделированию СМС с применением предложенной методики, использующей продукционные правила, и методики на основе прямого перебора показал, что новая методика позволила значительно сократить время на моделирование СМС, поскольку при проведении второго эксперимента использовались результаты, полученные ранее из первого эксперимента. Данную методику и разработанный на ее основе программный комплекс можно использовать как один из этапов при поиске активных центров межмолекулярных взаимодействий.

 

Исследование выполнено при поддержке Программы развития Астраханского государственного университета (Приоритет-2030).

×

About the authors

Yu. A. Smirnova

Astrakhan State University named after V. N. Tatishchev

Author for correspondence.
Email: 2013qwer22@gmail.com

старший преподаватель кафедры информационных технологий

Russian Federation, Astrakhan

A. N. Maryenkov

Astrakhan State University named after V. N. Tatishchev

Email: 2013qwer22@gmail.com

кандидат технических наук, доцент, заведующий кафедрой информационных технологий

Russian Federation, Astrakhan

E. S. Tarabanovskaya

Astrakhan State University named after V. N. Tatishchev

Email: 2013qwer22@gmail.com

студент, кафедра информационных технологий

Russian Federation, Astrakhan

References

  1. Zolotareva N.V. Osnovy kvantovoy mekhaniki v voprosakh i zadachakh. Model'nyye primery kvantovoy khimii [Fundamentals of quantum mechanics in questions and problems. Model examples of quantum chemistry], Astrakhan': Izdatel’stvo Sorokina R.V., 2020, 58 p. (In Russ.)
  2. Klimov V.V., Aleynikova T.P., Kozlovtsev V.A. Osnovy kvantovo-khimicheskogo analiza [Fundamentals of quantum chemical analysis], Part 1, Volgograd: Izdatel’stvo Volgograd. gos. tekh. universiteta, 2017, 32 p. (In Russ.)
  3. Zolotareva N.V. Chislennyye metody analiza v khimii dlya studentov, obuchayushchikhsya po khimicheskim napravleniyam i pedagogicheskim napravleniyam s dvumya profilyami podgotovki ochnoy i ochno-zaochnoy form obucheniya [Numerical methods of analysis in chemistry for students studying in chemical fields and pedagogical fields with two profiles of training full-time and part-time forms of study], Astrakhan': Izdatel’stvo Sorokina R.V., 2020, 78 p. (In Russ.)
  4. Alikberova L.Yu., Savinkina Ye.V., Davydova M.N. Osnovy stroyeniya veshchestva [Fundamentals of the structure of matter], Moscow: MITKHT im. M. V. Lomonosova, 2004, 1 elektron. opt. disk (CD-ROM). (In Russ.)
  5. Smirnova Yu.A., Golovatskaya L.I. [Development of an algorithm and method for transforming the recording of atomic-molecular systems], Prikaspiyskiy zhurnal: upravleniye i vysokiye tekhnologii [Caspian Journal: Management and High Technologies.], 2022, no. 2(58), pp. 61-67. (In Russ., abstract in Eng.)
  6. Smirnova Yu.A., Golovatskaya L.I. PROGRAMMA DLYA EVM “TFinG” [COMPUTER PROGRAM “TFinG”], Russian Federation, 2022, Certificate 2022614450 (In Russ.)
  7. Taraskin D.V., Zharkikh L.I. [Structure of software for identifying potential active centers between two molecules], Vestnik Tekhnologicheskogo universiteta [Bulletin of the Technological University], 2019, vol. 22, no. 12, pp. 117-121. (In Russ., abstract in Eng.)
  8. Smirnova Yu.A., Mar'yenkov A.N. [Features of software implementation of the methodology for transforming molecular systems], Modelirovaniye, optimizatsiya i informatsionnyye tekhnologii [Modeling, optimization and information technologies], 2023, vol. 11, no. 4(43), 13 p. doi: 10.26102/2310-6018/2023.43.4.023 (In Russ., abstract in Eng.)
  9. Smirnova Yu.A., Mar'yenkov A.N., Tarabanovskaya Ye.S. Sistema podderzhki prinyatiya resheniy geometricheskikh parametrov dlya sostavleniya slozhnykh molekulyarnykh sistem [Geometric decision support system for composing complex molecular systems], Russian Federation, 2023, Certificate 2023669622 (In Russ.)

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Formalized computer representation of the molecule "methionine"

Download (224KB)
3. Fig. 2. Formalized computer representation of the hydrogen sulfide molecule

Download (24KB)
4. Fig. 3. Transformation of the molecular graph of hydrogen sulfide

Download (86KB)
5. Fig. 4. General scheme of using the BPP for information support of decision-making when selecting parameters for modeling a complex molecular system

Download (98KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».