ПРОБЛЕМЫ УПРАВЛЕНИЯ 4/2005

Управление в медико-биологических системах

< индекс---содержание № 4---след. статья в № 4---след. в рубрике > 

УДК 577.71:528.854 

ПРИМЕНЕНИЕ МЕТОДОВ РАСПОЗНАВАНИЯ ОБРАЗОВ В ЗАДАЧАХ МОЛЕКУЛЯРНОЙ БИОЛОГИИ[1]

А.Я. Червоненкис

Институт проблем управления им. В.А. Трапезникова, г. Москва

Отмечено, что новым полем применения методов распознавания образов в последнее время стали задачи молекулярной биологии – белки представляют собой последовательное соединение аминокислот, тогда как свойства молекулы ДНК определяются последовательностью нуклеотидных пар; поэтому задачи классификации белков, выделение фрагментов генома и предсказание их функций могут рассматриваться как задачи распознавания слов в заданном алфавите, которые в свою очередь оказываются подзадачами в задаче расшифровки структуры белка и генома и предсказания их функций. Предложен новый вид ядерной функции, используемой далее в машине опорных векторов для обучения распознаванию слов, и приведены результаты сравнения этого метода с другими на примере двух задач распознавания фрагментов генома. Работа выполнена в Лондонском университете (Royal Holloway University of London).

 ВВЕДЕНИЕ

В последнее время методы распознавания образов все чаще применяются для решения задач молекулярной биологии. К числу таких задач относятся, например, определение функциональных свойств белков по их структуре (первичной, вторичной или третичной), выделение в геноме отдельных участков, ответственных за управление теми или иными молекулярно-биологическими процессами.

Состав белка однозначно определяется линейной последовательностью аминокислот. Всего имеется 20 аминокислот, и поэтому линейная (первичная) структура белка задается словом в алфавите из 20 символов. Длина слова варьируется от нескольких сот до нескольких тысяч букв. Функциональные свойства белка по преимуществу определяются его вторичной и третичной структурами. Однако, последние в естественных условиях однозначно определяются первичной структурой. Таким образом, вся информация о свойствах белка закодирована словом, задающим его первичную структуру. Для ряда белков путем длительных и дорогостоящих экспериментов удается установить их функциональные свойства. Свойства новых белков, а также таких, для которых эксперименты не проводились, приходится оценивать по сходству с теми, для которых свойства установлены экспериментально. Если сгруппировать белки в классы по их функциональным свойствам, то отнесение нового (или неисследованного) белка к тому или иному классу оказывается типичной задачей распознавания образов. При этом белки с установленными свойствами могут служить обучающей выборкой.

Аналогичные задачи возникают при исследовании генома. Свойства молекулы ДНК определяются последовательностью пар нуклеотидов. Всего (у всех организмов) встречаются четыре таких пары, которые кодируются символами A, C, G и T. Таким образом, каждая молекула ДНК может рассматриваться как слово в алфавите из четырех букв. В таком слове содержится до нескольких миллионов букв.

В настоящее время молекулы ДНК многих организмов интенсивно расшифровываются [1, 2]. После того, как экспериментально установлена последовательность нуклеотидных пар (т.е. проведено секвенирование) нужно понять, как эта молекула работает. Для этого на ней нужно, прежде всего, выделить последовательность генов – участков, содержащих коды соответствующих белков, разделенных межгенными промежутками.

При работе в организме гены сначала транскрибируются в молекулы мРНК, затем в молекулы РНК, после чего транслируются в белки. Но не весь код, транскрибируемый в РНК, служит для задания белка. Гены эукариотов содержат значительные участки, которые не транскрибируются в белок. Кодирующие зоны внутри гена называют эксонами, а некодирующие – интронами. Соответствующие белковые комплексы “распознают” начало и конец интрона и исключают его при очередном копировании. Этот процесс называется сплайсингом. После того, как из слова, кодирующего ген, исключены интроны (а также участок между началом транскрипции и началом трансляции), по нему можно прочитать первичную структуру белка, закодированного в гене. Известно, что каждой аминокислоте соответствует триплет нуклеотидных пар (слово из трех букв в алфавите A, C, G и T). Таким образом, задача выделения кодирующей части гена, т. е. разделение его на эксоны и интроны, оказывается весьма актуальной.

В то же время по известным белкам, порождаемым данной группой генов, можно решить обратную задачу – указать эксоны, кодирующие эти белки. Случаи с известным разделением на эксоны и интроны можно использовать в качестве обучающей последовательности в задаче обучения распознаванию точек перехода от эксона к интрону и наоборот.

Гену предшествует (или частично захватывает его начало) так называемая промоуторная зона, содержащая промоуторы – участки ДНК, к которым присоединяются белковые комплексы, управляющие работой гена. Они включают или выключают, усиливают или ослабляют экспрессию гена. Поэтому задача распознавания промоуторов также оказывается весьма актуальной. Белковые комплексы своими средствами “распознают” соответствующие промоуторы, и, значит, эта задача должна быть разрешима и машинными средствами. В ряде случаев положение промоуторов установлено экспериментально. Эти примеры могут служить обучающей выборкой.

Существует много других участков (сайтов), регулирующих функционирование генома, по отношению к которым можно поставить аналогичные задачи распознавания. Разумеется, при расшифровке генома все эти задачи должны решаться в комплексе. Но распознавание отдельных участков может рассматриваться как система элементарных блоков (кирпичей) при решении общей задачи.

Различные методы обучения распознаванию образов связаны с соответствующей метрикой, определяющей степень близости объектов. Это может быть простая евклидова метрика, метрика, задаваемая положительно определенной квадратичной формой или ядерной функцией, а также иные метрики. В методах, основанных на построении разделяющей поверхности, метрика используется неявно через соответствующую форму скалярного произведения, а в методе ближайшего соседа – явно. В последнее время появилось (и появляется) все больше работ па применению методов распознавания образов в молекулярной биологии с применением всех указанных средств [1 4].

Применительно к текстовым строкам (при кодировании строки вектором) простая Евклидова метрика соответствует числу несовпадающих букв в двух словах; метрика, задаваемая квадратичной формой, степени различия с учетом различных штрафов, зависящих от конкретных букв и их положения в слове, а ядерные функции – более сложным схемам сравнения двух строк.

Близкие по функциям белки, как правило, произошли в ходе эволюции от одного прародителя: одни аминокислоты заменялись на другие, некоторые звенья выпадали, вставлялись новые. Возможна также перестановка, вставка или удаление больших фрагментов. Сказанное относится также к фрагментам генома, выполняющим сходные функции, поскольку они “распознаются” одинаковыми или сходными белковыми комплексами.

Если бы дело ограничивалось только заменами, то близость слов, кодирующих белки (или фрагменты генома), можно было бы мерить числом несовпадений или штрафной функцией с учетом различных замен. Но при наличии вставок и выпадений нужна более сложная процедура. Дело в том, что выпадение хотя бы одной буквы сдвигает остаток слова, и, даже если он полностью сохраняется, число совпадений будет мало. В связи с этим уже давно разработан так называемый метод выравнивания [3] (allignement). Назначается матрица штрафов и штраф (или штрафы) за пропуск буквы в одном из слов. Далее методом динамического программирования ищется такая последовательность пропусков и соответствий, которая обеспечивает минимум суммы штрафов. Метод, основанный на этих идеях, реализован в стандартной программе BLAST [4], используемой для классификации белков и других молекулярных цепей.

 ЗАКЛЮЧЕНИЕ

Полученные результаты свидетельствуют о высокой эффективности методов распознавания, основанных на применении машины опорных векторов. Дальнейшая работа будет направлена на включение элементов распознавания в более сложные системы, предназначенные для анализа структуры белка и генома.

ЛИТЕРАТУРА

1. Sequence Alignment Kernel for recognition of promoter regions / Л. Гордон, А. Червоненкис, А. Гаммерман, И. Шахмурадов, В. Соловьев // Bioinformatics. – 2003. Vol. 20. P. 1964–1971.

2. Genom-wide prokariotic promoter recognition based on Sequence Alignment Kernel / Л. Гордон, А. Червоненкис, А. Гаммерман, И. Шахмурадов, В. Соловьев // Труды конференции IDA2003. Берлин, 2003. В кн. Advances in Intelligent Data Analysis. – Springer-Verlag. Vol. LNCS 2810. P. 386–396.

3. Goth O. An improved algorithm for matching biological sequences // J. Mol. Bio. – 1982. – 162(3). – P. 705–708.

4. Gapped BLAST and PSI-BLAST: a new generation of protein search programs / S. Altschul, T. Madden, A. Schaffer, et al. // Nucleic Acids Res. – 1997. – Vol. 25, P. 3389–3402.

5. Watkins C. Dynamic alignment kernels // Advances in Large Margin Classifiers. MA: MIT Press, 2000. Cambridge, P. 39–50.

6. Vapnik V. Statistical learning theory. – New-York: Wiley, 1998.

7. Regulondb (version 3.0): transcriptional regulation and operon organization in Escherichia coli K-12 / H. Salgado, A. Santos-Zavaleta, S. Gama-Gastro, et al. // Nucleic Acids Res., – 2000. – Vol. 28(1). P. 65, 66.

8. Promec: An updated database of Escherichia coli mRNA promoters with experimentally identified transcriptional start sites / R. Hershberg, G. Bejerano, A. Santos-Zavaleta, H. Margalit // Nucleic Acids Res. – 2001. 29 (1). P. 277.

9. Oppon J., Hide W. A statistical model for procariotic promoter prediction // In the Nineteenth Workshop on genomic Informatics. – P. 271–273. Poster.

10. Sholkopf D., Gedergen J., Lapalme G. Frequency of insertion/deletion, transversion and transition in evolution of 5S ribosomal RNA // Journal of Molecular Evolution. –1996. – N 7. P. 133–149.

11. Prinbow D. Nucleotide sequence of an rna polymerase binding site at an early t7 promoter // Proc. of Natl Acad Sci USA. 1975. – Vol. 72. P. 784–788. 

12. Shaller H., Gray C., Herrmann K. Nucleotide sequence of an rna polymerase binding site from dna of bacteriophage fd // Proceedings of Natl Acad Sci USA. Vol. 72. P. 737–741.

13. Sequence of promoter for coat protein gene of bacteriophage fd / K. Takanami., K. Sigimoto, H. Sugisaki., T. Okamoto // Nature. – 1976. Vol. 260 (5549). P. 297–302.

14. Staden R. Computer methods to locate signals in nucleic acid sequences // Nucleic Acids Res. – 1984. Vol. 12 (1, pt 2). P. 502–519.

15. Harley C., Reynolds R. Analysis of E. coli promoter sequences // Nucleic Acids Res. 1987. Vol. 15 (5). P. 2343–2361.

16. Bailey T., Elkan C. Unsupervised learning of multiple motives in biopolymers using expectation maximization // Machine learning 21 (1-2). P. 51–80. 

( (095) 334-88-20

E-mail: chervnks@ipu.rssi.ru

[1]Работа доложена на Научных чтениях памяти профессора А.М. Петровского, Москва, Ин-т проблем управления, 17 марта 2005 г.