Соросовский Образовательный Журнал
ГЕНЕТИЧЕСКИЙ КОД КАК СИСТЕМА
В. А. РАТНЕР
Новосибирский государственный университет
''Самым трудным в проблеме кода было понять, что код существует. На это потребовалось целое столетие. Когда это поняли, то для того чтобы разобраться в деталях, хватило каких-нибудь десяти лет'' [1].
Проблема генетического кода - это ключевая проблема. В конце 50-х - начале 60-х годов она приковывала к себе внимание, возбуждала активность умов, побуждала веру в величие и мудрость загадок науки. В широком смысле генетический код - это способ записи генетической информации в последовательностях нуклеиновых кислот (ДНК или РНК) о структуре полипептидов (белков). В конкретном смысле генетический код - это соответствие между триплетными кодонами матричной РНК (м-РНК) и аминокислотами кодируемого белка, задаваемое кодовой таблицей.
Развитие проблемы генетического кода прошло несколько этапов. Предтечами этой проблемы можно считать многих выдающихся исследователей. В частности, Н.К. Кольцов (1927, 1935) предложил в общей форме идею молекулы-гена и матричный принцип ее дублирования. Э. Шрёдингер (1944) явно сформулировал необходимость кодирования генетической информации в структуре генов-молекул. П. Колдуэлл и С. Хиншельвуд (1950) предложили идею матричного синтеза белков на ДНК. А. Даунс (1952) сформулировал гипотезу о синтезе белков на РНК.
Научные представления о генетическом коде как о реальной проблеме эксперимента и теории были сформулированы Г.А. Гамовым сразу же после обоснования Дж. Уотсоном и Ф. Криком (1953) модели строения двойной спирали ДНК. Первый этап изучения проблемы (1953-1961) можно назвать гипотетическим. Из модели Уотсона-Крика (см. подробнее [1]) вытекало представление о линейной последовательности ДНК - тексте, построенном из четырех типов нуклеотидов (A, T, G и C - четыре символа алфавита). Но кодируемые белки тоже имеют линейную первичную структуру - текст, построенный из 20 типов канонических аминокислот (алфавит из 20 символов). Поэтому Г.А. Гамов (1954) сразу же сформулировал идею генетического кода в конкретном смысле - как соответствие двух текстов, записанных при помощи двух разных алфавитов. Кроме того, он предложил использовать технические средства криптографии (расшифровки неизвестных кодов) для решения центральной проблемы генетики.
Генетический код сразу же приобрел облик великой загадки природы, ребуса для остроумных. Многие сотни математиков, физиков, химиков, биологов, включая Г.А. Гамова, Ф. Крика и др., предложили гипотетические варианты генетического кода, которые представляют теперь лишь исторический интерес. Реальный код оказался совсем иным.
Научными результатами первого этапа можно считать [1]: 1) постановку проблемы генетического кода; 2) формирование понятий линейного текста, алфавита для нуклеиновых кислот и белков, генетической информации, записанной в этих текстах при помощи символов алфавита; 3) представление о матричной роли РНК в трансляции; 4) понятие о кодонах и доказательство их неперекрывания; 5) предположение о триплетности кодонов и коллинеарности гена и белка, доказанное лишь в дальнейшем, и т.д.
Второй этап (1961-1966) можно назвать экспериментальным, так как в этот период генетический код был расшифрован в прямом эксперименте [1-4]. В 1961 году Ф. Крик с сотрудниками в блестящей работе показали, что: а) кодоны триплетны; б) между ними нет разделительных знаков (''запятых''); в) гены, кодирующие структуру белков (цистроны), имеют фиксированное начало, ориентированное направление и фиксированный конец; г) существует небольшое число некодирующих триплетов (''нонсенсов'', бессмысленных кодонов), а код в целом сильно вырожден. В 1964 году Ч. Янофски с сотрудниками и С. Бреннер с сотрудниками показали, что ген и кодируемый им белок взаимно коллинеарны, то есть имеется последовательное соответствие между кодонами гена и аминокислотами белка.
Прямая расшифровка генетического кода in vitro оказалась возможной благодаря технике белкового синтеза в бесклеточных системах [1-3], то есть в клеточных экстрактах, содержащих все необходимые компоненты аппарата трансляции (т-РНК, рибосомы, аминокислоты, ферменты, источник энергии и т.д.), кроме м-РНК. Вводя в такие системы естественные м-РНК или искусственные небольшие олигорибонуклеотиды, можно было изучать специфичность включения меченых аминокислот в строящиеся полипептиды. М. Ниренберг и Ф. Ледер подавали в бесклеточную систему трансляции E. coli различные олигорибонуклеотиды и показали, что индивидуальные фракции тририбонуклеотидов, ассоциированные с рибосомами, связывают определенные фракции т-РНК, заряженные определенными мечеными аминокислотами. С помощью такого метода генетический код был расшифрован полностью. Летом 1966 года на симпозиуме по количественной биологии в Колд-Спринг-Харборе (США) все полученные данные были сведены Ф. Криком воедино [2]. Расшифрованный генетический код E. coli, исследованный in vitro, полностью согласовывался также с другими независимыми данными, полученными in vivo и для других видов. Этот вывод подтверждается также результатами секвенирования последних лет, когда найдено, что тысячи генов и кодируемых ими белков действительно соответствуют друг другу по правилам генетического кода.
Из 64 возможных триплетов 61 является смысловым кодоном, то есть кодирует аминокислоты. Все кодоны триплетны, неразрывны и не перекрываются в тексте, а также не разделены межкодонными знаками (запятыми). Все кодоны однозначны, то есть каждый кодирует единственную аминокислоту. Иначе говоря, в направлении кодон - аминокислота генетический код однозначен.
Обратное соответствие в направлении аминокислота - кодон неоднозначно, и это свойство называется вырожденностью. Отдельные аминокислоты кодируются группами (сериями) кодонов-синонимов. 18 серий из 20 содержат от двух до шести кодонов, две серии (Met и Trp) не вырождены, содержат по одному кодону. Средняя вырожденность генетического кода приблизительно три кодона на серию.
Вырожденность называется систематической, если кодоны-синонимы различаются в третьей позиции либо пуринами (R = A или G), либо пиримидинами (Y = U или C), либо вообще любыми из четырех нуклеотидов (N = A, G, U или C). Этим принципам удовлетворяют 30 пар кодонов из 32, а также восемь тетрад из 16. Все эти пары связны, а тетрады полносвязны. Остальные варианты вырожденности называют несистематическими. Они относятся к большим сериям: Leu и Arg - связные серии, Ser - несвязная серия, Ile - три кодона, полносвязная серия.
Генетический код содержит также знаки пунктуации (начала и конца) трансляции. Кодоны AUG, GUG и UUG у прокариот помимо кодирования аминокислот кодируют также инициацию трансляции. Однако однозначность кодирования при этом не нарушается, так как инициирующие знаки локализованы в определенном окружении (контексте), способном образовывать самокомплементарные ''шпильки''. У эукариот инициируют триплеты AUG и более слабо - UUG, AUA и ACG. Три ''вакантных'' триплета у E. coli - UAA (ochre), UAG (amber) и UGA (opal) - не кодируют аминокислот, а выполняют роль терминальных знаков трансляции (стоп-кодонов, нонсенс-кодонов или терминальных нонсенсов). В норме ими заканчиваются все цистроны, то есть транслируемые гены, единицы трансляции. Мутационное возникновение нонсенсов внутри гена приводит к преждевременной терминации трансляции и обрыву белка. Нонсенсы тоже образуют связную серию.
Расшифровка генетического кода была одним из самых выдающихся научных открытий ХХ века.
Третий этап изучения проблемы генетического кода (после 1966 года) связан с углубленным исследованием молекулярных механизмов кодирования, системных свойств генетического кода: симметрии, регулярности, помехоустойчивости, универсальности, а также путей его возникновения и эволюции (см. [4]). Молекулярной системой, обеспечивающей соответствие кодонов м-РНК и аминокислот, является набор адапторных молекул транспортных РНК (т-РНК) и набор кодирующих ферментов аминоацил-т-РНК-синтетаз (АРС-аз). Каждая специфическая молекула т-РНК имеет антикодон, взаимодействующий с кодоном м-РНК, а также специфический сайт взаимодействия с определенной АРС-азой и неспецифический сайт связывания аминокислоты. Каждая АРС-аза опознает все изоакцепторные (переносящие одну аминокислоту) фракции т-РНК, одну определенную аминокислоту и соединяет их макроэргической (энергобогатой) связью. Поэтому соответствие антикодона т-РНК и аминокислоты определяется именно АРС-азой. Фракции т-РНК выполняют функции адапторов (специфических посредников) между кодонами м-РНК и аминокислотами.
Многие свойства генетического кода обеспечиваются свойствами молекул т-РНК и АРС-аз. Триплетный и неразрывный антикодон выделен в антикодонной петле т-РНК специальными модифицированными нуклеотидами. Этим обеспечиваются триплетность и неразрывность узнаваемых кодонов матрицы. Все антикодоны одинаково триплетны, поэтому, начиная от инициирующего знака, трансляция осуществляется триплетными шагами, то есть формируется определенная рамка (фаза) трансляции - одна из трех возможных. В этом случае межкодоные знаки (запятые) не нужны, а кодоны не перекрываются. Инициирующие кодоны у E. coli опознаются специальной фракцией т-РНКF-Met, переносящей модифицированную аминокислоту формил-метионин. Терминальные нонсенсы вообще не имеют своих фракций т-РНК, а опознаются специальными белковыми факторами терминации.
Однозначность кода в направлении кодон - аминокислота обеспечивается строгой специфичностью АРС-аз. Каждая АРС-аза узнает единственную аминокислоту, поэтому неоднозначность исключена или маловероятна. В основе систематической вырожденности лежат правила неоднозначности спаривания кодон-антикодон, установленные Ф. Криком [1, 4]. Один антикодон может узнавать один, два или три кодона, различающиеся по третьей позиции. Согласно правилам неоднозначного спаривания, систематическая вырожденность в парах кодонов обеспечивается отдельными фракциями т-РНК, имеющими U, G или I (инозин) в трех позициях антикодонов. Вырожденность 3 у изолейцина (Ile) требует фракцию т-РНК с I в третьей позиции антикодона. Такой нуклеотид там действительно есть. Вырожденность 4 требует не менее двух фракций т-РНК, вырожденность 6 - не менее трех фракций. Всего генетический код E. coli требует не менее 32 фракций т-РНК. Реально у E. coli полное число генов т-РНК равно 86 для 79 фракций с различными антикодонами. Следовательно, многие фракции т-РНК частично дублируют друг друга.
Анализ таблицы генетического кода как целого позволяет выявить удивительные свойства его регулярности и симметрии [4]. Обозначим позиции нуклеотидов в кодонах (5'-1-2-3-3') через x - - y - z, где x - приставка, y - корень, z - окончание, а xy - основа кодона. Эти термины отражают сходные понятия лингвистики. Корни слов определяют их смысл. Все мутации, затрагивающие корень (y) кодона, также изменяют кодовую серию, то есть нарушают смысл кодона. Приставки слов тоже участвуют в определении смысла, хотя и не так жестко, а многие их изменения меняют смысл слов. Замены в приставках (x) кодонов чаще всего изменяют их смысл, но иногда являются синонимическими. Окончания слов обычно участвуют в словоизменении, то есть в синонимических преобразованиях. Аналогично 70% замен в окончаниях (z) кодонов синонимические. Наконец, приставка и корень слова образуют его основу, несущую полную или доминирующую смысловую нагрузку. Основа кодона (xy) тоже играет ключевую роль в особенностях генетического кода.
Регулярность генетического кода связана с распределением основных свойств кодонов и аминокислот по столбцам (корням) генетического кода. Кодоны характеризуются свойствами их основ и корней. Кодоны, имеющие одинаковые основы, образуют 16 тетрад генетического кода. Основа называется сильной, если она полностью определяет смысл (аминокислоту) кодонов тетрады. Нуклеотид в третьей позиции тоже, конечно, необходим, но он может быть любым (N). Таковы основы CU, GU, UC, CC, AC, GC, CG, GG. Легко заметить, что они содержат нуклеотиды в соотношении C : G : U : A = 7 : 5 : 3 : 1. Основа называется слабой, если для однозначного кодирования аминокислоты необходимо также участие определенного третьего нуклеотида (z) в кодоне. Таковы основы UU, AU, UA, CA, AA, GA, UG, AG. Они содержат нуклеотиды в обратном соотношении C : G : U : A = 1 : 3 : 5 : 7. Известно, что участки ДНК с избытком пар G-C более стабильны, чем A-T-богатые участки. Поэтому сильные основы образуют в среднем больше водородных связей с антикодонами т-РНК, чем слабые.
Аминокислоты имеют два основных характерных свойства, существенных в пространственной структуре глобулярных белков: размер (малые - М, средние - Ср, большие - Б) и полярность / неполярность (П / НП).
Легко заметить, что столбцы генетического кода, отвечающие определенным корням кодонов, имеют некоторые групповые свойства. Третий столбец (корень A) содержит полярные аминокислоты, немалые по размеру, а все основы кодонов слабые. Это как бы групповое свойство корня A. Второй столбец (корень C) содержит аминокислоты, малые по размеру, а все основы кодонов сильные. Первый столбец (корень U) включает неполярные аминокислоты разных (но не крайних) размеров, а свойства кодонов неоднозначны. Наконец, четвертый столбец (корень G) содержит все крайние и аномальные варианты аминокислот и кодовых серий [4]: самую реактивную аминокислоту (Cys), самую большую и плоскую (Trp), самую большую и корявую (Arg), самую маленькую (Gly), часть единственной несвязной серии (Ser) и неоднозначный терминальный нонсенс (UGA), который в ряде случаев кодирует 21-ю аминокислоту - селеноцистеин (Sec). Таким образом, если групповые свойства корней (и столбцов) отвечают каким-то общим правилам их возникновения, то четвертый столбец скорее напоминает свалку всего, что не попало в первые три столбца по групповым правилам их формирования.
Теперь рассмотрим не менее впечатляющее свойство симметрии генетического кода. Генетический код можно изобразить в круговой форме [4], где внутренний круг отвечает первым позициям кодонов, среднее кольцо - вторым позициям и внешнее кольцо - третьим позициям. Сильные основы изображены неподразделенными секторами внешнего кольца, а слабые - подразделенными. Свойство симметрии состоит в следующем:
1) проведем ось симметрии через центр круга перпендикулярно плоскости листа и повернем круг на 180° в плоскости листа. При этом все сильные и слабые основы сохраняют свои позиции, то есть совмещаются с одноименными;
2) проведем через центр плоскость симметрии, перпендикулярную плоскости листа и строкам текста. При зеркальном отражении круга в этой плоскости все сильные основы меняются местами со слабыми и наоборот;
3) проведем через центр плоскость симметрии, перпендикулярную плоскости листа и параллельную строкам текста. При зеркальном отражении круга в этой плоскости сильные основы меняются на слабые и наоборот.
Генетический код универсален в том смысле, что его основная часть одинакова для всех форм жизни на Земле. Этот вывод обоснован опытом массового секвенирования генов и белков. Почти всегда коллинеарное соответствие генов и белков согласуется с правилами генетического кода. Однако в некоторых экзотических системах трансляции (митохондрии животных, растений и грибов, хлоропласты растений, мельчайшие бактерии - микоплазмы, реснитчатые простейшие и др.) найдены минорные отклонения в генетическом коде, а также изменения правил неоднозначного спаривания и наборов антикодонов и фракций т-РНК. Это своеобразные ''диалекты'' генетического кода, отражающие специфику их эволюции и функционирования.
Несомненно, что генетический код явился продуктом добиологической молекулярной эволюции и продолжал частично эволюционировать в дальнейшем. В стохастическом процессе молекулярной эволюции свойства генетического кода могли быть: 1) либо предзаданы (предетерминированы) физико-химическими характеристиками компонент и условий, 2) либо отобраны как адаптивные среди альтернативных вариантов, 3) либо фиксированы случайно. Гипотезы возникновения генетического кода в разной степени учитывают эти возможности [3, 4].
Так, гипотеза ''замороженного случая'' (Ф. Крик, 1968 год) полагала, что исторически была фиксирована первая случайная, но удовлетворительная система кодирования, которая далее была размножена, подверглась эволюционному усложнению и оптимизации, так как обеспечивала ускоренное воспроизведение. Ясно, что крайний, чисто случайный вариант этой гипотезы нереален, поскольку код обладает очевидными неслучайными системными свойствами. Ясно также, что эти свойства отражают неслучайный, высоко организованный характер генетического кода, связанный с правилами синонимии кодовых серий.
Таким образом, генетический код E. coli представляет собой не случайный конгломерат соответствий между кодонами и аминокислотами, а высокоорганизованную систему соответствий, поддерживаемую сложными молекулярными механизмами. По выражению Френсиса Крика, внесшего решающий вклад в открытие и изучение кода, ''это ключ к молекулярной биологии, поскольку он показывает, как два великих языка полимеров - язык полинуклеотидов и язык полипептидов связаны между собой'' [2].
ЛИТЕРАТУРА
1. Ичас М. Биологический код. М.: Мир, 1971.
2. The Genetic Code. Cold Spring Harbor Symp. Quant. Biol. Cold Spring Harbor; N.Y. 1966. 31.
3. Молекулярная генетика. М.: Мир, 1963.
4. Ратнер В.А. Молекулярная генетика: Принципы и механизмы. Новосибирск: Наука, 1983.
Рецензенты статьи С.Г. Инге-Вечтомов, Л.И. Корочкин
Вадим Александрович Ратнер, доктор биологических наук, профессор кафедры цитологии и генетики ФЕН НГУ, зав. лабораторией молекулярно-генетических систем Института цитологии и генетики СО РАН, академик РАЕН. Область научных исследований - теоретическая генетика, теория молекулярно-генетических систем, теория молекулярной эволюции. Автор и соавтор 14 монографий на русском, английском и немецком языках, свыше 330 статей и других публикаций.