ENCODE: что такое ген? Эволюция понятия и новое определение гена (4)

05.09.200766630

Начало статьи: История гена с 1860 года до программы ENCODE


На пути к обновленному определению гена


С расширением наших знаний о гене увеличилось количество фактов, противоречащих простому определению гена (см. табл.1). Наиболее проблематичными аспектами явились сплайсинг (включая альтернативный) и интергенная транскрипция. Частота упоминания этих терминов в биологической литературе значительно увеличилась за последние годы (рис.3), что и привело к возникновению проекта ENCODE, целью которого является освещение крайне сложных транскрипционного и регуляторного механизмов. В связи с этим назрела необходимость обновления существующей концепции гена с учетом всех последних данных по этой теме.



Рисунок 3. Анализ сложной генной организации по ключевым словам.
Поиск научных публикаций по ключевым словам «интрон», «альтернативный сплайсинг» и «интергенная транскрипция» проводили при помощи Google Scholar (интернет-поисковика Google по научным публикациям). Наклоны кривых указывают на то, что частота упоминания приведенных выше терминов значительно выросла за последние годы. (Поиск в Google Scholar ограничивался статьями в следующих областях: "Biology, Life Sciences, and Environmental Science", "Chemistry and Materials Science", "Medicine, Pharmacology, and Veterinary Science").


Критерии усовершенствования определения гена


Прежде чем дать новое определение гена, необходимо принять во внимание следующие критерии, по которым стоит обновлять имеющееся понятие.
(1) Новое определение должно включать предыдущее понятие.
(2) Оно не должно зависеть от рассматриваемого биологического объекта, т.е. одинаково подходить для вирусов, бактерий и высших эукариот.
(3) Определение должно быть утверждением простой идеи, а не списком различных механизмов и их исключений.
(4) Оно должно быть достаточно практичным, чтобы гены можно было легко перечислить с его помощью и ответить на вопрос: «Сколько генов в геноме человека?».
(5) Оно должно быть совместимым с другими биологическими номенклатурами, не отметая тем самым возможности его использования в качестве «цифрового» гена. Например, оно должно быть совместимым с термином «регулом» (regulome – весь комплекс компонентов регуляции клетки), представляющим все регуляторные взаимодействия в организме.


Примерное обновленное определение


1. Ген – это геномная последовательность (ДНК или РНК), непосредственно кодирующая молекулы функциональных продуктов (РНК или белка).


2. В случае, когда несколько функциональных продуктов разделяют между собой перекрывающиеся регионы, необходимо рассматривать всю совокупность этих регионов.


3. Эта совокупность должна быть когерентной (сцепленной), т.е. кодировать либо только белки, либо только РНК, при этом все конечные продукты не обязательно должны разделять общие подпоследовательности.


Кратко эти пункты можно сформулировать так:


Ген – это объединение геномных последовательностей, кодирующих когерентный набор потенциально перекрывающихся функциональных продуктов.


Пример, иллюстрирующий это определение, приведен на рис.4.



Рисунок 4. Частный случай, иллюстрирующий предлагаемое определение гена.
С геномного региона транскрибируются 3 молекулы РНК. Продуктами альтернативного сплайсинга являются пять белков, полученных из двух первичных транскриптов и некодирующая РНК (нкРНК). Белковые продукты кодируются тремя кластерами сегментов последовательностей ДНК (A, B и C; D; Е). В случае трехсегментного кластера (A, В и C) каждый сегмент ДНК является общим, по крайней мере, у двух продуктов. Два первичных транскрипта разделяют 5’ UTR, но их транслируемые регионы D и Е не перекрываются. Другой продукт – нкРНК не является копродуктом генов, кодирующих белки (поскольку является РНК), хотя и разделяет геномные последовательности (X и Y) с геномными сегментами, кодирующими белки (A и Е). Всего в рассматриваемом регионе имеется четыре гена, представленные последовательностями в пунктирных оранжевых линиях: Gene1 состоит из сегментов A, В и C; Gene2 – из сегмента D; Gene3 – из Е и Gene4 – из X и Y. Последовательности экзонов и белков A – Е выравнены вертикально, чтобы пунктирные линии к сплайсированным транскриптам и функциональным продуктам показывали их связь с последовательностями белков (овалы) и РНК (прямоугольники).


Аспекты и последствия обновленного определения


Ниже рассматриваются некоторые аспекты нового определения гена.


Неудачи в простых случаях


В простых случаях, когда ген является непрерывной последовательностью или не содержит перекрывающихся продуктов, новое определение выглядит более неудачным, по сравнению с классической версией о последовательности ДНК, кодирующей белки или РНК.


Проекция продуктов гена на исходную последовательность ДНК


Ген в предлагаемом определении составляют различные функциональные продукты одного класса (белки или РНК), использующие перекрывающиеся последовательности ДНК. Перекрывание выполняется посредством проектирования последовательности конечного продукта (аминокислотной или рибонуклеиновой) обратно на исходную геномную последовательность, которая его «породила». В принципе, можно перекрывать последовательности финальных продуктов и проецировать их на геном, но предлагаемый вариант «от геномных регионов – к функциональным продуктам» выглядит более практичным, поскольку в нашем распоряжении уже имеются аннотации генов. Для поиска геномных продуктов с общими сегментами недостаточно одной идентичности последовательностей: продукты должны быть еще закодированы в одном геномном регионе. Паралогичные белки (продукты дупликатов одного гена, локализующихся в разных участках генома), хотя и могут разделять блоки последовательностей, но не могут относиться к одному гену, поскольку кодирующие их последовательности ДНК локализуются в различных частях генома.


Экзоны со смещенными рамками считывания


В результате альтернативного сплайсинга пре-мРНК может получиться мРНК со сдвигом рамки в белковой последовательности, как в случае с геном опухолевого супрессора CDKN2A (старое название – INK4a/ARF) (Quelle et al. 1995). Белковые продукты двух мРНК, отличающихся сдвигом рамки считывания, хотя и обладают общей кодирующей последовательностью, совершенно различны. Становится непонятным, как рассматривать общие сегменты последовательностей у разных белковых продуктов – считать, что эти белки кодируются одним или двумя генами? Если рассматривать последовательности белковых продуктов, получим два совершенно разных белка с общими перекрывающимися участками кодирующих последовательностей, т.е. два гена. Если «спроецировать» последовательности белковых продуктов обратно на кодирующую их последовательность ДНК, получим два набора последовательностей с общими элементами, т.е. один ген. Тот факт, что эти две белковые последовательности связаны одновременно, и, к примеру, мутация в одной из них неизбежно проявляется мутацией в другой, предполагает, что данная ситуация отражает два связанных гена, кодирующих белки. Обобщая этот частный случай, следует признать, что необходимо рассматривать последовательности ДНК, а не их продуктов, имеющих общие кодирующие последовательности.


Регуляторные регионы не включены в новое определение гена


Решая вопрос о том, принадлежат ли разные функциональные продукты к одному или нескольким генам, мы предложили не принимать во внимание регуляторные регионы, хотя они играют важную роль в экспрессии генов. Этот аспект определения следует из концепции бактериального оперона. Хотя гены в опероне имеют общие промоторный и операторный регионы, белковые продукты этих генов традиционно не рассматривают как альтернативные продукты одного гена. У высших эукариот две молекулы РНК, транскрибированные с одного сайта транскрипции (с общим промотором и регуляторными элементами), но не имеющие общих элементов последовательностей в их конечных продуктах из-за альтернативного сплайсинга, принадлежат к разным генам. Такая же логика применима и ко множественным транскриптам с общим, но удаленным инсулятором и энхансером. Понятие регуляции слишком сложно для того, чтобы его можно было бы ввести в определение гена.


Конечные продукты, а не кластеры транскриптов


В новом определении гена все внимание уделяется конечным продуктам гена, а не промежуточным продуктам, образованным с перекрывающихся геномных регионов. Например, интронные транскрипты, имеющие общие последовательности с более длинными молекулами РНК, не учитываются, когда речь идет о продуктах гена (два продукта не имеют общих блоков последовательностей). Эта концепция относится и к другим типам прерывистых генов, например, к транс-сплайсированным транскриптам (одна пре-мРНК может подвергаться сплайсингу с другими пре-мРНК перед дальнейшими преобразованиями и трансляцией (синтезом белка по мРНК)). В ходе проекта ENCODE обнаружилось много переплетенных транскриптов. При попытке сгруппировать эти транскрипты в кластеры (потенциально альтернативное определение гена) выяснилось, что длинные сегменты хромосом тоже объединяются в эти кластеры. Такое альтернативное определение гена привело бы к намного меньшему числу «генов» и к более узкой области применения такого определения.


Альтернативный сплайсинг


Случается, что среди всех белковых продуктов генов, образованных после альтернативного сплайсинга, нет ни одного общего экзона. В этом случае ген определяется совокупностью сегментов последовательностей ДНК, когда каждый экзон является общим хотя бы для двух белков из группы, полученных в результате альтернативного сплайсинга.


Нетранслируемые регионы


В процессах трансляции, регуляции функций, обеспечении стабильности и определении локализации молекул мРНК важную роль играют 5’ и 3’ нетранслируемые регионы (untranslated regions – UTRs). В настоящее время эти участки не рассматриваются в качестве частей генов. Молекулы РНК, кодирующие белки и имеющие общие последовательности ДНК только в нетранслируемых регионах или интронах, не могут относиться к одному гену. Понятие о нетранслируемых участках исключили из определения гена, чтобы избежать путаницы с множественными 5’и 3’ концами. В очередной раз корректность нового определения гена подтвердил тот факт, что многие из обнаруженных в рамках проекта ENCODE длинных транскриптов, кодирующих белки, различались только нетранслируемыми участками.


Ген-ассоциированные регионы


Как указывалось выше, регуляторные и нетранслируемые регионы не будут рассматриваться в качестве части гена. Но авторы решили выделить для них отдельную категорию, назвав их «ген-ассоциированными», чтобы не умалять их роли в функционировании генов. Их можно распознать по способности влиять на экспрессию ряда генов. Примером может служить регион контроля локуса LCR (locus control region) пяти бета-глобиновых генов гемоглобина человека, который по-разному регулирует экспрессию этих генов в процессе эмбрионального развития. Термин «ген-ассоциированные» можно применить и к нетранслируемым регионам в множественных генных локусах, например, к длинным сплайсированным транскриптам (long spliced transcripts) и транс-сплайсируемым экзонам, обнаруженных в рамках проекта ENCODE.


Разобщенные совокупности геномных последовательностей


Авторы условились использовать термин «ДНК» по отношению к геномным последовательностям в целом. Предложенное определение гена применимо ко всем геномам, включая РНКовые геномы вирусов. Часто оказывается, что гену соответствует не отдельный генетический локус, а несколько регионов, т.к. последовательности, кодирующие продукты это гена, могут быть широко разбросаны по геному. Поскольку ген – это набор общих последовательностей для нескольких его продуктов, связь между этими последовательностями не требуется, и те последовательности, которые по случайности связывают продукты гена, не обязательно должны быть его частью. Таким образом, компоненты последовательности могут находиться на различных нитях хромосомы или даже на разных хромосомах. Это означает принадлежность транс-сплайсируемых транскриптов к одному гену.


Заключение: в чем состоит функция?


Классическое представление гена как единицы наследственной информации, содержащейся на хромосоме и кодирующей белок, радикально изменилось за последнее столетие. Для Моргана гены на хромосомах ассоциировались с ниткой бус. Революция в молекулярной биологии значительно изменила это представление. Цитируя Фалька (Falk 1986), «…ген не является […] ни дискретным […], ни непрерывным […], не имеет ни постоянной локализации […], ни ясной функции […], ни даже постоянных последовательностей […] и не имеет определенных границ». Последние результаты проекта ENCODE еще более усложнили понятие гена.


Единственное, что не изменилось – то, что генотип определяет фенотип, и на молекулярном уровне это означает, что последовательности ДНК определяют последовательности функциональных молекул. В простейшем случае, одна последовательность ДНК все еще кодирует один белок или РНК. Но в общем случае гены представлены модулями последовательностей, разнообразно комбинирующимися для образования конечных продуктов. Новое определение устанавливает конкретный стандарт для точного пересчета генов в геноме.


Важным аспектом предложенного определения является требование функциональности белковых и РНКовых продуктов для того, чтобы их можно было отнести к одному гену. Авторы усматривают в этом требовании связь с базовыми принципами генетики (генотип определят фенотип). На молекулярном уровне предполагается, что фенотип определяется биохимической функцией.


Акцент на функциональных продуктах высвечивает вопрос о том, в чем же заключается биологическая функция? Для ее понимания потребуется широкомасштабный биохимический и мутационный анализ (Lan et al. 2002, 2003). К счастью, в большинстве случаев выяснение того, для чего нужны большинство молекул РНК и белков, является вопросом времени. До этого момента можно предполагать функцию того или иного продукта гена из статистических свойств последовательности (Ponjavic et al. 2007) и называть их ТАРами (транскрипционно активными регионами – transcriptionally active regions, TARs).


Скорее всего, мы никогда не узнаем назначение всех молекул генома. Возможно, некоторые продукты генома – это просто «шумы», оставшиеся в нем в результате перенесенных организмом эволюционно нейтральных событий (Tress et al. 2007). С другой стороны, функция может разделяться многими другими геномными продуктами, и тогда ее очень трудно выявить с помощью мутационного анализа. Выяснение функции геномного продукта является сложной задачей, а доказательство ее отсутствия – почти невозможной. Скорее всего, некоторые блоки последовательностей сохранят свои метки «ТАР с неизвестной функцией» на неопределенный срок. Если выяснится, что такие регионы имеют общие последовательности с известными функциональными генами, то границы этих ТАРов останутся неопределенными. Поскольку новое определение основывается на функциональных продуктах, для выяснения реального числа генов в нашем геноме потребуются долгие, долгие годы.


Список цитированной литературы см. в оригинале статьи на сайте Genome Research.


Перевод: Дарья Червякова,
Интернет-журнал «Коммерческая биотехнология» http://www.cbio.ru/


Ваш комментарий:
Только зарегистрированные пользователи могут оставлять комментарии. Чтобы оставить комментарий, необходимо авторизоваться.
Вернуться к списку статей