174
Присутствие только двух олигонуклеотидов (S
i
, S
j
), возможно, не будет
удовлетворительным. Мы должны полагать, что все тройки олигонуклео-
тидов в последовательностях ДНК таких как (S
1
, S
2
, S
3
) = (Position(S
1
) <
Position(S
2
) < Position(S
3
)). Формально эту тройку, можно рассмотреть как
две пары (S
1
, S
2
) и (S
2
, S
3
). Теперь, проверяемая гипотеза имеет вид
A
1
& A
2
⇒ A
0
. Таким образом, используя логику первого порядка, мы
строим все более сложные условия, включая присутствие этих олигонук-
леотидов в прямых или обратных цепях ДНК, наложенных олигонуклео-
тидов и т. д.
Более сложные правила прогноза получаются добавлением новых сиг-
налов в условие правила (S
1
, … S
i-1
, S
i
), i = 1, 2, ... . Система Gene Discovery
перебирает все варианты возможного удлинения правила (S
1
, …, S
i−1,
S
i
)
олигонуклеотидом S
i
, чтобы усилить прогноз, i = 1, ..., N, N – число моти-
вов.
Статистический критерий Фишера (точный критерий Фишера для таб-
лиц сопряженности признаков) используется в алгоритме для проверки
статистической значимости увеличения условной вероятности правила при
добавлении новых сигналов в посылку правила.
§ 71. Подготовка данных и предварительный отбор сигналов
Обучающая выборка последовательностей нуклеотидов двух альтерна-
тивных классов подается на вход системы
Gene Discovery. Обучающая вы-
борка состоит из последовательностей промотеров, специфичных для рас-
сматриваемой функциональной системы (класс 1) и случайных последова-
тельностей (класс 2). Это могли быть компьютерно-генерируемые случай-
ные последовательности с теми же самыми частотами нуклеотида или ре-
альными последовательностями соседних областей, не соответствующих
этой регулирующей функции, такие как экзоны.
Есть блок программы,
который используется для поиска контекстных
сигналов в последовательностях этих двух классов (см. рис. 23). Сигналом
может быть:
1) контекст (определенное пользователем короткое нуклеотидное слово
(олигонуклеотид) или функциональный сайт, представленный в специали-
зированной базе данных молекулярной биологии TRRD);
2) участок с конформационными или физико-химическими признаками
(такими как углы поворота, повышения, температура растворения ДНК
, и
т. д.);
3) структурный элемент (Z-ДНК, шпилька РНК).
Все эти сигналы могут быть распознаны, используя знания о свойствах
ДНК и схемах консенсуса, основанные на экспериментальных данных,