Введение
В данном разделе рассматривается Web-портал по вычислительной биологии,
разработанный в университета Корнелла, США (Cornell University, USA). Все
приложения, представленные на портале, выполняются на вычислительном кластере
университета Корнелла (США) под управлением Microsoft Windows Compute Cluster
Server. Работа с Web-порталом осуществляется через общедоступный Web-интерфейс
на сайте http://biohpc.org
Для каждого приложения предусмотрена отдельная страница,
которая содержит поля для ввода необходимых данных. В зависимости от конкретного
приложения данные могут либо вводиться непосредственно на Web-странице, либо
загружаться из пользовательского файла в одном из предопределенных форматов,
стандартных для задач вычислительной биологии.
На адрес электронный почты, указываемый пользователем при формировании
запроса, высылаются уведомления о постановке запроса в очередь, начале и
завершении реальных вычислений. Гиперссылки на страницы с полученными выходными
данными содержатся в уведомлении о завершении вычислений.
Приложения для анализа генных цепочек
GenomeSequenceAlignment
Программа упорядочивает набор коротких цепочек генов
относительно набора длинных цепочек, а также предоставляет интерактивный
графический интерфейс для анализа результатов.
RepeatFinder
Программа идентифицирует короткие повторяющиеся цепочки в
геноме.
Приложения для выравнивания генных цепочек
P-ClustalW
Программа общего назначения для выравнивания цепочек белка
или ДНК. Может быть запущена как в последовательном, так и в параллельном
режиме.
T-Coffee
По заданному набору цепочек (белка или ДНК) программа
генерирует их множественное выравнивание.
Web-интерфейс позволяет выполнять следующие задачи:
1. Производить простое выравнивание нескольких цепочек
(предоставленных в формате FASTA);
2. Переупорядочивать одну или несколько цепочек в уже
существующем выравнивании.
Приложения популяционной генетики
IM
Данная программа является реализацией алгоритма MCMC для
анализа изолированного генетического материала в рамках миграционной модели
дивергенции популяций. IM применяет эту модель к генетическим образцам, взятым
от пары близких популяций или видов. Результаты оцениваются через апостериорные
плотности вероятностного распределения для каждого из параметров модели.
InStruct
Программа реализует алгоритм марковских цепей Монте-Карло для
обобщенного байесовского метода кластеризации, чтобы оценить степень
самоопыления и групповой индивидуализации в подпопуляциях, одновременно
используя данные генотипа, состоящего из несвязанных маркерных генов.
MDIV
Программа одновременно оценивает время дивергенции и степень
миграции между двумя популяциями в ограниченном или неограниченном ареале.
MIGRATE
Эта программа является частью пакета Lamarc (http://evolution.gs.washington.edu/lamarc.html).
Она оценивает эффективные численности популяций и предысторию миграций между N
популяциями, предполагая адекватность матричной миграционной модели с
асимметричными степенями миграции и различными численностями подпопуляций.
MIGRATE использует принцип наибольшего правдоподобия или
байесовские гипотезы, чтобы совместно оценить все параметры.
Входные данные могут содержать:
- Данные из генных цепочек;
- Данные о полиморфизме отдельных нуклеотидов;
- Данные о микросателлитах (из ступенчатой модели мутаций или модели мутаций
с броуновским движением);
- Электрофоретические данные из модели неопределенных аллелей.
Выходные данные могут содержать:
- Оценки всех степеней миграции и численности всех популяций в предположении
постоянных или гамма-распределенных мутаций в пределах отдельного локуса;
- Таблицы правдоподобия, процентили, проверки гипотез правдоподобия и
отдельные графики логарифмических поверхностей правдоподобия для всех
популяций и всех локусов;
MKPRF
Программа производит выборку образцов их апостериорного
распределения параметров в MKPRF-моделях Бустаманте (2002) и Бэрриера (2003),
используя метод марковских цепей Монте-Карло. Результаты обобщаются посредством
суммарной статистики, получаемой из апостериорного распределения.
Parallel MrBayes
Программа производит байесовскую оценку явлений филогенеза.
Байесовская гипотеза о филогенезе основывается на количественной величине,
называемой апостериорной вероятностью распределения деревьев. Она представляет
собой вероятность нахождения дерева в одном из состояний во время наблюдения.
Необходимые условия выводятся из теоремы Байеса. Апостериорную вероятность
распределения деревьев невозможно вычислить аналитически. Вместо этого программа
использует имитационный метод, называемый методом марковских цепей Монте-Карло
(MCMC), чтобы оценить искомую величину.
Parentage
Это свободное распространяемая программа, написанная Яном
Уилсоном, предназначенная для анализа количества предков и взаимоотношений
внутри выборки.
PLINK
Это свободно распространяемый набор средств с открытым кодом,
предназначенных для анализа ассоциаций во всем геноме. Разработан Шоном
Пурселлом в Центре исследования человеческого генома Гарвардского университета,
госпитале Массачусетса и других организациях.
Web-интерфейс позволяет выполнять набор независимых задач
PLINK (всего лишь одна из тысяч команд PLINK) параллельно.
STRUCTURE
Программа анализирует структуру популяции, используя
мультилокусные данные генотипа. Ее использование позволяет определить наличие
отдельных популяций, распределение особей по популяциям, изучить гибридные зоны,
идентифицировать мигрировавших или посторонних особей, а также оценить частоты
аллелей популяции в ситуациях, когда многие особи – мигрировавшие или
посторонние. Программа может применяться ко множеству часто используемых
генетических маркеров, таких как микросателлиты, RFLP и SNP.
Web-интерфейс поддерживает версию STRUCTURE с командной
строкой. Графический интерфейс пока недоступен через Web.
Приложения для анализа структуры белка
MODELLER
Используется для гомологического или сравнительного
моделирования трехмерных белковых структур. Пользователь предоставляет
выравнивание цепочки, которая должна быть смоделирована с известными
структурными связями, а MODELLER автоматически рассчитывает модель, содержащую
все атомы, кроме водорода.
Помимо этого, приложение реализует сравнительное
моделирование белковых структур путем удовлетворения пространственных
ограничений, а также может решать множество сопутствующих задач:
- Моделирование циклов в белковых структурах;
- Оптимизация различных моделей белковых структур относительно гибко
задаваемой целевой функции;
- Множественное выравнивание белковых цепочек и/или структур;
- Кластеризация;
- Поиск цепочек в базе данных;
- Сравнение белковых цепочек.
Другие приложения
DYRESM
Объединяет в себе одномерную гидродинамическую модель DYRESM
с водной экологической моделью CAEDYM. Это позволяет исследовать взаимосвязи
между физическими, биологическими и химическими изменениями в водных организмах
в течение одного сезона или нескольких лет.
R
Это очень популярная свободная среда для проведения
статистических вычислений. В настоящее время Web-интерфейс позволяет выполнять
задания с использованием скриптовых файлов. Функции графического интерфейса
недоступны.