статистика

Анализ вариантов взаимного расположения и направления парно-концевых чтений

Были проанализированы возможные варианты взаимного расположения и направления парно-концевых чтений. Первый и основной вариант — чтения картируются на референсный геном в соответствии с логикой приготовления библиотеки. Для платформы GAII это означает, что два чтения ориентированы навстречу друг другу (т.е., 5'→3' и 5'←3'). Для SOLiD же стандартом являются сонаправленные чтения (5'→3' и 5'→3'). Второй и третий варианты — это отход от нормального расположения, возможный в том случае, если исследуемый геном имеет существенные перестройки в рассматриваемом районе — тогда порядок чтений будет нарушен один или два раза, соответственно.

Сопоставление данных по SNP, определенным с помощью секвенирования и генотипирования на микроматрицах ДНК

Произведена проверка совпадений между аллельными вариантами однонуклеотидных полиморфизмов (ОП, SNP), определенных с помощью секвенирования и генотипирования на микроматрицах ДНК.
С помощью микроматриц ДНК Illumina 660W-quad в исследованном геноме были определены аллельные варианты 588 702 полиморфизмов (далее они обозначаются как мОП). В свою очередь, полученные при секвенировании чтения были картированы на референсный геном hg18; для тех из них, координаты которых пересекались с координатами мОП, и был произведён сравнительный анализ. Количество ОП, на которые было откартировано хотя бы одно чтение на платформах GAII и SOLiD, составило 581 596, или 98,8% от общего количества мОП.

Статистика секвенирования транскриптома

В результате секвенирования транскриптома было получено 73 908 846 непарных чтений длиной 72 нуклеотида. Контроль качества (встроенный в Illumina Genome Analyzer Pipeline) прошли 58 936 370 чтений. Количество ошибок в чтениях возрастает к 3' концу, поэтому для улучшения качества картирования все чтения были обрезаны с 3' конца до длины 55 нуклеотидов. Полученные чтения были картированы программой Eland на референсный геном hg18.

Покрытие хромосом по данным GAII

Приведены данные по покрытию каждой хромосомы чтениями платформы GAII. Картирование проводилось программой SOAPaligner/soap2, покрытие было получено с помощью программы soap.coverage. Обработаны уникально картированные чтения длиной 35 нуклеотидов; изначально длина чтений составляла 36 нуклеотидов, однако в связи с особенностями тех. процесса (поправка на т.н. phasing во время стадии basecalling'а) компания Illumina рекомендует не использовать данные с последнего цикла.

Общая статистика проведённого анализа

Представлена общая сравнительная статистика по количествам произведённых и картированных данных (для GAII и SOLiD), а также статистика по обнаруженным коротким (до 4 п.н.) инсерциям/делециям (только для GAII). Проценты указаны в отношении общего числа чтений отдельно для GAII и SOLiD. Для картирования использовались программы SOAPaligner/soap2 и Corona Lite matching pipeline, соответственно.

RSS-материал