- 1 из 11
- ››
Были проанализированы возможные варианты взаимного расположения и направления парно-концевых чтений. Первый и основной вариант — чтения картируются на референсный геном в соответствии с логикой приготовления библиотеки. Для платформы GAII это означает, что два чтения ориентированы навстречу друг другу (т.е., 5'→3' и 5'←3'). Для SOLiD же стандартом являются сонаправленные чтения (5'→3' и 5'→3'). Второй и третий варианты — это отход от нормального расположения, возможный в том случае, если исследуемый геном имеет существенные перестройки в рассматриваемом районе — тогда порядок чтений будет нарушен один или два раза, соответственно.
Произведена проверка совпадений между аллельными вариантами однонуклеотидных полиморфизмов (ОП, SNP), определенных с помощью секвенирования и генотипирования на микроматрицах ДНК.
С помощью микроматриц ДНК Illumina 660W-quad в исследованном геноме были определены аллельные варианты 588 702 полиморфизмов (далее они обозначаются как мОП). В свою очередь, полученные при секвенировании чтения были картированы на референсный геном hg18; для тех из них, координаты которых пересекались с координатами мОП, и был произведён сравнительный анализ. Количество ОП, на которые было откартировано хотя бы одно чтение на платформах GAII и SOLiD, составило 581 596, или 98,8% от общего количества мОП.
В результате секвенирования транскриптома было получено 73 908 846 непарных чтений длиной 72 нуклеотида. Контроль качества (встроенный в Illumina Genome Analyzer Pipeline) прошли 58 936 370 чтений. Количество ошибок в чтениях возрастает к 3' концу, поэтому для улучшения качества картирования все чтения были обрезаны с 3' конца до длины 55 нуклеотидов. Полученные чтения были картированы программой Eland на референсный геном hg18.
Приведены данные по покрытию каждой хромосомы чтениями платформы GAII. Картирование проводилось программой SOAPaligner/soap2, покрытие было получено с помощью программы soap.coverage. Обработаны уникально картированные чтения длиной 35 нуклеотидов; изначально длина чтений составляла 36 нуклеотидов, однако в связи с особенностями тех. процесса (поправка на т.н. phasing во время стадии basecalling'а) компания Illumina рекомендует не использовать данные с последнего цикла.
Представлена общая сравнительная статистика по количествам произведённых и картированных данных (для GAII и SOLiD), а также статистика по обнаруженным коротким (до 4 п.н.) инсерциям/делециям (только для GAII). Проценты указаны в отношении общего числа чтений отдельно для GAII и SOLiD. Для картирования использовались программы SOAPaligner/soap2 и Corona Lite matching pipeline, соответственно.