Atelier Phylogénomique Phylogénie ARNr
From silico.biotoul.fr
Contents |
Liens
Introduction
Question 4.1: Quel-est l’intérêt de réaliser des arbres avec les séquences de l'ARNr? Quels-sont les ARNr présents dans les génomes de procaryotes? A quelle(s) sous-unité(s) ribosomique sont-ils associés?
Annotation des ARNr
Nous utilisons le logiciel rnammer pour annoter les ARNr (lsu, ssu, tsu) dans les génomes.
search_module rnammer srun --pty bash module load bioinfo/rnammer-1.2 rnammer -S bac -m ssu -f ~/work/Prochlorococcus/prokka/Aaaa/Aaaa_ssu.rrna < /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaaa.fas
Vous allez procéder comme précédemment, avec un script donné à sarray, pour réaliser le rnammer sur tous les fichiers et les trois types d'ARNr.
MSK
for s in Prochlorococcus Synechococcus do for t in ssu lsu tsu do for i in /home/formation/public_html/M2_Phylogenomique/data/$s/DNA/*.fas do genome=$(basename "$i" .fas) output="~/work/$s/prokka/"$genome"/"$genome"_"$t".rrna" echo "module load bioinfo/rnammer-1.2; rnammer -S bac -m $t -f $output < $i;" done done done > rnammer.sh cat rnammer.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 rnammer.sh squeue -l -u $USER
Vérifiez que les fichiers de sortie ne sont pas vide!
ls -l ~/work/*/prokka/Aaa*/Aaa*su*.rrna
Concaténer les fichiers:
mkdir ~/work/ProchlorococcusSynechococcus/rRNA cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*lsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*lsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*ssu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*ssu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas cat ~/work/Prochlorococcus/prokka/Aaa*/Aaa*tsu.rrna ~/work/Synechococcus/prokka/Aaa*/Aaa*tsu.rrna > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas
Question 4.2: Combien de gènes codant pour les gènes d'ARNr sont prédits dans les différentes souches? Commentez.
Alignements des ARNr
Mafft comporte deux options, Q-INS-i et X-INS-i, dans lesquelles les informations de structure secondaire de l'ARN sont prises en compte. Ces méthodes sont adaptées à un alignement global de séquences d'ARNc très divergentes. Pour les ARN relativement conservés, tels que les ARNr SSU et LSU, l'avantage de ces méthodes est faible (Katoh et al., 2103). Nous utilisons la version mafft pour des raisons de rapidités.
ssu
search_module mafft srun --pty bash module load bioinfo/mafft-7.313 mafft --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/ssu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/ssu.aln
lsu
srun --pty bash module load bioinfo/mafft-7.313 mafft --globalpair --thread 1 ~/work/ProchlorococcusSynechococcus/rRNA/lsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/lsu.aln
tsu
srun --pty bash module load bioinfo/mafft-7.313 mafft --globalpair ~/work/ProchlorococcusSynechococcus/rRNA/tsu.fas > ~/work/ProchlorococcusSynechococcus/rRNA/tsu.aln
Question 4.3: Pensez-vous que les alignements auraient été de meilleure qualité avec mafft-qinsi et l'option --maxiterate 1000?
Evaluation des Alignements
TCS est un score d'évaluation d'alignement qui permet d'identifier dans un MSA les positions les plus correctes. Il a été démontré que ces positions sont les plus susceptibles d'être structurellement correctes et aussi les plus informatives lors de l'estimation des arbres phylogénétiques. La procédure d'évaluation et de filtrage TCS est implémentée dans le package T-Coffee et peut être utilisée pour évaluer et filtrer tout alignement de séquences multiples tiers. TCS
search_module T-COFFEE
La commande est du type:
t_coffee -infile ~/work/ProchlorococcusSynechococcus/rRNA/ssu.aln -outfile essai -output score_ascii, aln, score_html
Créez un fichier script pour lancer t_coffee avec sarray.
MSK
for i in ~/work/ProchlorococcusSynechococcus/rRNA/*.aln; do ip=$(basename $i .aln) outfile="~/work/ProchlorococcusSynechococcus/rRNA/"$ip".ali" echo "module load bioinfo/T-COFFEE_11.00.8cbe486; t_coffee -infile $i -output score_ascii, aln, score_html -outfile $outfile;" done > t_coffee_TCS.sh
sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 t_coffee_TCS.sh squeue -l -u $USER
for i in ~/work/ProchlorococcusSynechococcus/rRNA/*.ali; do ip=$(basename $i .aln) echo $ip grep SCORE $i grep -P "^cons +:" $i done
Arbre avec seaview
Utilisez le logiciel seaview pour calculer les arbres avec les trois types ARNr.
Expérimentez plusieurs méthodes avec différents paramètres.
Question 4.4: Comparez les résultats obtenus.
Éditez les fichiers pour ne retenir qu'une seule copie de chaque gènes par souche. Renommer les séquences par le code à quatre lettres.
Concaténez les trois types d'ARNr et calculer l'arbre avec la méthode de votre choix.
Discutez ces résultats.
Code R pour obtenir une illustration des réarrangements présents entre deux arbres (source: phytools blog).
library('phytools') ta <-read.tree(file='all_mod-PhyML_tree.ph') tl <-read.tree(file='lsu_mod-PhyML_tree.ph') ts <-read.tree(file='ssu_mod-PhyML_tree.ph') plot.cophylo(cophylo(ta,tl,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue") plot.cophylo(cophylo(ta,ts,rotate=TRUE),fsize=0.7, link.type="curved", link.col="blue")
Arbre SSU avec IQ-TREE
IQ-tree doc.
IQ-TREE utilise ModelFinder (Kalyaanamoorthy et al., 2017) pour sélectionner le meilleur modèle adaptés aux données.
Pour seulement trouver le modèle le mieux adapté sans faire de reconstruction d'arbre, utilisez :
search_module iqtree module load bioinfo/iqtree-1.6.7 iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -m MF -redo -AIC
Les résultats sont dans le fichier : ssu_renamed_simplified.phy.iqtree.
grep 'Best-fit model' ssu_renamed_simplified.phy.iqtree
lsu ssu GTR+F+R2 tsu K2P+G4
Évaluation des supports de branches avec approximation bootstrap ultra-rapide (UFBoot):
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2bb1000bnni -m GTR+F+R2 -bb 1000 -redo -bnni -nt AUTO"
NOTE: les valeurs de support de l'UFBoot ont des interprétations différentes de celles du bootstrap non paramétrique. Suivez le lien UFBoot support values interpretation pour plus d'information.
Évaluer les supports de branche avec des tests de branche simple :
IQ-TREE propose le test du rapport approximatif de vraisemblance de type SH (Guindon et al., 2010).
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2bbalrt -m GTR+F+R2 -bb 1000 -alrt 1000 -redo -nt AUTO"
Évaluation des supports de branche avec un bootstrap non paramétrique standard :
iqtree -s ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy -pre ssuGTRFR2alrtb -m GTR+F+R2 -alrt 1000 -b 100 -redo -nt AUTO"
Arbre SSU avec FastTree
FastTree doc.
module load bioinfo/FastTree-2.1.10 fasttree -nt -gtr < ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified.phy > ~/work/ProchlorococcusSynechococcus/rRNA/ssu_renamed_simplified_fasttree.ph
Comparez et commentez les résultats obtenus avec IQ-TREE et FastTree.