Atelier Phylogénomique Conservation entre souches
From silico.biotoul.fr
Contents |
Liens
- retour à Atelier Phylogénomique
Genome pairs
BlastN par pairs
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
Les résultats sont dans le repertoire:
mkdir ~/work/Prochlorococcus/BlastN
Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.
Exemple avec une paire de génomes:
search_module blast srun --pty bash module load bioinfo/ncbi-blast-2.7.1+ blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.
- Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
- et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
MSK
left="" for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac' do if [ "$left" != "" ]; then output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output"; fi left=$i; done > blastn_pairs.sh
Vérifier le script et lancer le avec sarray
cat blastn_pairs.sh sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
Vérifier l'exécution des blastn
squeue -l -u <user>
Lister les fichiers obtenus:
ls -l ~/work/Prochlorococcus/BlastN
genoplotR
Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.
Installation du package genoPlotR
srun --pty bash module load system/R-3.5.1 R install.packages('genoPlotR') ... * installing *source* package ‘genoPlotR’ ... library(genoPlotR)
Sélectionner France (Lyon 2) [https] comme miroir CRAN.
Mise en œuvre
genoplotR nécessite plusieurs objets:
- dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
- comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
- annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
- tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images srun --pty bash module load system/R-3.5.1 Rscript ~/work/scripts/genoplot_blastn_links.R
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
ACT
Il est également possible d'utiliser le logiciel act (documentation).
Question 1.3: Commentez les résultats obtenus avec genoplotR. Que pensez-vous de la conservation des séquences des génomes?