Atelier Phylogénomique Conservation entre souches
From silico.biotoul.fr
m (→Toutes les paires de génomes) |
m (→Toutes les paires de génomes) |
||
(3 intermediate revisions not shown) | |||
Line 30: | Line 30: | ||
# et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes. | # et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes. | ||
MSK | MSK | ||
- | + | ||
<syntaxhighlight lang="bash"> | <syntaxhighlight lang="bash"> | ||
left="" | left="" | ||
Line 43: | Line 43: | ||
done > blastn_pairs.sh | done > blastn_pairs.sh | ||
</syntaxhighlight> | </syntaxhighlight> | ||
- | + | ||
Vérifier le script et lancer le avec ''sarray'' | Vérifier le script et lancer le avec ''sarray'' | ||
Line 62: | Line 62: | ||
Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes. | Nous allons utiliser [http://genoplotr.r-forge.r-project.org/ genoplotR] pour visualiser les similarités entre les paires de génomes. | ||
====Installation du package genoPlotR==== | ====Installation du package genoPlotR==== | ||
- | < | + | <source lang='bash'> |
srun --pty bash | srun --pty bash | ||
module load system/R-3.5.1 | module load system/R-3.5.1 | ||
Line 70: | Line 70: | ||
* installing *source* package ‘genoPlotR’ ... | * installing *source* package ‘genoPlotR’ ... | ||
library(genoPlotR) | library(genoPlotR) | ||
- | </ | + | </source> |
Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN. | Sélectionner ''France (Lyon 2) [https]'' comme miroir CRAN. | ||
+ | |||
====Mise en œuvre==== | ====Mise en œuvre==== | ||
genoplotR nécessite plusieurs objets: | genoplotR nécessite plusieurs objets: | ||
Line 106: | Line 107: | ||
Que pensez-vous de la conservation des séquences des génomes? | Que pensez-vous de la conservation des séquences des génomes? | ||
</pre> | </pre> | ||
+ | |||
+ | ---- | ||
+ | |||
+ | *retour à [http://silico.biotoul.fr/p/Atelier_Phylog%C3%A9nomique#Conservation_de_s.C3.A9quence_entre_souches_de_Prochlorococcus Atelier Phylogénomique] |
Current revision as of 15:14, 5 December 2022
Contents |
Liens
- retour à Atelier Phylogénomique
Genome pairs
BlastN par pairs
Afin d'estimer les conservations entre les différents génomes, nous allons les comparer par paire de génomes dans l'ordre suivant, à l'aide de blastn:
'Aaab', 'Aaag', 'Aaaj', 'Aaaf', 'Aaak', 'Aaae', 'Aaai', 'Aaad', 'Aaaa', 'Aaah', 'Aaal', 'Aaac'
Les résultats sont dans le repertoire:
mkdir ~/work/Prochlorococcus/BlastN
Nous allons utiliser l'option BLAST-2-Sequences de blastn en précisant -subject <File_In>.
Une paire de génomes
Exemple avec une paire de génomes:
search_module blast srun --pty bash module load bioinfo/ncbi-blast-2.7.1+ blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaab.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/Aaag.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out ~/work/Prochlorococcus/BlastN/Aaab_vs_Aaag.tab
À la fin du programme, déconnectez-vous du nœud (exit) pour revenir au frontal genologin2.
Toutes les paires de génomes
Nous allons exécuter la même commande sur toutes les paires consécutives de génomes dans l'ordre listés ci-dessus. Nous allons utiliser sarray pour soumettre ces commandes en même temps sur le cluster. Vous pouvez vous référer à "How to generate an sarray command file with bash for single (fastq) file ?" sur la page http://bioinfo.genotoul.fr/index.php/faq/bioinfo_tips_faq/ pour vous aider dans cette tâche.
Nous allons écrire un script shell pour créer le fichier à soumettre par sarray.
- Dans un premier temps vous devez utiliser une boucle for pour construire les paires de génomes adjacents dans la liste ci-dessus.
- et pour chaque paires reproduire la commande donnée en exemple en changeant les noms des génomes.
MSK
left="" for i in 'Aaab' 'Aaag' 'Aaaj' 'Aaaf' 'Aaak' 'Aaae' 'Aaai' 'Aaad' 'Aaaa' 'Aaah' 'Aaal' 'Aaac' do if [ "$left" != "" ]; then output="~/work/Prochlorococcus/BlastN/"$left"_vs_"$i.tab echo "module load bioinfo/ncbi-blast-2.7.1+; blastn -query /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$left.fas -subject /home/formation/public_html/M2_Phylogenomique/data/Prochlorococcus/DNA/$i.fas -evalue 1e-05 -outfmt 6 -num_threads 1 -out $output"; fi left=$i; done > blastn_pairs.sh
Vérifier le script et lancer le avec sarray
cat blastn_pairs.sh sarray -J mkdb -o %j.out -e %j.err -t 01:00:00 --cpus-per-task=1 blastn_pairs.sh
Vérifier l'exécution des blastn
squeue -l -u <user>
Lister les fichiers obtenus:
ls -l ~/work/Prochlorococcus/BlastN
genoplotR
Nous allons utiliser genoplotR pour visualiser les similarités entre les paires de génomes.
Installation du package genoPlotR
srun --pty bash module load system/R-3.5.1 R install.packages('genoPlotR') ... * installing *source* package ‘genoPlotR’ ... library(genoPlotR)
Sélectionner France (Lyon 2) [https] comme miroir CRAN.
Mise en œuvre
genoplotR nécessite plusieurs objets:
- dna_seg: un objet dna_seg est un ensemble de gènes ou d'éléments le long d'un génome, à représenter sur une carte. Nous allons utiliser les fichiers en format gbk créés par prokka.
- comparison: une comparaison est un ensemble de similitudes, représentant la comparaison entre deux segments d'ADN. Nous allons utiliser les résultats des blastn entre paires de genomes.
- annotation: un objet d'annotation est utilisé pour annoter un segment d'ADN. Nous ne l'utilisons pas ici.
- tree: un arbre au format Newick qui peut être analysé à l'aide du paquetage ade4. Nous l'utiliserons plus tard!
mkdir ~/work/Prochlorococcus/images srun --pty bash module load system/R-3.5.1 Rscript ~/work/scripts/genoplot_blastn_links.R
Pour visualiser les fichiers pdf, il est préférable d'utiliser votre machine en P0. Pensez à faire des rsync avant! Placez-vous dans le répertoire racine de votre TD (au dessus de work).
evince work/Prochlorococcus/images/genoplot_blastn_links.pdf
ACT
Il est également possible d'utiliser le logiciel act (documentation).
Question 1.3: Commentez les résultats obtenus avec genoplotR. Que pensez-vous de la conservation des séquences des génomes?
- retour à Atelier Phylogénomique