TD1 Bioanalyse
From silico.biotoul.fr
(→EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés) |
(→EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés) |
||
(48 intermediate revisions not shown) | |||
Line 10: | Line 10: | ||
=EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques= | =EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques= | ||
- | '''1/''' | + | '''1/''' Cherchez la séquence P01308 dans [http://www.uniprot.org/ UniProt] |
*De quelle protéine s'agit-il ? chez quel organisme ? | *De quelle protéine s'agit-il ? chez quel organisme ? | ||
*Quelle est la taille de cette séquence ? | *Quelle est la taille de cette séquence ? | ||
*Que sont les "VARIANT" ? | *Que sont les "VARIANT" ? | ||
- | |||
*Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ? | *Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ? | ||
- | *Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et | + | *Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder '''Ancestor Chart''' |
- | '''Faire afficher le format UniProtKB en cliquant sur | + | '''Faire afficher le format UniProtKB en cliquant sur Download => Text en haut de la page''' |
''' | ''' | ||
Line 25: | Line 24: | ||
*Quels sont les résultats ? | *Quels sont les résultats ? | ||
- | * | + | *Cliquez sur Protein : la séquence est ici au format GenPept |
- | *Revenez aux résultats et cliquer sur Gene : | + | '''Faire afficher le format 'FASTA' de la séquence. |
- | + | *Revenez aux résultats et cliquer sur '''Gene''' : | |
+ | - Regardez l'entrée INS, en particulier la partie '''NCBI Reference Sequences''' : combien de variants d'épissage ? et dans '''Related Sequences''' : combien d'ARNm ?<br> | ||
+ | - Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ? | ||
=EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés= | =EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés= | ||
- | |||
- | '''1/''' Sur le serveur du | + | '''1/''' Sur le serveur du [http://www.ncbi.nlm.nih.gov/ NCBI], identifiez : |
- | *toutes les séquences de | + | *toutes les séquences de Phytophthora (oomycète, parasite de la pomme de terre) : combien sont-elles ? |
- | *les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux) | + | *les séquences protéiques de ''Phytophthora parasitica'' correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux) |
- | Pour cela | + | Pour faire cela, vous utilisez ENTREZ. Si vous ne voulez rechercher que dans la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced. |
+ | A l'aide de l'outil Search builder précisez les champs (Organism, Title...) et conjuguez vos requêtes. | ||
+ | Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots. | ||
+ | L'historique de vos requêtes est disponible en dessous et vous pouvez combiner des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT. | ||
''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...'' | ''NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...'' | ||
Line 46: | Line 49: | ||
Regardez la fiche de la séquence correspondante : | Regardez la fiche de la séquence correspondante : | ||
- | |||
*quel est le nom de cette protéine ? | *quel est le nom de cette protéine ? | ||
*dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ? | *dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ? | ||
Line 58: | Line 60: | ||
*quels domaines sont présents dans la protéine ? | *quels domaines sont présents dans la protéine ? | ||
*quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ? | *quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ? | ||
- | * | + | *Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ? |
*aller sur le lien db_xref vers UniProt O42830 : | *aller sur le lien db_xref vers UniProt O42830 : | ||
- à quelle section de UniProt appartient cette séquence ?<br> | - à quelle section de UniProt appartient cette séquence ?<br> | ||
- | |||
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ? | - quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ? | ||
=EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]= | =EXERCICE 3 : Quelques exemples de recherches avancées sur [http://www.uniprot.org/ Uniprot]= | ||
- | '''1/''' | + | '''1/''' Combien y a-t-il de séquences dans UniProt-SwissProt et combien dans UniProt-trEMBL ? |
+ | |||
+ | '''2/''' Cherchez les séquences protéiques d'insuline chez le chien : | ||
*combien sont référencées dans UniProt/SwissProt ? | *combien sont référencées dans UniProt/SwissProt ? | ||
*combien dans trEMBL ? | *combien dans trEMBL ? | ||
*afficher les séquences au format FASTA | *afficher les séquences au format FASTA | ||
- | ''' | + | '''3/''' Toujours sur UniProt, cherchez des séquences protéiques de dinosaures |
- | + | '''4/''' Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons. | |
- | + | *combien sont transmembranaires ? (choisir "Any automatic assertion") | |
- | '''4/''' | + | |
- | *combien sont transmembranaires ? | + | |
=EXERCICE 4 : Recherche dans des banques spécialisées= | =EXERCICE 4 : Recherche dans des banques spécialisées= | ||
- | 1/ | + | 1/ Navigation sur un génome avec [https://www.ncbi.nlm.nih.gov/genome/gdv GDV] |
- | + | *regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez... | |
- | + | *cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines | |
- | * | + | *modifiez l'affichage : dans [[File:roue.jpg]] => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites |
- | + | ||
- | * | + | 2/ Recherches dans les banques de domaines : |
- | * | + | *interrogez [http://www.ebi.ac.uk/interpro/ InterPro] par mots-clés (Search by text) pour chercher le domaine cytochrome b5 |
- | + | *interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI). | |
- | 2/ | + | (si la recherche met trop longtemps, utilisez Search by text avec P00174) |
- | *interrogez [http:// | + | |
- | * | + | |
- | + |
Current revision as of 12:20, 17 January 2023
Contents |
OBJECTIFS
- Etre capable de retrouver une séquence dont on connait le numéro d'accession dans sa banque - Savoir comment s'organisent les fiches des séquences, et où y chercher les informations - Etre capable de trouver une ou des séquences à l'aide de mots clés ciblant des champs spécifiques - Naviguer entre les banques, changer de format, télécharger des séquences
EXERCICE 1 : Accéder à une séquence prédéfinie dans les banques
1/ Cherchez la séquence P01308 dans UniProt
- De quelle protéine s'agit-il ? chez quel organisme ?
- Quelle est la taille de cette séquence ?
- Que sont les "VARIANT" ?
- Est-elle dans UniProt-trEMBL ou UniProt-SwissProt ?
- Dans quels processus intervient cette protéine ? Cliquer sur des liens de la GO et regarder Ancestor Chart
Faire afficher le format UniProtKB en cliquant sur Download => Text en haut de la page
2/ Sur le site du NCBI : chercher (via ENTREZ) la même séquence.
- Quels sont les résultats ?
- Cliquez sur Protein : la séquence est ici au format GenPept
Faire afficher le format 'FASTA' de la séquence.
- Revenez aux résultats et cliquer sur Gene :
- Regardez l'entrée INS, en particulier la partie NCBI Reference Sequences : combien de variants d'épissage ? et dans Related Sequences : combien d'ARNm ?
- Regardez la séquence génomique RefSeq NG_007114 (format Genbank) : combien d'exons composent ce gène ? combien constituent la séquence codante ?
EXERCICE 2 : Recherche dans les banques via l'utilisation de mots clés
1/ Sur le serveur du NCBI, identifiez :
- toutes les séquences de Phytophthora (oomycète, parasite de la pomme de terre) : combien sont-elles ?
- les séquences protéiques de Phytophthora parasitica correspondant à des éliciteurs (molécules capables d'induire les réponses immunitaires chez les végétaux)
Pour faire cela, vous utilisez ENTREZ. Si vous ne voulez rechercher que dans la banque protéique, cliquez sur Protein, puis utilisez l'option Advanced. A l'aide de l'outil Search builder précisez les champs (Organism, Title...) et conjuguez vos requêtes. Par défaut lorsque plusieurs mots clés sont utilisés c'est l'opérateur AND qui s'applique entre les mots. L'historique de vos requêtes est disponible en dessous et vous pouvez combiner des résultats de requêtes précédentes avec les mêmes opérateurs AND, OR et NOT.
NB : L'utilisation de * permet de chercher une famille de mots. Par exemple, avec elicit*, vous pourrez trouver elicitor, elicitate, elicitin...
2/ On s'intéresse maintenant à la séquence dont le numéro d'accession est CAA65843
Regardez la fiche de la séquence correspondante :
- quel est le nom de cette protéine ?
- dans quel journal scientifique les travaux concernant cette protéine ont-ils été publiés ?
- sous quel numéro cette publication est-elle référencée dans PubMed ?
- de combien d'acides aminés est composée cette protéine ?
3/ On s'intéresse maintenant aux références croisées, notées "db_xref" sur la fiche
- à quoi correspondent ces différentes références croisées ?
- quels domaines sont présents dans la protéine ?
- quelle est la fonction du domaine "IPR000254" ? est-il spécifique des oomycètes/champignons ou de toute autre espèce ?
- Dans quelles banques de domaines est référencé ce domaine ? avec quels numéros d'accession ?
- aller sur le lien db_xref vers UniProt O42830 :
- à quelle section de UniProt appartient cette séquence ?
- quelles sont les fonctions moléculaires correspondant à la Gene Ontology ? Donner les numéros des termes GO associés. L'annotation GO est-elle dans GenPept ?
EXERCICE 3 : Quelques exemples de recherches avancées sur Uniprot
1/ Combien y a-t-il de séquences dans UniProt-SwissProt et combien dans UniProt-trEMBL ?
2/ Cherchez les séquences protéiques d'insuline chez le chien :
- combien sont référencées dans UniProt/SwissProt ?
- combien dans trEMBL ?
- afficher les séquences au format FASTA
3/ Toujours sur UniProt, cherchez des séquences protéiques de dinosaures
4/ Trouvez le nombre de séquences de trEMBL avec des preuves au niveau protéique, chez des organismes eucaryotes n'appartenant pas aux champignons.
- combien sont transmembranaires ? (choisir "Any automatic assertion")
EXERCICE 4 : Recherche dans des banques spécialisées
1/ Navigation sur un génome avec GDV
- regardez le génome humain en cliquant à droite sur Browse genome : déplacez-vous, zoomez, dé-zoomez...
- cherchez le gène INS : regardez la structure du gène. Cliquez sur INS[+8] pour faire afficher les variants et les protéines
- modifiez l'affichage : dans => configure tracks => Sequence => cochez Six frame translation, et Pst1 Recognition sites
2/ Recherches dans les banques de domaines :
- interrogez InterPro par mots-clés (Search by text) pour chercher le domaine cytochrome b5
- interrogez maintenant InterPro par séquence avec le format FASTA de la séquence P00174 (à chercher sur UniProt ou au NCBI).
(si la recherche met trop longtemps, utilisez Search by text avec P00174)