L2-L3 Bioinfo - TP Banques de données et analyse de séquences
From silico.biotoul.fr
(→Exercice 3: Confrontation d'annotation) |
(→Exercice 4: Recherche de séquences similaires à une séquence d'intérêt) |
||
Line 69: | Line 69: | ||
--> | --> | ||
- | == Exercice | + | == Exercice 3: Recherche de séquences similaires à une séquence d'intérêt == |
En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (''Oryza sativa'') pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous : | En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (''Oryza sativa'') pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous : |
Revision as of 10:15, 12 January 2021
Contents |
Introduction
Les TPs précédents ont permis de mettre en évidence l'implication de la séquence At5g46330 d'Arabidopsis thaliana dans les phénomènes analysés. L'idée est maintenant d'obtenir le maximum d'informations sur cette séquence (fonction, localisation, existence d'homologues, ...) afin d'établir une hypothèse quant au rôle d'At5g46330 d' A. thaliana.
Exercice 1: Analyse d'une séquence protéique
L'idée ici est de définir la fonction, la localisation subcellulaire et les processus physiologiques dans lesquels pourraient intervenir la protéine au sein d' A. thaliana et de confronter notre analyse aux annotations présentes dans les banques de données.
1/ Recherche de domaines protéiques
- utilisez InterProScan à l'EBI (Services => InterProScan) pour chercher des domaines connus sur cette séquence
- notez la position des domaines identifiés dans la banque de domaines Pfam
- quelle pourrait être la fonction de cette séquence d'Arabette ?
2/ Sur le site d'Expasy définissez
- le poids moléculaire et le point isoélectrique de la protéine avec Compute pI/MW
- regardez la topologie prédite pour cette protéine, et notez les positions, avec Phobius
- conclure quant à la localisation subcellulaire de cette protéine d'Arabette
Exercice 2: Confrontation d'annotation
Nous allons vérifier votre annotation fonctionnelle de la protéine avec ce qui est connu dans les banques de données
1/ Sur le site de l'EBI référençant, entre autres, la banque de données "UniProtKb"
- Aller sur la fiche descriptive correspondant à la protéine d'Arabette
- Quelle est la localisation subcellulaire et la topologie de la protéine ?
- Des domaines protéiques sont-ils indiqués ?
- Quelle est la fonction de cette protéine (Regardez les annotations de la Gene Ontology "GO")
- Les données de la fiche UniProt sont-elles en accord avec votre annotation ?
Exercice 3: Recherche de séquences similaires à une séquence d'intérêt
En parallèle à l'étude sur Arabette, un autre laboratoire de recherche a isolé un locus situé sur le chromosome 4 du riz (Oryza sativa) pouvant jouer un rôle majeur dans les interactions riz-microrganismes. Ce locus coderait pour quatre protéines dont celle présentée ci-dessous :
>OsProt MERNKFASKMSQHYTKTICIAVVLVAVLFSLSSAAAAGSGAAVSVQLEALLEFKNGVADD PLGVLAGWRVGKSGDGAVRGGALPRHCNWTGVACDGAGQVTSIQLPESKLRGALSPFLGN ISTLQVIDLTSNAFAGGIPPQLGRLGELEQLVVSSNYFAGGIPSSLCNCSAMWALALNVN NLTGAIPSCIGDLSNLEIFEAYLNNLDGELPPSMAKLKGIMVVDLSCNQLSGSIPPEIGD LSNLQILQLYENRFSGHIPRELGRCKNLTLLNIFSNGFTGEIPGELGELTNLEVMRLYKN ALTSEIPRSLRRCVSLLNLDLSMNQLAGPIPPELGELPSLQRLSLHANRLAGTVPASLTN LVNLTILELSENHLSGPLPASIGSLRNLRRLIVQNNSLSGQIPASISNCTQLANASMSFN LFSGPLPAGLGRLQSLMFLSLGQNSLAGDIPDDLFDCGQLQKLDLSENSFTGGLSRLVGQ LGNLTVLQLQGNALSGEIPEEIGNMTKLISLKLGRNRFAGHVPASISNMSSLQLLDLGHN RLDGVFPAEVFELRQLTILGAGSNRFAGPIPDAVANLRSLSFLDLSSNMLNGTVPAALGR LDQLLTLDLSHNRLAGAIPGAVIASMSNVQMYLNLSNNAFTGAIPAEIGGLVMVQTIDLS NNQLSGGVPATLAGCKNLYSLDLSGNSLTGELPANLFPQLDLLTTLNISGNDLDGEIPAD IAALKHIQTLDVSRNAFAGAIPPALANLTALRSLNLSSNTFEGPVPDGGVFRNLTMSSLQ GNAGLCGGKLLAPCHGHAAGKKRVFSRTGLVILVVLIALSTLLLLMVATILLVSYRRYRR KRRAADIAGDSPEAAVVVPELRRFSYGQLAAATNSFDQGNVIGSSNLSTVYKGVLAGDAD GGMVVAVKRLNLEQFPSKSDKCFLTELATLSRLRHKNLARVVGYAWEAGKIKALVLDYMV NGDLDGAIHGGAAAPPPAPSRWTVRERLRVCVSVAHGLVYLHSGYDFPVVHCDVKPSNVL LDGDWEARVSDFGTARMLGVHLPAAANAAAQSTATSSAFRGTVGYMAPEFAYMRTVSTKV DVFSFGVLAMELFTGRRPTGTIEEDGVPLTLQQLVDNAVSRGLDGVHAVLDPRMKVATEA DLSTAADVLAVALSCAAFEPADRPDMGAVLSSLLKMSKLVGED
1/ Sur le site du NCBI
- rechercher si cette séquence de riz est déjà répertoriée dans les bases de données via une analyse BlastP en sélectionnant "Database: non-redundant protein sequence (nr)"
- cette séquence présente-t-elle des similarités avec d'autres séquences de plantes ?
- refaites une analyse BlastP mais en sélectionnant 'Database: UniprotKb/swissProt (swissprot)'
- que remarquez-vous ?
- que pouvez-vous émettre comme hypothèses quant à la fonction et la localisation de cette protéine de riz ? Vous pouvez confrontez votre hypothèse avec la fiche descriptive associée à la protéine
Annexes au TP
>FLS2_ARATH MKLLSKTFLILTLTFFFFGIALAKQSFEPEIEALKSFKNGISNDPLGVLSDWTIIGSLRH CNWTGITCDSTGHVVSVSLLEKQLEGVLSPAIANLTYLQVLDLTSNSFTGKIPAEIGKLT ELNQLILYLNYFSGSIPSGIWELKNIFYLDLRNNLLSGDVPEEICKTSSLVLIGFDYNNL TGKIPECLGDLVHLQMFVAAGNHLTGSIPVSIGTLANLTDLDLSGNQLTGKIPRDFGNLL NLQSLVLTENLLEGDIPAEIGNCSSLVQLELYDNQLTGKIPAELGNLVQLQALRIYKNKL TSSIPSSLFRLTQLTHLGLSENHLVGPISEEIGFLESLEVLTLHSNNFTGEFPQSITNLR NLTVLTVGFNNISGELPADLGLLTNLRNLSAHDNLLTGPIPSSISNCTGLKLLDLSHNQM TGEIPRGFGRMNLTFISIGRNHFTGEIPDDIFNCSNLETLSVADNNLTGTLKPLIGKLQK LRILQVSYNSLTGPIPREIGNLKDLNILYLHSNGFTGRIPREMSNLTLLQGLRMYSNDLE GPIPEEMFDMKLLSVLDLSNNKFSGQIPALFSKLESLTYLSLQGNKFNGSIPASLKSLSL LNTFDISDNLLTGTIPGELLASLKNMQLYLNFSNNLLTGTIPKELGKLEMVQEIDLSNNL FSGSIPRSLQACKNVFTLDFSQNNLSGHIPDEVFQGMDMIISLNLSRNSFSGEIPQSFGN MTHLVSLDLSSNNLTGEIPESLANLSTLKHLKLASNNLKGHVPESGVFKNINASDLMGNT DLCGSKKPLKPCTIKQKSSHFSKRTRVILIILGSAAALLLVLLLVLILTCCKKKEKKIEN SSESSLPDLDSALKLKRFEPKELEQATDSFNSANIIGSSSLSTVYKGQLEDGTVIAVKVL NLKEFSAESDKWFYTEAKTLSQLKHRNLVKILGFAWESGKTKALVLPFMENGNLEDTIHG SAAPIGSLLEKIDLCVHIASGIDYLHSGYGFPIVHCDLKPANILLDSDRVAHVSDFGTAR ILGFREDGSTTASTSAFEGTIGYLAPEFAYMRKVTTKADVFSFGIIMMELMTKQRPTSLN DEDSQDMTLRQLVEKSIGNGRKGMVRVLDMELGDSIVSLKQEEAIEDFLKLCLFCTSSRP EDRPDMNEILTHLMKLRGKANSFREDRNEDREV
Résultats InterProScan