GA ja proteiinit Suvi Karhu
AUTO3070 Geneettiset algoritmit
GA ja proteiinit Suvi Karhu
AUTO3070 Geneettiset algoritmit
Proteiinit
Aminohapoista koostuvia orgaanisia yhdisteitä, jotka toimivat mm.
Kudosten rakennusaineina, esim. kollageeni
Entsyymeinä, esim. laktaasi
Aineiden kuljettajina: esim. hemoglobiini
Vasta-aineina, esim. immunoglobuliinit
Reseptoreina
Myrkkyinä, esim. botuliini
Hormoneina, esim. insuliini
Geenien säätelijöinä
Proteiinisynteesi
Proteiinisynteesissä solu valmistaa proteiineja DNA:ssa olevan informaation perusteella
Vaiheet:
Transkriptiossa DNA:n nukleotidijärjestys kopioidaan lähetti-RNA:han
Lähetti-RNA siirtyy ribosomiin, missä nukleotidien järjestys käännetään polypeptidiketjun aminohappojärjestykseksi. (=Translaatio)
Proteiini laskostuu 3-ulotteiseen muotoonsa
GA ja proteiinit
Seuraavaksi muutama esimerkki proteiineihin liittyvistä GA:n sovelluksista…
Aminohappoaakkoston yksinkertaistaminen
Aminohappoaakkoston yksinkertaistaminen
Proteiinit muodostuvat 20 eri aminohaposta
-> proteiinin aminohapposekvenssi voidaan kuvata käyttämällä 20 kirjainta…
Erilaisia aminohapposekvenssejä on enemmän kuin erilaisia proteiinirakenteita
Kaksi eri sekvenssiä saattaa tuottaa samanlaisen proteiinin
Esim. …SKA… (seriini, lysiini, alaniini)
…TKA… (treoniini, lysiini, alaniini)
Seriinillä ja treoniinilla on samantapaiset kemialliset ominaisuudet -> ei välttämättä ole väliä kumpi niistä esiintyy sekvenssissä
Aminohappojen ominaisuuksia: http://fi.wikipedia.org/wiki/Aminohappo#Aminohappojen_ryhmittely
…joten
Proteiinin rakenne voidaan kuvata vähemmällä kuin 20 kirjaimella
Miksi tarvitaan?
Proteiinin rakenteen kuvaamisen yksinkertaistamiseksi
->Helpompi vertailla, miten eri aminohapot vaikuttavat proteiinin toimintaan
Ratkaisu?
Samankaltaisten aminohappojen ryhmittely (klusterointi, clustering)
Esim. yhdistetään seriini ja treoniini:
merkitään X:llä {S tai T}
Ongelma:
Mikä on optimaalinen ryhmittely?
~ Lukujen ositusongelma. NP-täydellinen eli laskennallisesti erittäin vaativa ongelma.
GA:ta on kokeiltu ongelman ratkaisemiseen…
GA
Aloituspopulaatio:
Luodaan satunnainen joukko ryhmittelyjä
Cross-over:
Valitaan satunnainen aminohappo, esim. a
Etsitään vanhemmilta ne klusterit, joissa äsken valittu aminohappo esiintyy
esim. {almrq}, {aps}
Yhdistetään nämä klusterit uudeksi klusteriksi
->{almpqs}
GA
Ei mutaatiota, koska satunnaisuus haitallista
Tulokset:
Suunnilleen yhtä hyviä kuin muilla menetelmillä saadut
GA nopeampi
Lähde
Palensky, M.; Ali, H.; , "A genetic algorithm for simplifying the amino acid alphabet," Bioinformatics Conference, 2003. CSB 2003. Proceedings of the 2003 IEEE , vol., no., pp. 598- 599, 11-14 Aug. 2003doi: 10.1109/CSB.2003.1227418URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1227418&isnumber=27543
Motiivien etsintä
Motiivien etsintä
Motiivit ovat lyhyehköjä nukleotidijaksoja tai aminohappojaksoja, jotka toistuvat usein DNA-sekvenssissä tai aminohapposekvenssissä
Motiiveilla on jokin tärkeä biologinen merkitys, esim. DNA-motiivit määrittelevät proteiinisynteesin aloittamisessa tarvittavien transkriptiofaktoreiden kiinnittymiskohdan DNA-kierteessä
Motiivien ei ole pakko toistua aina täysin samanlaisina, vaan ne voivat erota muutaman nukleotidin/aminohapon osalta
Esimerkki (koskee DNA:ta)
sekvenssi1 CTAGCGGACTAGG
sekvenssi2 TAGCTGGACTACT
sekvenssi3 CATCAGGAATAAG
->motiivi on GGAMTA, missä M tarkoittaa ”C tai A”
IUPAC ambiguity codes
Motiivien löytämiseksi on kehitetty erilaisia algoritmeja
Myös GA:ta voidaan käyttää
GA ja motiivien etsintä
Generoidaan satunnaisia motiiveja, lasketaan mitkä niistä parhaiten kuvaavat sekvenssissä toistuvia jaksoja, ja risteytetään parhaita yritteitä
Mutaatiossa vältetään muuttamasta motiivin ”parhaita kohtia”
Lähde:
Liu, F.F.M.; Tsai, J.J.P.; Chen, R.M.; Chen, S.N.; Shih, S.H.; , "FMGA: finding motifs by genetic algorithm," Bioinformatics and Bioengineering, 2004. BIBE 2004. Proceedings. Fourth IEEE Symposium on , vol., no., pp. 459- 466, 19-21 May 2004doi: 10.1109/BIBE.2004.1317378URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1317378&isnumber=29175
Proteiinin rakenteen ennustaminen
Proteiinin rakenteen ennustaminen
Proteiinin rakenteet:
Primäärirakenne = aminohappojärjestys
Sekundäärirakenne muodostuu, kun aminohappoketjuun tulee paikallisia rakenteita, kuten α-heliksi ja β-laskos.
Comments