Programlar hakkında genel bilgiye geçmeden evvel bir konunun altını çizmekte fayda vardır. Genellikle filogenetik alanında çalışan akademisyenler ile bu alanda program geliştirenler ezici çoğunluk ile MAC kullanmaktadırlar. Her ne kadar programların PC versiyonları mevcut ise de MAC versiyonları her zaman daha ileri ve üst sürümdürler. Filogenetik ağaçların eldesinde en yaygın kullanılan sadece 3 program hakkında bilgi vereceğiz. Ne var ki bu programların önerdikleri ağaçları bilgisayarınızda
Biyoinformatik, biyolojik bilgilerin yaratılması ve saklanması için veritabanlarının oluşturulmasıdır.Bu konudaki çalışmaların çoğu biyolojik verilerin analizi ile ilgilidir. Artan sayıdaki projelerde biyolojik bilgilerin organizasyonu gerekmektedir. Bu alanda oluşturulan veritabanlarının büyük bir kısmını nükleik asitler oluşturmaktadır.
Milyonlarca nükleotidin depolanması ve organizasyonu için veritabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır.
Biyoinformatik'te nükleotid dizi bilgilerinin organizasyonu ve depolanması görevini üstlenmiş üç kuruluş vardır:
Genbankası (GenBank),
Avrupa Moleküler Biyoloji Laboratuvarı (EMBL)
DNA Japonya veritabanıdır (DDBJ)
Dizi bilgileri veritabanlarında iki formda bulunur;
Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi
İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FASTA formatıdır. Accession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir ve dizi veritabanına ilk kez girildiğinde verilir.
Accession number (GenBank): Bir dizi GenBank’a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur.
Accession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (NT_123456).
* NT_123456 birleştirilmiş kontigler
* NM_123456 mRNA’lar (mRNA’dan oluşturulmuş cDNA’lar)
* NP_123456 proteinler
* NC_123456 kromozomlar
BLAST: (Basic Local Alignment Search Tool): Aynı yada farklı organizmalar arasında nukleotid yada protein dizisi karşılaştırılması ve benzer bölgelerin araştırılması için kullanılan yüksek hızda bir bilgisayar programı.
CDS: Bir nukleotid dizisinin kodonları oluşturan bölgesi yada kodlayan dizi.
Conserved Sequence: Bir DNA molekülünde (bir proteindeki Aa dizisinde) evrim süresince değişmeden kalmış olan baz dizisi.
Contig: Bir kromozomun üst üste çakışma gösteren, klonlanmış farklı DNA parçaları grubu.
Domain: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası.
EST (Expressed Sequence Tag): Bir Cdna molekülünün, bir genin kimliği olarak kullanılabilecek kısa bir parçası. Genlerin konumlanmasından ve haritalanmasında kullanılır.
Motif: Protein dizisi içinde kısa, korunmuş bir bölge. Motifler genellikle domainlerin yüksek derecede korunmuş bölgeleridir.
1. GenBank DNA Dizi Formatı
2. Avrupa Moleküler Biyoloji Laboratuvarı (EMBL ) Veri Kütüphanesi Formatı
3. FASTA Sekans Formatı
4. National Biomedical Research Foundation /
Protein Information Resource Sekans Formatı
5. Stanford Üniversitesi / Intelligenetics Sekans Formatı
6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatı
7. National Biomedical Research Vakfı / Protein
Information Resource’dan Elde edilen Sekans
Dosyasının Formatı
8. Genetik Veri Çevresi ( GDE ) Sekans Formatı
Gen Bank DNA Dizi Formatı: Girilen her dizinin tanımlayıcı bilgileri verilir. Bu bilgiler her satırda ilk bilgi olarak, her biri bir belirleyici ile birlikte gruplara ayrılmış şekilde yazılır.
Örneğin; referans için RF gibi,
LOCUS lokusun ismi
DEFINITION girişin tanımı
ACCESSION orijinal kaynağın accession numarası
KEYWORDS bu girişin karşı referanslarının yapılabilmesi için anahtar kelimeler
SOURCE DNA’nın elde edildiği organizma
Avrupa Moleküler Biyoloji Laboratuvarı Veri Kütüphanesi Formatı (EMBL)
ID veritabanındaki dizi için kimlik numarası
AC dizinin başlangıcını gösteren accession number
DT girişin ve modifikasyonların tarihi
KW anahtar kelimeler
OS, OC kaynak organizma
#NEXUS
[This is an example of the Old NEXUS File Format used by MacClade
3.0 File: EX##old1.nex]
BEGIN DATA;
DIMENSIONS NTAX=4 NCHAR=55;
FORMAT MISSING=? GAP=- DATATYPE=DNA ;
MATRIX
seq_1 ATATACGGGGTTA---TTAGA----AAAATGTGTGTGTGTTTTTTTTTTCATGTG
seq_2 ATATAC--GGATA---TTACA----AGAATCTATGTCTGCTTTCTTTTTCATGTG
seq_3 ATATACGGGGATA---TTATA----AGAATGTGTGTGTGTTTTTTTTTTCATGTG
seq_4 ATATACGGGGATA---GTAGT----AAAATGTGTGTGTGTTTTTTTTTTCATGTG
;
END;
Dizi hizalamaları çeşitli metin-tabanlı dosya formatlarında saklanabilir, bunların çoğu ilk olarak belli bir hizalama programı veya uygulaması ile birlikte geliştirilmiştir. Çoğu Web-temelli araçlar sınırlı sayıda girdi ve çıktı format seçeneği verirler, örneğin FASTA formatı ve GenBank formatı gibi, ve program çıktısı genelde kolayca değiştirilemez. Çeşitli format dönüştürme programları mevcuttur, bunlardan READSEQ ve EMBOSS gibi bazılarının grafik arayüzü veya komut satır arayüzü vardır, buna karşın BioPerl, BioRuby gibi program paketlerinin buna olanak veren kendi fonksiyonları vardır
Comments