Newest Viewed Downloaded

استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلات DNA

استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلات DNA

مقدمة

إقتراح موضوع إطروحة لنيل شهادة الماجستير من جامعة حلب كلية الهندسة الكهربائية والإلكترونية قسم الحاسبات للطالب خالد الشمعة بالتعاون مع المركز الدولي للبحوث الزراعية في المناطق الجافة ICARDA. عنوان الأطروحة: استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلات DNA Using Hidden Markov Models to finding gene in DNA sequences الإشراف للدكتور عامر بوشي من جامعة حلب كلية الهندسة الكهربائية والإلكترونية قسم الحاسبات، والدكتور Murari Singh من المركز الدولي للبحوث الزراعية في المناطق الجافة ICARDA.

هدف البحث

يهدف هذا البحث إلى تطوير برمجية بلغة Perl قادرة على قراءة كتل بيانات تسلسلات DNA النصية الخام والمخزنة وفق التنسيقات المعيارية المخصصة لهذا النوع من البيانات، ومن ثم البحث ضمنها عن القطع التي تمثل الجينات الوظيفية للكائن الحي وذلك من بين ركام الملايين من الأحرف الصماء، باستخدام نماذج ماركوف المخفية. سنتطرق في هذا العرض التقديمي إلى النقاط التالية: توطئة بيولوجية (إحيائية). شرح المسألة المراد حلها. الطرائق والأدوات التي سيتم استخدامها.

توطئة بيولوجية (إحيائية)

الحمض الريبي النووي المنقوص الأكسجين DNA

يتألف الحمض الريبي النووي المنقوص الأكسجين الدنا DNA من أربع قواعد كيميائية أو لبنات يرمز لها بالاختصارات (A, T, C, G)، وهي أشبه ما تكون بشيفرة رباعية تتضمن المجموعة الكاملة من التعليمات اللازمة لبناء الكائن الحي. يبنى شريط الدنا DNA من شفعين مجدولين مؤلفين من تلك اللبنات بحيث تتقابل فيه كل A فقط مع T وكل C فقط مع G، حيث يتوزع هذا الشريط المجدول على عدة بنى مستقلة تدعى الصبغيات وتتوضع في نواة كل خلية (للإنسان 23 صبغي). يختلف طول شريط الدنا DNA الإجمالي من كائن إلى آخر، ويبلغ طوله في الإنسان 3.2 بليون قاعدة.

الجينات Genes

يطلق اسم الجين على الجزء الوظيفي من تسلسل الدنا DNA والذي يتضمن تعليمات تستخدم في بناء بروتين معين ذي وظيفة محددة (عدد الجينات في الإنسان هو 25000 جين تقريبا). لا تشكل المناطق التي تقوم بترميز الجينات ضمن الصبغيات سوى نسبة ضئيلة من الطول الإجمالي لسلسلة الدنا DNA (3% في حالة البشر). تتبعثر الجينات ضمن الصبغيات على امتداد جزيء الدنا DNA، فيما لم يتم التعرف على وظيفة ما تبقى من شريط الدنا DNA بشكل علمي حتى الآن.

الأحماض الأمينية Amino Acids

تستخدم الكائنات الحية 20 حمضا أمينيا مختلفا كأحجار بناء لآلاف البروتينات الموجودة في أجسادها. تختلف هذه الحموض الأمينية بأشكالها وأحجامها وصفاتها الكيميائية مثل محبتها أو كراهيتها للماء. تنشأ فيما بين قواعد الحموض الأمينية رابطة تدعى بالرابطة الببتيدية وذلك حين اقتراب قواعد تلك الحموض الأمينية من بعضها البعض بشكل كاف، مما يساعد في بناء سلاسل طويلة منها ذات هيكل قوي ومرن في ذات الآن.

الرحلة من الجين إلى البروتين (1)

لتحويل شيفرات الجينات الموجودة في جزيء الدنا DNA ضمن الصبغيات إلى بروتينات فاعلة يتم استخدام وسيط هو الرنا المرسال mRNA. يقوم الرنا المرسال mRNA بنسخ شيفرة الجين المطلوب وذلك من خلال إنشاء متمم لسلسلة الدنا DNA. ضمن جزيء الرنا RNA يتم بشكل عام استبدال القاعدة الكيميائية T بالقاعدة الكيميائية U المكافئة من حيث الوظيفة في تشافعها مع القاعدة الكيميائية A. يتاح لجزيئات الرنا المرسال mRNA مغادرة نواة الخلية إلى جسمها لتتم عملية تصنيع البروتينات هنالك.

الرحلة من الجين إلى البروتين (2)

للكائنات الحية نظام تشفير ترمز فيه كل ثلاثة قواعد متتالية إلى أحد الحموض الأمينية. من المعلوم أننا نستطيع إنشاء 64 تشكيل ممكن لثلاثيات مبنية من أربعة قواعد مختلفة، في حين أن لدينا 20 حمضا أمينيا فقط بالإضافة إلى رمزي البدء والنهاية، مما يعني أن لبعض الأحماض الأمينية أكثر من ترميز. لقد أثبتت الدراسات العلمية اللاحقة أن آلية التشفير هذه بديعة من حيث قدرتها على تحمل الأخطاء والطفرات بحيث نحصل في النهاية على بروتين سوي من حيث الوظيفة.

الرحلة من الجين إلى البروتين (3)

تتم عملية بناء البروتينات الفعلية ضمن الريبوزوم، وهو جسيم من مكونات الخلية يرتبط مع سلاسل رنا المرسال mRNA الخارجة من نواة الخلية، ليقوم بتفسير شيفراتها إلى سلاسل الأحماض الأمينية. تستعين هذه العملية بجزيء رنا الناقل tRNA والذي يمتلك من جهة مفتاحا ذي ثلاث قواعد، ويرتبط من الجهة الأخرى بالحمض الأميني الموافق لذلك المفتاح. يسمح وجود الأحماض الأمينية قرب بعضها في الريبوزوم بتشكيل الرابطة الببتيدية ومن ثم تحرر الرنا الناقل tRNA.

آلية ربط الأحماض الأمينية في الريبوزوم Rebosome

أحماض أمينية تشكل سلسلة ببتيدية ريبوزوم رنا الناقل الرمز المتمم الرمز UAC AUG Tyr GUA CAU Val شريط رنا المرسال 3’ 5’ His Met Pro GGA CCU

تشكيل البروتينات Proteins

مع نمو سلسلة الأحماض الأمينية تبدأ بنية البروتين الثلاثية الأبعاد بالتشكل، وذلك تبعا للخصائص الكيميائية والحيزية للأحماض الأمينية وتسلسلها. إن بنية البروتين الثلاثية الأبعاد هي التي تحدد وظيفته، وحين تحدث طفرة تغير أحد تلك الأحماض الأمينية فإن وظيفة البروتين ذاته قد تتأثر. يعتبر مرض فقر الدم المنجلي مثال على ذلك، حيث يؤدي تغير قاعدة وحيدة ضمن رنا المرسال mRNA إلى تكوين بروتين خضاب دم مشوه وعاجز عن حمل الأكسجين بكفاءة.

شرح المسألة المراد حلها

شكل وطبيعة بيانات الدخل

تقدم بيانات الدخل على شكل ملفات نصية تتضمن سيلا طويلا من تسلسلات الأحرف A, T, C, G الناتجة عن سلسلة جزيء الدنا DNA المدروس، وقد تتضمن تلك الملفات بعض الترويسات التي تتضمن معلومات إضافية، كالرقم المعرف ومصدر المعلومات.

مسألة تحديد المقاطع التي تتضمن الجينات

تعتبر هذه المهمة تحدياً صعباً بحد ذاته، إذ تفشل معظم أساليب البحث المعتادة والتي صممت لمعالجة النصوص في مثل تلك المهمة وذلك نظراً لأن تفسير تسلسلات أحرف DNA هو عملية أقل صرامة مقارنة باللغة المكتوبة، فليس من النادر أن يكون لدينا على سبيل المثال تسلسلين متكافئين تماماً من حيث الوظيفة لكنهما لا يتطابقان في أكثر من 30% من أحرفهما. هذا عدى عن حقيقة عدم وجود نقطة علام تحدد المكان الذي تبدأ منه قراءة الثلاثيات التي ترمز إلى الأحماض الأمينية، مما يعطينا ثلاثة قراءات محتملة لذات السلسلة، وإن تذكرنا أن هنالك سلسلة متممة يمكن لها أن تكون هي بدورها تحمل ترميزا للجينات، فنصل بالإجمال إلى 6 قراءات محتملة.

الطرائق والأدوات التي سيتم استخدامها

نماذج ماركوف المخفية HMM

تنتمي نماذج ماركوف إلى مجموعة النماذج الإحصائية، ففي نماذج ماركوف الاعتيادية تكون الحالات مرئية بشكل مباشرة، ولذا تكون احتمالات الانتقال من حالة إلى أخرى هي كل ما نحتاج إلى معرفته لتحديد النموذج. في نماذج ماركوف المخفية لا يمكننا الإطلاع على الحالات بشكل مباشر، لكن عوضا عن ذلك تكون لدينا مجموعة من إشارات الخرج مع احتمال توليد كل إشارة خرج من مختلف حالات النموذج. عادة ما تتوفر لدينا احتمالات الانتقال والخرج بالإضافة إلى سلسلة إشارات الخرج الملاحظة، فيما يكمن التحدي في تخمين سلسلة الحالات التي أدت إلى ذلك السلوك.

مثال توضيحي

ماطر مشمس تنزه تسوق تنظيف تنزه تسوق تنظيف 0.6 0.4 0.7 0.3 0.1 0.4 0.5 0.6 0.3 0.1 الحالة الابتدائية 0.6 0.4 بفرض أن لديك صديقة تقطن في مكان بعيد وتتواصل معها من خلال الهاتف، ولتكن هذه الصديقة مهتمة بثلاثة أنشطة فقط هي التنزه والتسوق والتنظيف، بحيث أن اختيارها لما ستقوم به من نشاط في يوم ما يتعلق بشكل حصري بحالة الطقس في ذلك اليوم. بطبيعة الحال لن تكون لديك معرفة مباشرة بحالة الطقس حيث تقطن صديقتك، لكن لديك تلميحات يمكنك الاستفادة منها، وهي ما تخبرك به صديقتك عما تقوم به من نشاط حينما تتصل بها، ومن خلال هذه المعلومة ستحاول تخمين حالة الطقس لديها

مجالات تطبيق نماذج ماركوف المخفية HMM

التعرف على الكلام المنطوق. التعرف على حركات الجسد وإيماءاته. التعرف الضوئي على النصوص. الترجمة الآلية. المعلوماتية الحيوية Bioinformatics من قبيل التنبؤ بمناطق ترميز البروتينات (بمعنى آخر الجينات Genes) ضمن تسلسلات الدنا DNA.

لغة Perl

أطلقت هذه اللغة لأول مرة عام 1987 من قبل Larry Wall، وهي لغة برمجية عامة الأغراض صممت في الأساس لمعالجة النصوص، لكن استخدامها انتشر لاحقا ليشمل طيفا واسعا من المهام منها إدارة الأنظمة، وبرمجة تطبيقات الويب. تميل لغة Perl إلى كونها لغة عملية (بمعنى أنها سهلة الاستخدام وفعالة ومتكاملة)، كما تتميز بدعمها لكلا نمطي البرمجة الإجرائية والموجهة بالكائنات. تحظى لغة Perl بكم كبير من المكتبات المطورة من قبل طرف ثالث في خدمة أهداف ومهام خاصة.

Showing 1 - 20 of 23 items Details

Name: 
MSc Presentation
Author: 
Khaled
Company: 
ICARDA
Description: 
استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلات DNA
Tags: 
??? | إلى | dna | لغة | الأمينية | الدنا | الجينات | نماذج | ماركوف
Created: 
10/8/2006 7:48:27 PM
Slides: 
23
Views: 
112
Downloads: 
12
Rating: 
0


Comment



Share this presentation
|

Comments

Share this presentation:

|
Sitemap