سخنرانی مقدماتی بیوانفورماتیک
طرح درس:
بیوانفورماتیک چیست؟
اهداف و اهداف بیوانفورماتیک.
موضوعات تحقیق.
مراحل توسعه بیوانفورماتیک.
انواع پایگاه داده
بخش های بیوانفورماتیک
کتابشناسی - فهرست کتب.
بیوانفورماتیک شاخهای از علوم کامپیوتر (نظریه اطلاعات) است که به سرعت در حال توسعه است که با مسائل نظری ذخیرهسازی و انتقال اطلاعات در سیستمهای بیولوژیکی سروکار دارد.
این علم در سالهای 1976-1978 پدید آمد و سرانجام در سال 1980 با شماره ویژه مجله تحقیقات اسید نوکلئیک (NAR) شکل گرفت.
هدف بیوانفورماتیک هم انباشت دانش بیولوژیکی به شکلی است که مؤثرترین استفاده از آن را تضمین کند و هم ساخت و تجزیه و تحلیل مدل های ریاضی سیستم های بیولوژیکی و عناصر آنها.
توسعه الگوریتم هایی برای تجزیه و تحلیل داده های بیولوژیکی با حجم بالا:
الگوریتم جستجوی ژن در ژنوم؛
تجزیه و تحلیل و تفسیر انواع مختلف داده های بیولوژیکی مانند توالی های نوکلئوتیدی و اسید آمینه، حوزه های پروتئینی، ساختار پروتئین و غیره:
مطالعه ساختار مرکز فعال یک پروتئین؛
توسعه نرم افزار برای مدیریت و دسترسی سریع به داده های بیولوژیکی:
ایجاد یک بانک داده از توالی اسیدهای آمینه.
بنابراین، وظایف اصلی بیوانفورماتیک عبارتند از: شناخت مناطق کد کننده پروتئین در ساختار اولیه بیوپلیمرها، تجزیه و تحلیل مقایسه ای ساختارهای اولیه بیوپلیمرها، رمزگشایی ساختار فضایی بیوپلیمرها و کمپلکس های آنها، تاخوردگی فضایی پروتئین ها، مدل سازی ساختار و دینامیک بیوماکرومولکول ها و همچنین ایجاد و نگهداری پایگاه های داده تخصصی.
بسته به اشیاء مورد مطالعه
1) بیوانفورماتیک توالی.
2) بیوانفورماتیک ساختاری.
3) ژنومیک کامپیوتر.
از سوی دیگر، بیوانفورماتیک را می توان بسته به نوع مشکلات حل شده به چندین حوزه تقسیم کرد:
بکارگیری روشهای تحلیلی شناخته شده برای به دست آوردن دانش زیستی جدید.
توسعه روش های جدید برای تجزیه و تحلیل داده های بیولوژیکی.
توسعه پایگاه های اطلاعاتی جدید.
شناخته شده ترین و موثرترین کاربرد بیوانفورماتیک در حال حاضر، تجزیه و تحلیل ژنوم است که ارتباط نزدیکی با تجزیه و تحلیل توالی دارد.
در سال 1962، مفهوم "ساعت مولکولی" اختراع شد، در سال 1965 t-RNA توالی یابی شد و ساختار ثانویه آن تعیین شد و در همان زمان پایگاه های داده PIR برای ذخیره اطلاعات در مورد توالی اسیدهای آمینه ایجاد شد. در سال 1972، شبیه سازی اختراع شد.
برنج. 1. شبیه سازی حیوانات.
در سال 1978، روش های توالی یابی توسعه یافت و پایگاه داده ای از ساختارهای پروتئینی فضایی ایجاد شد. در سال 1980، یک شماره ویژه از مجله NAR که به بیوانفورماتیک اختصاص داشت منتشر شد و سپس برخی از الگوریتمهای تراز توالی ابداع شد که بیشتر مورد بحث قرار خواهد گرفت. سپس روش PCR (واکنش زنجیره ای پلیمراز) و در بیوانفورماتیک - الگوریتم هایی برای جستجوی قطعات توالی مشابه در پایگاه های داده ابداع شد. در سال 1987 بانک ژن (مجموعه ای از توالی های نوکلئوتیدی) و غیره تشکیل شد.
یک زیست شناس در بیوانفورماتیک معمولاً با پایگاه های داده و ابزارهای تجزیه و تحلیل داده ها سر و کار دارد. حال بیایید بفهمیم که بسته به آنچه در آنها قرار می گیرد چه نوع پایگاه داده ای وجود دارد.
نوع اول- پایگاه داده های آرشیوی زباله بزرگی هستند که هر کسی می تواند هر چیزی را که می خواهد در آن قرار دهد. این پایگاه ها عبارتند از:
GeneBank & EMBL - توالی های اولیه در اینجا ذخیره می شوند.
PDB - ساختارهای فضایی پروتئین ها،
و خیلی بیشتر.
به عنوان یک کنجکاوی، می توانم مثالی بزنم: در پایگاه داده بایگانی نشان داده شده است که در ژنوم یک آرکی (آرکه باکتریوم) ژنی وجود دارد که پروتئینی از مجتمع اصلی سازگاری بافتی را کد می کند، که کاملا مزخرف است.
نوع دوم– پایگاه های اطلاعاتی سرپرستی شده که مسئولیت صحت آن بر عهده صاحبان پایگاه داده است. هیچکس اطلاعاتی را به آنجا ارسال نمیکند؛ کارشناسان آن را از پایگاههای اطلاعاتی آرشیوی انتخاب میکنند و قابلیت اطمینان اطلاعات را بررسی میکنند - آنچه در این توالیها نوشته شده است، چه دلایل تجربی وجود دارد که باور کنیم این توالیها این یا آن عملکرد را انجام میدهند. پایگاه های داده از این نوع عبارتند از:
Swiss-Prot بالاترین کیفیت پایگاه داده حاوی توالی اسید آمینه پروتئین ها است.
KEGG - اطلاعات متابولیک (مانند ارائه شده در نقشه مسیر متابولیک که کسانی که در سخنرانی ها در سخنرانی شماره 2 مشاهده کردند).
FlyBase – اطلاعاتی در مورد مگس سرکه.
COG - اطلاعاتی در مورد ژن های ارتولوگ.
نگهداری پایگاه داده مستلزم کار متصدیان یا حاشیه نویسان است.
نوع سوم– پایگاه های داده مشتق شده چنین پایگاههایی با پردازش دادهها از پایگاههای اطلاعاتی آرشیوی و سرپرستی بهدست میآیند. این شامل:
SCOP – Structural Classification of Proteins Database (ساختار پروتئین ها را توصیف می کند).
PFAM – پایگاه داده خانواده پروتئین؛
GO (هستی شناسی ژن) - طبقه بندی ژن (تلاش برای ایجاد مجموعه ای از اصطلاحات، سازماندهی اصطلاحات به گونه ای که یک ژن متفاوت نامیده نشود و به گونه ای که ژن های مختلف یک نام نداشته باشند).
ProDom – دامنه های پروتئینی؛
AsMamDB - پیوند جایگزین در پستانداران.
بنابراین، سه نوع پایگاه داده وجود دارد: پایگاههای اطلاعاتی آرشیو شده، پایگاههای اطلاعاتی سرپرستی و پایگاههای داده مشتقشده.
اگر از یک رهگذر تصادفی بپرسید که زیست شناسی چیست، احتمالاً چیزی مانند "علم طبیعت زنده" پاسخ خواهد داد. او در مورد علوم کامپیوتر خواهد گفت که با کامپیوتر و اطلاعات سروکار دارد. اگر از سرزده بودن هراس نداشته باشیم و سوال سوم را از او بپرسیم - بیوانفورماتیک چیست؟ - این جایی است که او احتمالاً گیج می شود. منطقی است: همه در مورد این حوزه دانش حتی در EPAM نمی دانند - اگرچه متخصصان بیوانفورماتیک در شرکت ما وجود دارد. بیایید بفهمیم که چرا این علم برای بشریت به طور کلی و EPAM به طور خاص مورد نیاز است: در پایان ناگهان در خیابان از ما در مورد آن سؤال می کنند.
DNA انسان از سه میلیارد نوکلئوتید تشکیل شده است؛ تجزیه و تحلیل دستی همه آنها و یافتن بخش مناسب یک عمر طول نمی کشد. خوب، شاید کافی باشد - یک عمر برای تجزیه و تحلیل یک مولکول - اما بسیار وقت گیر، گران و غیرمولد است، بنابراین ژنوم با استفاده از کامپیوتر و محاسبات تجزیه و تحلیل می شود.
بیوانفورماتیک مجموعه کاملی از روشهای کامپیوتری برای تجزیه و تحلیل دادههای بیولوژیکی است: خواندن ساختارهای DNA و پروتئین، میکروعکسها، سیگنالها، پایگاههای داده با نتایج تجربی و غیره.
گاهی اوقات برای تعیین درمان مناسب به تعیین توالی DNA نیاز است. بیماری یکسان، ناشی از اختلالات ارثی مختلف یا تأثیرات محیطی، نیاز به درمان متفاوت دارد. همچنین مناطقی در ژنوم وجود دارد که با پیشرفت بیماری مرتبط نیستند، اما برای مثال، مسئول پاسخ به انواع خاصی از درمان و داروها هستند. بنابراین، افراد مختلف مبتلا به یک بیماری ممکن است به درمان یکسان واکنش متفاوتی نشان دهند.
بیوانفورماتیک نیز برای تولید داروهای جدید مورد نیاز است. مولکول های آنها باید ساختار خاصی داشته باشند و به پروتئین یا بخش خاصی از DNA متصل شوند. روش های محاسباتی به مدل سازی ساختار چنین مولکولی کمک می کند.
دستاوردهای بیوانفورماتیک به طور گسترده در پزشکی، عمدتا در درمان سرطان استفاده می شود. DNA اطلاعات مربوط به استعداد ابتلا به بیماری های دیگر را رمزگذاری می کند، اما بیشترین کار روی درمان سرطان انجام می شود. این جهت امیدوار کننده ترین، از نظر مالی جذاب، مهم - و سخت ترین در نظر گرفته می شود.
بیوانفورماتیکان متخصصان ترکیبی هستند. دشوار است بگوییم کدام دانش برای آنها اولیه است: زیست شناسی یا علوم کامپیوتر. اگر سوال را به این صورت مطرح کنید، آنها باید هر دو را بدانند. شاید اول از همه، ذهن تحلیلگر و تمایل به یادگیری چیزهای زیادی مهم باشد. در EPAM زیست شناسانی وجود دارند که تحصیلات خود را در علوم کامپیوتر به پایان رسانده اند و برنامه نویسان و ریاضیدانانی که علاوه بر آن زیست شناسی خوانده اند.
من یک آموزش استاندارد IT دریافت کردم، سپس در دوره های EPAM Java Lab تحصیل کردم، جایی که به یادگیری ماشین و علم داده علاقه مند شدم. وقتی از آزمایشگاه فارغ التحصیل شدم، به من گفتند: "به Life Sciences برو، آنها بیوانفورماتیک می کنند و فقط افراد را جذب می کنند." من دروغ نمی گویم: این زمانی بود که کلمه "بیوانفورماتیک" را برای اولین بار شنیدم. من در مورد آن در ویکی پدیا خواندم و رفتم.
سپس یک گروه کامل از تازه واردان در واحد استخدام شدند و با هم بیوانفورماتیک مطالعه کردیم. ما با تکرار برنامه درسی مدرسه درباره DNA و RNA شروع کردیم، سپس مشکلات موجود در بیوانفورماتیک، رویکردهای حل آنها و الگوریتمها را به تفصیل تجزیه و تحلیل کردیم و کار با نرمافزارهای تخصصی را یاد گرفتیم.
من یک بیوفیزیکدان هستم و در سال 2012 از دکترای خود در ژنتیک دفاع کردم. مدتی در علم کار کردم، تحقیق کردم - و هنوز هم به این کار ادامه می دهم. وقتی فرصت به کار بردن دانش علمی در تولید به وجود آمد، بلافاصله به آن پرداختم.
برای یک تحلیلگر کسب و کار، من یک شغل بسیار خاص دارم. به عنوان مثال، مسائل مالی از من عبور می کند؛ من بیشتر یک کارشناس موضوع هستم. من باید بفهمم مشتریان از ما چه می خواهند، مشکل را درک کنم و مستندات سطح بالا ایجاد کنم - وظیفه ای برای برنامه نویسان، گاهی اوقات یک نمونه اولیه از برنامه می سازم. همانطور که پروژه پیشرفت می کند، من با توسعه دهندگان و مشتریان ارتباط برقرار می کنم تا هر دو بتوانند مطمئن باشند که تیم آنچه را که لازم است انجام می دهد. در واقع، من یک مترجم از زبان مشتریان - زیست شناسان و بیوانفورماتیکان - به زبان توسعه دهندگان هستم."
میخائیل آلپروویچ، رئیس واحد بیوانفورماتیک:
تصور کنید که ده هزار نسخه از جنگ و صلح داشته باشید. شما آنها را در یک خردکن قرار می دهید، آنها را کاملاً مخلوط می کنید، به طور تصادفی انبوهی از نوارهای کاغذی را از این توده بیرون می آورید و سعی می کنید متن منبع را از آنها جمع آوری کنید. علاوه بر این، شما نسخه خطی جنگ و صلح را دارید. متنی که جمع آوری می کنید باید با آن مقایسه شود تا اشتباهات تایپی پیدا شود (و قطعاً برخی از آنها وجود خواهد داشت). ماشین های توالی یابی مدرن DNA را تقریباً به همان روش می خوانند. DNA از هسته سلول جدا می شود و به قطعات 300-500 جفت نوکلئوتیدی تقسیم می شود (به یاد داریم که در DNA نوکلئوتیدها به صورت جفت به یکدیگر مرتبط هستند). مولکول ها تکه تکه می شوند زیرا هیچ ماشین مدرنی نمی تواند ژنوم را از ابتدا تا انتها بخواند. دنباله خیلی طولانی است و هنگام خواندن آن خطاها جمع می شوند.
ما "جنگ و صلح" را بعد از خردکن به یاد می آوریم. برای بازیابی متن اصلی رمان، باید تمام قطعات رمان را به ترتیب صحیح بخوانیم و مرتب کنیم. معلوم شد که ما کتاب را چندین بار در قطعات ریز خواندیم. در مورد DNA هم همینطور: توالیسنج هر بخش از توالی را با همپوشانیهای متعدد میخواند - بالاخره ما نه یک، بلکه بسیاری از مولکولهای DNA را تجزیه و تحلیل میکنیم.
قطعات به دست آمده تراز می شوند - هر یک از آنها به ژنوم مرجع "ضمیمه" می شوند و تلاش می شود تا بفهمیم قطعه خوانده شده با کدام قسمت استاندارد مطابقت دارد. سپس تغییراتی در قطعات تراز شده یافت می شود - تفاوت های قابل توجهی بین خوانده شده و ژنوم مرجع (اشتباهات تایپی در کتاب در مقایسه با نسخه خطی مرجع). این کار توسط برنامه هایی به نام تماس گیرنده های مختلف (از نوع انگلیسی caller - mutation detector) انجام می شود. این سخت ترین بخش تجزیه و تحلیل است، بنابراین برنامه های مختلفی وجود دارد - تماس گیرنده های مختلف و آنها دائما در حال بهبود هستند و برنامه های جدید در حال توسعه هستند.
اکثریت قریب به اتفاق جهش های یافت شده خنثی هستند و هیچ تاثیری ندارند. اما مواردی نیز وجود دارند که مستعد ابتلا به بیماری های ارثی یا توانایی پاسخگویی به انواع مختلف درمان را رمزگذاری می کنند.
برای تجزیه و تحلیل، نمونهای گرفته میشود که حاوی سلولهای زیادی است - و بنابراین کپیهایی از مجموعه کامل DNA سلول. هر قطعه کوچک DNA چندین بار خوانده می شود تا احتمال خطا به حداقل برسد. اگر حتی یک جهش قابل توجه نادیده گرفته شود، ممکن است بیمار به اشتباه تشخیص داده شود یا درمان نامناسب انجام شود. خواندن هر قطعه از DNA یک بار بسیار کم است: یک بار خواندن ممکن است اشتباه باشد، و ما در مورد آن نمی دانیم. اگر یک قطعه را دو بار بخوانیم و یک نتیجه صحیح و یک نتیجه نادرست به دست آوریم، تشخیص اینکه کدام قرائت صحیح است برایمان مشکل خواهد بود. و اگر صد قرائت داشته باشیم و در 95 تای آنها همین نتیجه را ببینیم، می فهمیم که درست است.
گنادی زاخاروف:
برای تجزیه و تحلیل سرطان، باید سلولهای سالم و بیمار را توالیبندی کنید. سرطان در نتیجه جهش هایی ظاهر می شود که یک سلول در طول زندگی خود جمع می شود. اگر مکانیسم های مسئول رشد و تقسیم آن در یک سلول بدتر شده باشد، آنگاه سلول بدون توجه به نیازهای بدن شروع به تقسیم نامحدود می کند، یعنی تبدیل به یک تومور سرطانی می شود. برای درک اینکه دقیقاً چه چیزی باعث سرطان می شود، نمونه ای از بافت سالم و یک تومور سرطانی از بیمار گرفته می شود. هر دو نمونه توالی یابی می شوند، نتایج با هم مقایسه می شوند و تفاوت یکی با دیگری را پیدا می کنند: کدام مکانیسم مولکولی در سلول سرطانی شکسته شده است. بر این اساس، دارویی انتخاب می شود که در برابر سلول های دارای "شکستگی" موثر باشد.
کد منبع برنامه در GitHub موجود است.
برای مشاهده سه بعدی مولکول ها، EPAM یک ابزار آنلاین ایجاد کرد که در ابتدا فقط در پنجره مرورگر کار می کرد. سپس بر اساس این ابزار، نسخه ای را توسعه دادند که به شما امکان می دهد مولکول های عینک واقعیت مجازی HTC Vive را تجسم کنید. این عینک دارای کنترلکنندههایی است که میتوان از آنها برای چرخاندن مولکول، حرکت آن، قرار دادن آن در کنار مولکول دیگر یا چرخش بخشهای جداگانه مولکول استفاده کرد. انجام همه این کارها به صورت سه بعدی بسیار راحت تر از یک مانیتور تخت است. این بخش از پروژه بیوانفورماتیک EPAM به طور مشترک با بخش واقعیت مجازی، واقعیت افزوده و تحویل تجربه بازی انجام شد.
این برنامه به تازگی برای انتشار در GitHub آماده می شود، اما در حال حاضر پیوندی وجود دارد که می توانید نسخه آزمایشی آن را مشاهده کنید.
شما می توانید از طریق ویدیو متوجه شوید که کار با برنامه چگونه است.
برای توسعه دهندگان بیوانفورماتیک، مرورگر ژنومیک به تجزیه و تحلیل موارد پیچیده برای یافتن خطاها در الگوریتم ها و درک چگونگی بهبود آنها کمک می کند.
مرورگر ژنومیک جدید NGB (مرورگر جدید ژنوم) از EPAM در وب کار می کند، اما از نظر سرعت و عملکرد از همتایان دسکتاپ خود کم نیست. این محصولی است که در بازار گم شده بود: ابزارهای آنلاین قبلی کندتر بودند و می توانستند کمتر از ابزارهای رومیزی کار کنند. امروزه بسیاری از مشتریان به دلایل امنیتی اپلیکیشن های وب را انتخاب می کنند. ابزار آنلاین به شما این امکان را می دهد که هیچ چیزی را روی رایانه کاری دانشمند نصب نکنید. با مراجعه به پورتال شرکتی می توانید از هر کجای دنیا با آن کار کنید. یک دانشمند مجبور نیست یک کامپیوتر کار را همه جا با خود حمل کند و تمام داده های لازم را که می تواند تعداد زیادی از آنها باشد را روی آن بارگیری کند.
گنادی زاخاروف، تحلیلگر تجاری:
من تا حدودی به عنوان مشتری روی ابزارهای منبع باز کار کردم: یک وظیفه تعیین کردم. من بهترین راه حل های موجود در بازار را مطالعه کردم، مزایا و معایب آنها را تجزیه و تحلیل کردم و به دنبال چگونگی بهبود آنها بودم. ما نیاز داشتیم که راه حل های وب را بدتر از همتایان دسکتاپ آنها نکنیم و در عین حال چیزی منحصر به فرد به آنها اضافه کنیم.
در نمایشگر مولکولی سه بعدی، این کار با واقعیت مجازی بود و در مرورگر ژنوم، کار با تغییرات بهبود یافته بود. جهش ها می توانند پیچیده باشند. تغییرات در سلول های سرطانی گاهی اوقات مناطق وسیعی را تحت تاثیر قرار می دهد. کروموزوم های اضافی در آنها ظاهر می شوند، قطعات کروموزوم و کروموزوم های کامل ناپدید می شوند یا به ترتیب تصادفی با هم ترکیب می شوند. تکه های تکی ژنوم را می توان 10 تا 20 بار کپی کرد. به دست آوردن چنین دادههایی اولاً دشوارتر از خواندن است و ثانیاً تجسم دشوارتر است.
ما یک تجسم کننده ایجاد کرده ایم که اطلاعات مربوط به چنین بازآرایی های ساختاری گسترده ای را به درستی می خواند. ما همچنین مجموعهای از تجسمها را ایجاد کردیم که وقتی کروموزومها با هم تماس پیدا میکنند، نشان میدهند که آیا پروتئینهای هیبریدی به دلیل این تماس تشکیل شدهاند یا خیر. اگر یک تنوع گسترده روی چندین پروتئین تأثیر بگذارد، با یک کلیک میتوانیم محاسبه کنیم و نشان دهیم که در نتیجه چنین تغییراتی چه اتفاقی میافتد، چه پروتئینهای ترکیبی به دست میآیند. در سایر تجسمکنندهها، دانشمندان باید این اطلاعات را به صورت دستی ردیابی میکردند، اما در NGB این یک فرآیند با یک کلیک است.
انقلاب در فیزیک هسته ای سال ها پیش منجر به انباشت حجم عظیمی از داده ها شد که باید ذخیره و پردازش می شدند. فقط رایانه ها و سپس ابر رایانه ها می توانند این کار را انجام دهند.
رونق ژنومیک در 10-15 سال گذشته این سنت را ادامه داده و آن را چند برابر کرده است: تحقیقات زیست پزشکی به هر یک از ما مربوط می شود، به این معنی که داده های بیشتری تولید خواهد شد، به ویژه در پرتو ایده پزشکی شخصی و ... خواسته های داروسازی بزرگ در اینجا بدون دانش کامپیوتر و محصولات نرم افزاری کاری نمی توان انجام داد. اما علاوه بر این، شما باید به خوبی بدانید که چه چیزی را مطالعه کنید، چگونه داده ها را تجزیه و تحلیل کنید و چقدر می توانید به آنها اعتماد کنید. نحوه ذخیره و پردازش کجا باید درخواست داد و کجا استفاده کرد.
این سخنرانی بیشتر این "چگونه" ها را پوشش می دهد. هدف آلا صحبت در مورد اهمیت و گستردگی کاربردهای بیوانفورماتیک است.
فرآیند جهش اولین عامل از دو عامل ضروری در تکامل داروینی است. این سخنرانی درباره علل و مکانیسمهای جهش، روشهای اندازهگیری پارامترهای فرآیند جهش در زمانهای کوتاه، متوسط و طولانی، دادههای مربوط به میزان جهش و سادهترین مدلهای تأثیر جهش بر ساختار ژنتیکی یک جمعیت بحث میکند.
انتخاب طبیعی دومین عامل از دو عامل ضروری در تکامل داروینی است. این سخنرانی درباره علل و مکانیسمهای انتخاب، روشها و پارامترهای مورد استفاده برای توصیف و مطالعه آن، دادههای مربوط به انتخاب در طبیعت و سادهترین مدلهای تأثیر انتخاب بر جمعیت بحث میکند.
این سخنرانی در مورد چندین "رابط" بین علوم توسعه و بیوانفورماتیک صحبت می کند.
مشکلات تشخیص قبل از تولد و توالی یابی قبل از تولد و همچنین تعیین توالی اگزوم نوزادان مورد بحث قرار می گیرد.
این مقاله به بررسی تأثیر محیط رشد اولیه بر وضعیت متیلوم و علت ژنومی اختلالات رشد دوران کودکی میپردازد. در نهایت، مسائل اخلاقی مربوط به استفاده از اطلاعات ژنومی در تصمیم گیری های تشخیصی و فردی در مورد رشد کودک در نظر گرفته می شود.
توالی یابی نسل بعدی (NGS) بسیاری از حوزه های تحقیقات بیولوژیکی و زیست پزشکی را متحول کرده است. این امکان به دست آوردن توالی ژن ها و ژنوم گونه های قبلاً مطالعه نشده را نسبتاً سریع و ارزان می دهد و همچنین با استفاده از مواد تعداد زیادی از افراد همان گونه، تنوع درون گونه ای را شناسایی کرده و ژن های مرتبط با صفات مورد علاقه را جستجو می کند. علاوه بر تعیین واقعی توالی ژنوم، NGS امکان تجزیه و تحلیل دقیق بیان ژن در بافت های مختلف بدن یا در شرایط مختلف را فراهم می کند و به طور گسترده در مطالعات اپی ژنتیک استفاده می شود.
این سخنرانی مروری بر روش های اصلی توالی، اصول فیزیکوشیمیایی آنها، ویژگی های آماده سازی نمونه، ویژگی های داده های به دست آمده، هزینه آنها و خطاهای معمولی ارائه می دهد. توجه ویژه ای به کاربرد روش های مختلف برای حل مسائل بیولوژیکی می شود و توصیه هایی برای طراحی آزمایش های مربوط به NGS ارائه می شود.
استفاده از توالی های اولیه به ما این امکان را می دهد که اکثر سوالات مربوط به اسیدهای نوکلئیک (DNA و RNA) را حل کنیم. هنگام مطالعه عملکرد پروتئین ها، دانش تنها توالی اولیه دیگر اجازه حل اکثر مسائل را نمی دهد. کدام پروتئین ها با یکدیگر تعامل خواهند داشت و با چه شدتی؟ آیا جایگزینی اسید آمینه باعث تغییر عملکرد پروتئین می شود؟ چگونه عوارض جانبی پروتئین دارویی را از بین ببریم یا اثربخشی آن را افزایش دهیم؟ حوزه بیوانفورماتیک، که الگوریتمهایی را برای مدلسازی شکل فضایی پروتئینها و برهمکنشهای آنها ایجاد میکند، با هدف پاسخ به این سؤالات است.
با توجه به کاهش قابل توجه هزینه و افزایش بهره وری فناوری ها، تعداد پروژه های اختصاص داده شده به توالی یابی de novo ژنوم موجودات غیرمدل به طور قابل توجهی افزایش یافته است. در برخی موارد، توالییابی و جمعآوری ژنوم بهصورت de novo دشوار است - برای مثال، اگر اندازه آن بزرگ باشد. در چنین مواردی به مطالعه رونوشت متوسل می شوند. همچنین، تجزیه و تحلیل de novo رونوشت ممکن است در مورد مطالعه گونههایی با تعداد زیادی از ژنهای جایگزین شده ضروری باشد، زیرا حتی اگر یک ژنوم در دسترس باشد، تعیین فهرست کامل ایزوفرمها بسیار دشوار است.
این سخنرانی به مسائل مربوط به جمع آوری داده های رونویسی در غیاب ژنوم اختصاص دارد. موضوعاتی مانند نمودارهای اسپلایس، برنامه های تثلیث و نوبلر، مقایسه و تحلیل مجموعه ها، مونتاژ رونویسی موجودات پلی پلوئید در نظر گرفته شده است.
در حال حاضر، چندین نسل از روش های توالی یابی DNA وجود دارد. با این حال، فناوریهای جدید بدون الگوریتمهایی که بتوانند نتایج خود را پردازش کنند، بیمعنی هستند. روشهای توالییابی جدید در حال ظهور، چالشهای الگوریتمی جدیدی را ایجاد میکنند. یکی از مهمترین این وظایف مونتاژ ژنوم است. این سخنرانی در مورد تکامل روش های توالی یابی و رویکردهای الگوریتمی به مونتاژ ژنومی صحبت می کند که با هر مرحله از این تکامل پدیدار شده و ادامه می یابد.
این سخنرانی به ساختار و سازماندهی DNA در پروکاریوت ها و یوکاریوت ها، مکانیسم های مولکولی مسئول حفظ و تولید مثل مواد ژنتیکی اختصاص دارد. مکانیسم های اصلی در پشت تنوع ژنتیکی و گزینه هایی برای اجرای مواد ژنتیکی مورد تجزیه و تحلیل قرار می گیرند.
این سخنرانی دو مشکل الگوریتمی مشابه را در ژنومیک مقایسه ای مورد بحث قرار می دهد: هم ترازی محلی چندگانه و ساخت بلوک سنتنی. این الگوریتم ها نقش حیاتی در مقایسه توالی ژنوم کامل دارند. در مورد فرمول بندی مسائل و ایده های اساسی که برخی از الگوریتم های مدرن بر اساس آنها ساخته شده اند صحبت می کند.
این سخنرانی در مورد انواع ارائه ها بحث می کند، چرا آنها واقعاً مورد نیاز هستند، و نحوه صحبت کردن را بیان می کند تا مخاطب همه چیز را بفهمد و به خواب نرود، همچنین از چه اشتباهاتی باید اجتناب کرد و چه کسی را در هنگام تهیه سخنرانی خود مثال بزنید. .
این سخنرانی نشان می دهد که چه شرکت های بیوانفورماتیکی در روسیه و جهان وجود دارند، چه کسی آنها را ایجاد کرده است و دقیقاً چگونه کسب درآمد می کند.
برنامه های بازیگران اصلی و روندهای صنعت مورد بحث قرار گرفت.
در قسمت پایانی سخنرانی، آندری در مورد سازماندهی استارتاپ خود یا انتخاب یک محل کار جدید، فکر می کند.
هدف از این سخنرانی ارائه یک ایده کلی از خواص سیستمیک اجسام بیولوژیکی است. ایلیا سربریسکی در مورد مولفه های اصلی زیست شناسی سیستم ها، اینتراکتومیک و ساخت مدل، مشکلات اصلی زیست شناسی سیستم ها و تلاش برای حل آنها صحبت می کند. برخی از پیشرفتها در زیستشناسی سیستمها (عمدتاً در زمینه انکولوژی) مورد بحث قرار گرفتهاند. منابع عمومی موجود برای زیست شناسی سیستم ها (TCGA/cBioPortal، CCLE) نیز بررسی می شوند.
این درس به ایجاد شبکههای تعاملی بر اساس پایگاههای اطلاعاتی در دسترس عموم اختصاص دارد. از پایگاه های داده و سرویس های وب مانند Entrez، GeneMANIA، BioGRID و غیره استفاده شد. روش های مختلفی برای تجسم شبکه های تعامل در نظر گرفته شده است، به ویژه با استفاده از برنامه Cytoscape.
میکروب ها همه جا هستند، میکروب ها بر جهان حکومت می کنند، اما همه آنها را نمی توان در شرایط آزمایشگاهی ملاقات کرد. ما نمی دانیم که چگونه اکثریت قریب به اتفاق آنها را رشد دهیم، به این معنی که آنها باید به نحوی از زیستگاه طبیعی خود - زمین، آب، از زیر ریشه درختان و غیره، جایی که در گروه های بزرگ زندگی می کنند، حذف شوند.
متاژنومیکس در این مطالعات بسیار گیج کننده کمک می کند. او همچنین به غذا دادن، گرم کردن، درمان مردم و دستگیری مجرمان کمک می کند. این سخنرانی به همه اینها و بیوانفورماتیک در متاژنومیکس اختصاص داشت.
این سخنرانی مشکل کلاسیک آزمایش چندین فرضیه به طور همزمان را بررسی می کند. مشکلاتی از این دست همیشه به وجود می آیند، به عنوان مثال، در طول جست و جوی ارتباط ژنومی یا تجزیه و تحلیل داده های ریزآرایه. راه حل های ممکن برای این مشکل در نظر گرفته شده است، از رویکرد کلاسیک بونفرونی شروع می شود و به روش هایی ختم می شود که به شما امکان می دهد FDR (نرخ کشف نادرست) را کنترل کنید.
این سخنرانی به اشتباهات در استفاده از آمار و راه های پیشگیری از آنها اختصاص دارد. به طور خاص، پاسخ به این سؤال داده می شود: در چه شرایطی می توان از معیارهای استاندارد برای مقایسه نمایندگان نمونه یک نمونه استفاده کرد، و اگر معیارهای استاندارد مناسب نباشند چه باید کرد؟
درک مکانیسم های ظریف تنظیم فعالیت ژن شرط لازم برای رمزگشایی مکانیسم های بیماری در انسان است. متأسفانه، امروزه چنین درکی وجود ندارد: ما نمیتوانیم به طور رضایتبخش توضیح دهیم که چگونه گروههایی از فاکتورهای رونویسی با یکدیگر، با پروتئینهای کروماتین، سایر پروتئینهای آداپتور و کمپلکس RNA پلیمراز برهمکنش دارند، و همچنین نمیتوانیم توضیح دهیم که چگونه و چرا این یا آن بخش از توالی DNA میتواند کنترل کند. یک الگوی پیچیده، مکانی محدود و تعیین شده در زمان بیان ژن.
مدلسازی ریاضی با توصیف مکانیکی و کمی فرآیند به درک مکانیسمهای تنظیم ژن کمک میکند. این سخنرانی دو رویکرد رایج برای مدلسازی بیان ژن را مورد بحث قرار میدهد - بر اساس معادلات غیرخطی واکنش - انتشار و تعادل ترمودینامیکی. مراحل ساخت چنین مدل هایی به صورت متوالی در نظر گرفته شده و نمونه هایی از استفاده از آنها برای تولید دانش جدید آورده شده است.
محاسبه طولانیترین زیر دنباله مشترک (LCS) دو رشته یکی از مسائل الگوریتمی کلاسیک است که کاربردهای گستردهای در علوم کامپیوتر و زیستشناسی محاسباتی دارد، جایی که به عنوان «همترازی توالی جهانی» شناخته میشود. بسیاری از برنامه ها نیاز به تعمیم این مشکل دارند که ما آن را محاسبات LCS نیمه محلی یا "تراز نیمه محلی" می نامیم. در این مورد، شما باید LCS را بین یک رشته و همه زیر رشتههای رشته دیگر، و/یا بین تمام پیشوندهای یک رشته و همه پسوندهای رشته دیگر محاسبه کنید. علاوه بر نقش مهم این مسئله تعمیم یافته در الگوریتم های رشته ای، دارای ارتباطات غیرمنتظره ای با جبر نیمه گروهی و هندسه محاسباتی، با شبکه های مقایسه و همچنین کاربردهای عملی در زیست شناسی محاسباتی است. علاوه بر این، وظیفه محاسبه LCS نیمه محلی می تواند به عنوان یک رویکرد منعطف و کارآمد برای تراز (کاملا) محلی توالی های بیولوژیکی استفاده شود.
این سخنرانی یک راه حل کارآمد برای مشکل محاسبه LCS نیمه محلی ارائه می دهد و یک نمای کلی از نتایج و برنامه های اصلی مرتبط ارائه می دهد. اینها شامل پشتیبانی پویا LCS می شود. محاسبه سریع دسته ها در برخی از نمودارهای خاص. مقایسه سریع رشته های فشرده؛ محاسبات موازی روی رشته ها
بیوانفورماتیکان هنگام حل مشکلات مختلف، از جستوجوی موتیفهای تنظیمکننده تا پیشبینی عملکرد پروتئین، باید با کل «خانوادههای» توالیهای نوکلئوتیدی یا اسید آمینه مرتبط با تکامل کار کنند. این سخنرانی راههای مختلف نمایش چنین خانوادههایی را که در ابزارها و پایگاههای اطلاعاتی محبوب بیوانفورماتیک استفاده میشوند، مورد بحث قرار میدهد. نحوه رمزگشایی الگوی PROSITE و تفسیر لوگوی توالی، تفاوت بین پروفایل HMM و PSSM و همچنین نحوه جلوگیری از اشتباه در هنگام ساخت آنها و تجزیه و تحلیل نتایج توضیح داده شده است.
این سخنرانی مروری بر مفهوم اپی ژنتیک ارائه می دهد. سطوح سازماندهی ساختاری کروماتین در نظر گرفته شده است، تغییرات اپی ژنومیک مختلف شرح داده شده است: تغییرات هیستون، متیلاسیون نقوش CpG. تأثیر آنها بر بیان ژن مورد بحث قرار گرفته است.
نقش تغییرات اپی ژنومیک در اسپلایسینگ، منقوشی و ... نیز مورد توجه قرار می گیرد.
سیستم XIST (رونوشت خاص غیرفعال سازی X)، RNA های ضد حس، اتصال، و مقررات وابسته به RNA شرح داده شده است.
مدل هایی برای مطالعه تغییرات اپی ژنومیک نیز در نظر گرفته شده است.
این سخنرانی خطاهای توالی مشخصه فن آوری های NGS را توصیف می کند. نمونه هایی از چنین خطاهایی عبارتند از: تقویت PCR، خطاهای خواندن توالی خاص، توزیع ناهموار ترکیب GC و موارد دیگر. روش های مختلفی برای ارزیابی این خطاها و در نظر گرفتن آنها در تجزیه و تحلیل مورد بحث قرار می گیرد. موضوع روش های حل عملی و ابزارهای نرم افزاری موجود مطرح می شود.
در طول کارگاه، شرکت کنندگان یاد گرفتند که مهارت های برنامه نویسی را برای کنترل کیفیت داده های NGS به کار ببرند. فرمتهای دادههای BAM/SAM، کتابخانههای pysam و pyplot و مفاهیم اساسی مورد بحث قرار گرفتند. به طور خاص، نمونه هایی از محاسبه ترکیب GC، تخمین فراوانی تکرارها، توزیع طول درج، و محاسبه پوشش در پنجره ها مورد بحث قرار می گیرد.
این سمینار به مسئله عملی تجزیه و تحلیل داده های RNA-seq پرداخت.
در قالب ارائه و تمرین، روشها مورد بحث و بررسی قرار گرفت: همترازی خواندن، کنترل کیفیت اولیه، خطوط لوله برای مطالعه بیان ژن DESeq و Cufflinks، یافتن ایزوفرمهای رونوشت، جستجوی ژنهای ترکیبی.
سرطان یکی از شایع ترین و خطرناک ترین بیماری هاست. به دلیل سهم عظیم جهش های انباشته شده و جدید در ظهور و توسعه آن، "بیماری ژنوم" نامیده می شود. مشخص است که نه تنها وضعیت ژنوم، بلکه وضعیت رونویسی و حتی اپی ژنتیک سلول های سرطانی اولیه و همچنین هموستاز پیچیده یک تومور در حال رشد مستقیماً بر ویژگی های آن و از همه مهمتر حساسیت به درمان تأثیر می گذارد. تنها فرصت برای درک این درهم تنیده عوامل وابسته به هم توسط بیوانفورماتیک فراهم شده است. این سخنرانی به بررسی سوالات اصلی مرتبط با مطالعه تشکیل تومور و راه های ممکن برای پاسخ به آنها با استفاده از رویکردهای بیوانفورماتیک می پردازد.
تعیین توالی ژنوم انسان، مطالعه تغییرات ژنتیکی انسان، تعیین توالی متاژنوم انسانی، تجزیه و تحلیل رونویسی بافت انسانی - همه این روشهای بیولوژیکی، وقتی برای دادههای بزرگ به کار میروند، اطلاعات ارزشمندی در مورد آنچه انسان را از سایر حیوانات متمایز میکند به دانشمندان داده است.
این سخنرانی به "اومیکس" جدید اختصاص دارد که به ما امکان می دهد هنگام مطالعه مغز و سایر بافت ها - متابولومیک و لیپیدومیکس - به سؤالات مربوط به بدن انسان پاسخ دهیم.
در سالهای اخیر، فناوریهای توالییابی نسل بعدی گام مهمی به جلو برداشتهاند: IonTorrent و Pacific Biosciences ظاهر شدند، Ilumina تعدادی پروتکل جدید ایجاد کرد. اما، همانطور که مشخص است، همه اینها برای حل مشکل مونتاژ ژنوم کافی نیست. رفتن از استخراج DNA به یک ژنوم کامل معمولاً به دهها متخصص مختلف، صدها هزار دلار و سالها کار نیاز دارد. بنابراین، امروزه این وظیفه هم از نظر بیوتکنولوژی و هم از نظر بیوانفورماتیک مرتبط باقی می ماند. این سخنرانی به بررسی آخرین پیشرفتها در روشهای مونتاژ ژنوم، آخرین انواع دادههایی میپردازد که ممکن است اجازه دهند این کار به سطح بعدی ارتقا یابد، و چشمانداز ژنومیک در آینده نزدیک.
بیوانفورماتیک معمولاً به استفاده از رایانه برای حل مسائل بیولوژیکی اشاره دارد. در حال حاضر، اینها تقریباً منحصراً وظایف زیست شناسی مولکولی هستند. دلیل این امر این است که در طی 20-25 سال گذشته، مواد آزمایشی واقعا عظیمی به طور خاص بر روی ساختار و عملکرد مولکول های بیولوژیکی (پروتئین ها و اسیدهای نوکلئیک) انباشته شده است؛ به عنوان مثال، ذکر ژنوم انسان کافی است. این ماده برای تجزیه و تحلیل خود به روش های کامپیوتری پیشرفته نیاز دارد. بنابراین بیوانفورماتیک در اکثر مراکز علمی دنیا مترادف زیست شناسی مولکولی محاسباتی است.
چندین جهت اصلی این شاخه از علم وجود دارد، بسته به
اشیاء مورد مطالعه:
توالی بیوانفورماتیک
شناخته شده ترین و موثرترین کاربرد بیوانفورماتیک در حال حاضر، تجزیه و تحلیل ژنوم است که ارتباط نزدیکی با تجزیه و تحلیل توالی دارد.
این شاخه از بیوانفورماتیک به تجزیه و تحلیل توالی های نوکلئوتیدی و پروتئینی می پردازد. در حال حاضر روش های تجربی موثری برای تعیین توالی نوکلئوتیدی توسعه یافته است. تعیین توالی نوکلئوتیدی به یک روش معمول و خودکار تبدیل شده است. در نتیجه یک روش معمول و خودکار، حجم عظیمی از متون ژنتیکی قبلاً به دست آمده است. بنابراین، از 15 فوریه 2007، پایگاه داده EMBL 87،000،493 سند را ذخیره می کند که توالی های نوکلئوتیدی را توصیف می کند، که در مجموع شامل 157545686001 کاراکتر (نوکلئوتید) است، که تقریباً مربوط به کتابخانه ای از 105 جلد ضخیم با فونت منظم است. یافتن ژن مناسب در EMBL مانند یافتن یک استناد در چنین کتابخانه ای است. بدون کمک کامپیوتر، انجام این کار، به بیان ساده، بسیار دشوار است. و حجم داده ها به طور تصاعدی در حال افزایش است.
بیایید ژنوم یک باکتری کوچک را تصور کنیم - این یک رشته پیوسته به طول 1-10 میلیون کاراکتر است، و نه همه کدهای DNA برای پروتئین ها. اولین نوع کار بیوانفورماتیک، جستجو در توالی های نوکلئوتیدی برای نواحی خاص، نواحی کدکننده پروتئین، مناطق کدکننده RNA (مثلا tRNA)، مکان های اتصال برای پروتئین های تنظیم کننده و غیره است. و اینها همیشه کارهای ساده ای نیستند. برای مثال، ژنهای موجودات یوکاریوتی از قطعات متناوب «معنادار» و «بیمعنی» (اگزونها و اینترونها) تشکیل شدهاند، و فاصله بین قطعات «معنادار» میتواند به هزاران نوکلئوتید برسد.
بگذار ژن پیدا شود. چه چیزی را رمزگذاری می کند؟ چرا نیاز است؟
اگر ما در مورد بخشی از DNA صحبت می کنیم که یک پروتئین را کد می کند، با استفاده از یک عملیات بسیار ساده - ترجمه با استفاده از یک کد ژنتیکی شناخته شده - می توان به دست آورد. توالی اسیدهای آمینه (پروتئین). از 4,273,512 پروتئینی که تا به امروز شناخته شده است، حدود 94 درصد از توالی ها فقط چنین ترجمه های فرضی هستند و هیچ چیز بیشتری در مورد آنها شناخته شده نیست. سرعت اطلاعاتی که از ترتیب دهنده های خودکار به دست می آید از سرعت درک ما از معنای آن بیشتر است! اما اشیاء بیولوژیکی اشیایی هستند که در فرآیند تکامل پدید آمده اند. رویکرد تکاملی تطبیقی یکی از قدرتمندترین رویکردها در زیست شناسی است. به عنوان مثال، عملکرد یک پروتئین از یک موجود زنده به خوبی مورد مطالعه تجربی قرار گرفته است؛ پروتئینی با یک توالی اسید آمینه مشابه در موجود دیگر یافت شده است. می توان فرض کرد که پروتئین دوم (ناشناخته) عملکرد مشابه یا مشابهی را انجام می دهد. و در اینجا بلافاصله چندین سؤال مطرح می شود. اول، توالی مشابه به چه معناست؟ چگونه توالی ها را با هم مقایسه کنیم؟ تا چه حد از شباهت توالی می توانیم فرض کنیم که پروتئین ها عملکردهای مشابهی دارند؟ مقایسه توالی (هم ترازی) یک کار حیاتی در بیوانفورماتیک است. پیدا کردن یک زیست شناس مدرن که هرگز از برنامه های Blastp و ClustalX استفاده نکرده باشد دشوار است؛ ظاهر این برنامه ها در حال حاضر موفقیت بزرگی در بیوانفورماتیک است. اما بیوانفورماتیکان مدرن خوشحال نیستند و دائماً در حال بهبود روش های تراز کردن هستند. مثالهای زیادی وجود دارد که چگونه رویکرد تکاملی تطبیقی در ترکیب با روشهای بیوانفورماتیک دانش بیولوژیکی جدیدی تولید میکند.
متون ژنتیکی متن هایی با مقدار زیادی نویز هستند؛ با مقایسه توالی های مرتبط، در برخی موارد می توان نویز را فیلتر کرد و سیگنالی را شناسایی کرد، به عنوان مثال، یک توالی کوتاه از نوکلئوتیدها که قادر به اتصال به یک پروتئین تنظیم کننده یا آمینو هستند. بقایای اسید در آنزیمی که مسئول اتصال سوبسترا است. برای اطمینان از نتیجه، بیوانفورماتیکان از نظریه احتمال و آمار ریاضی استفاده می کنند. به طور خلاصه، می توان گفت که وظایف اصلی بیوانفورماتیک مرتبط با تجزیه و تحلیل توالی های فردی به شرح زیر است:
ایجاد فناوری های آزمایشی جدید تعدادی چالش جدید برای بیوانفورماتیک ایجاد می کند. به عنوان مثال، توسعه طیف سنجی جرمی امکان تجزیه و تحلیل کل مجموعه پروتئین های موجود در یک سلول را در یک آزمایش (تا کنون، در اصل) ممکن می سازد. برای حل این مشکل، تجزیه و تحلیل مشترک طیف جرمی و ژنوم مورد نیاز است. کشف پدیده ها و مکانیسم های بیولوژیکی جدید نیز منجر به پیدایش مشکلات جدید می شود. یک مثال خوب، کشف تداخل RNA است که جایزه نوبل فیزیولوژی در سال 2006 برای آن اعطا شد. این کشف موج کاملی از کار بیوانفورماتیک را به وجود آورد که به جستجوی مکانهای اتصال برای microRNAها و microRNAهای جدید اختصاص یافت. سپس بسیاری از یافته ها به صورت تجربی تایید شدند.
علوم کامپیوتر شاخه ای از علم است که به مطالعه ساختار و ویژگی های کلی اطلاعات و همچنین مسائل مربوط به جمع آوری، ذخیره سازی، جستجو، پردازش، تبدیل، توزیع و استفاده از آن در زمینه های مختلف فعالیت می پردازد. بیوانفورماتیک نامی است که برای علم کامپیوتر در زیست شناسی مولکولی به کار می رود.
همه می دانند که ژنوم انسان خوانده شده است. ژنوم از دیدگاه علم کامپیوتر چیست؟ این متن طولانی حاوی حدود 3 میلیارد حرف (نوکلئوتیدهای A، T، G، C) است. همین. یکی از مشکلات بیوانفورماتیک تثبیت معنای این متن است.
البته علاوه بر خود توالی DNA، اطلاعات تجربی اضافی زیادی نیز وجود دارد.
همه ژن های انسان شناخته شده نیستند و هیچ داده ای در مورد عملکرد بسیاری از ژن ها وجود ندارد. هدف بیوانفورماتیک یافتن ژنهای ناشناخته قبلی و توصیف عملکرد احتمالی آنهاست. ژن ها چگونه یافت می شوند؟ این کار سختی است. اینجاست که ریاضیات به کمک می آید. در مجموعه ای عظیم از اطلاعات، با استفاده از روش های نوین ریاضی، الگوهای پنهانی جستجو می شوند که یافتن ژن ها و پیش بینی خواص آنها را ممکن می سازد.
وقتی درباره ژنوم صحبت میشود، معمولاً با رمزگشایی نسخههای خطی باستانی تشبیه میکنند، در حالی که متن شناخته شده است، اما زبان آن نیست. تا زمانی که از محتوای متن اطلاعی نداشته باشیم این کار حل نشدنی است. با این حال، اگر حداقل یک ایده تقریبی از آنچه این متن در مورد آن است داشته باشیم، امیدی برای درک آن وجود دارد. بیوانفورماتیک بهتر از رمزگشایی نوشتههای باستانی است، زیرا پیشبینیهای آن را میتوان آزمایش کرد.
ژن ها پروتئین ها را رمزگذاری می کنند، بنابراین پیش بینی عملکرد ژن مانند پیش بینی عملکرد پروتئین است. برای بسیاری از پروتئین ها، عملکردها از آزمایش مشخص شده است. با استفاده از این داده ها، روش قیاس ها و سایر روش های ریاضیات مدرن، گاهی اوقات می توان عملکرد پروتئین های دیگر را پیش بینی کرد.
امروزه آزمایشگاه های مدرن اغلب از تکنیک آزمایش های انبوه استفاده می کنند، زمانی که اطلاعاتی در مورد هزاران ژن در یک آزمایش به دست می آید. این دریای اطلاعات را فقط با استفاده از کامپیوتر می توانید درک کنید. پروژه ژنوم انسانی نمونه بارز این رویکرد است. مثالی دیگر. اگر فعالیت همه ژن ها را در یک سلول سالم و سرطانی تعیین کنید، پس از تجزیه و تحلیل داده ها می توانید دریابید که کدام ژن ها مسئول انحطاط یک سلول سالم به یک سلول سرطانی هستند. اگر چنین داده های تجربی حاوی نویز زیادی نباشد، همه چیز ساده خواهد بود. خطاها
ژن ها توالی DNA هستند، پروتئین ها توالی اسید آمینه هستند. عملکرد پروتئین ها با شکل فضایی آنها تعیین می شود. علاوه بر این، پروتئین هایی با توالی های اسید آمینه مختلف می توانند ساختار فضایی بسیار مشابهی داشته باشند. یکی از مشکلات کلاسیک (و هنوز حل نشده) بیوانفورماتیک، پیشبینی ساختار فضایی یک پروتئین از روی توالی اسید آمینه آن است. بیش از 5 سال است که مسابقات بین المللی در روش های پیش بینی ساختار فضایی یک پروتئین از روی توالی آن وجود دارد.
تجزیه و تحلیل ژنوم ها اطلاعات جدیدی را به ارمغان می آورد. در حال حاضر بیش از 200 ژنوم از باکتری های مختلف رمزگشایی شده است که هر کدام حاوی چندین هزار ژن است. مشخص کردن یک ژن واحد مستلزم ماه ها کار سخت آزمایشگران است. از سوی دیگر، برای توصیف یک ژنوم باکتری با جزئیات کافی با استفاده از بیوانفورماتیک، حدود یک ماه کار گروه کوچکی از محققان کافی است.
ژنوم انسان حاوی حدود 35 هزار ژن است (تنها 10 برابر بیشتر از یک باکتری و 2 برابر بیشتر از یک مگس میوه) و تعداد پروتئین های سنتز شده بسیار بیشتر است. موضوع چیه؟ معلوم می شود که اغلب یک ژن چندین شکل مختلف پروتئین را کد می کند. این مسئول پدیده ای به نام است پیوند جایگزین. بیوانفورماتیک برای اولین بار نشان داده است که تعداد ژنهای دارای پیوند جایگزین بسیار زیاد است. این یک راز باقی مانده است که چگونه همه اینها تنظیم می شود.
لازم نیست همه ژن ها به طور همزمان در یک سلول کار کنند. برای اینکه ژنها مانند یک ارکستر هماهنگ عمل کنند، لازم است که ژنها تنها زمانی روشن شوند که کارشان ضروری است. این توسط سیستم تنظیم ژن مدیریت می شود، تجزیه و تحلیل آن امکان کشف روش های اساساً جدید تنظیم را فراهم کرد - ریبوسوئیچ ها.
جهت دیگر مطالعه تکامل همه موجودات زنده است. اکتشافات زیادی در اینجا نیز وجود دارد، مانند انتقال افقی ژن بین گونه ها. بیوانفورماتیک در برخی موارد نه تنها نشان دادن این موارد، بلکه تاریخ گذاری آنها را نیز ممکن می سازد.
زیست شناسی و بیوانفورماتیک نه تنها راه هایی برای درک جهان هستند، بلکه اهمیت کاربردی نیز دارند، در درجه اول در پزشکی و بیوتکنولوژی.
بیوانفورماتیک نقش مهمی در جستجوی داروهای جدید و اهداف آنها و همچنین در رد داروهای بیامید دارد. بگذارید برای شما مثالی بزنم.
همه شما درباره صابون Safeguard شنیده اید که میکروب ها را از بین می برد. معلوم شد که استرپتوکوک های بسیار خطرناکی وجود دارد که به اصل فعال آن - تریکلوزان - حساس نیستند. این ابتدا با استفاده از تجزیه و تحلیل کامپیوتری ژنوم استرپتوکوک نشان داده شد و سپس به صورت تجربی تایید شد.
مثال دیگر تجزیه و تحلیل داده های ژنتیکی افراد سالم و مبتلایان به برخی بیماری ها مانند بیماری عروق کرونر قلب است. هیچ ژن واحدی مسئول این بیماری نیست. با این حال، مقایسه داده ها در مورد تعداد زیادی از بیماران، یافتن به اصطلاح انجمن ها - مجموعه ای از ژن های مستعد ابتلا به یک بیماری خاص را ممکن می سازد، و از این طریق امکان تعیین یک گروه خطر ژنتیکی را فراهم می کند.
بیوانفورماتیک به طور گسترده ای در بیوتکنولوژی استفاده می شود، وظیفه آن به طور کلی به دست آوردن حداکثر محصول مورد نظر از 1 گرم، به عنوان مثال، شکر است. برای این کار لازم است مسیرهای بیوسنتز به طور دقیق مورد مطالعه قرار گیرد، سیستم تنظیمی مورد مطالعه قرار گیرد و آنزیم های موثرتر در موجودات دیگر یافت شود. در اینجا نیز بیوانفورماتیک می تواند تمام کارهای مقدماتی را به عهده بگیرد.
اهمیت این حوزه از علم را می توان به طور غیر مستقیم نشان داد. کافی است بگوییم که چندین مرکز علمی بزرگ بیوانفورماتیک در دنیا وجود دارد و شرکت های تجاری ارائه دهنده خدمات بیوانفورماتیک هستند. هر شرکت داروسازی یا بیوتکنولوژی بزرگ یا متوسط دارای بخش بیوانفورماتیک است. اکنون بسیاری از دانشگاه ها در این زمینه متخصص تربیت می کنند. صنعت داروسازی و بیوتکنولوژی در کشور ما در حال احیا است که به زودی نیاز به متخصص دارد. علم دانشگاهی نیز به بیوانفورماتیکان شایسته نیاز دارد.
یک بیوانفورماتیک شایسته باید تحصیلات متنوعی داشته باشد. او باید زیست شناسی را خوب بداند. علاوه بر این، او باید در بسیاری از روش های ریاضی مهارت داشته باشد: آمار، نظریه احتمال، ریاضیات محاسباتی، نظریه الگوریتم ها. شما باید فیزیک و شیمی بدانید تا کارهای احمقانه انجام ندهید. برای خواندن ادبیات علمی باید انگلیسی بلد باشید. ما باید دائماً به نتایج جدید هم در بیوانفورماتیک و هم در زیست شناسی به طور کلی علاقه مند باشیم.
به طور کلی، شما باید فردی بافرهنگ باشید و دائماً برای یادگیری چیزهای جدید تلاش کنید.