سخنرانی مقدماتی بیوانفورماتیک

طرح درس:

بیوانفورماتیک چیست؟

اهداف و اهداف بیوانفورماتیک.

موضوعات تحقیق.

مراحل توسعه بیوانفورماتیک.

انواع پایگاه داده

بخش های بیوانفورماتیک

کتابشناسی - فهرست کتب.

1. بیوانفورماتیک چیست؟

بیوانفورماتیک شاخه‌ای از علوم کامپیوتر (نظریه اطلاعات) است که به سرعت در حال توسعه است که با مسائل نظری ذخیره‌سازی و انتقال اطلاعات در سیستم‌های بیولوژیکی سروکار دارد.

این علم در سالهای 1976-1978 پدید آمد و سرانجام در سال 1980 با شماره ویژه مجله تحقیقات اسید نوکلئیک (NAR) شکل گرفت.

2. اهداف و اهداف بیوانفورماتیک

هدف بیوانفورماتیک هم انباشت دانش بیولوژیکی به شکلی است که مؤثرترین استفاده از آن را تضمین کند و هم ساخت و تجزیه و تحلیل مدل های ریاضی سیستم های بیولوژیکی و عناصر آنها.

توسعه الگوریتم هایی برای تجزیه و تحلیل داده های بیولوژیکی با حجم بالا:

الگوریتم جستجوی ژن در ژنوم؛

تجزیه و تحلیل و تفسیر انواع مختلف داده های بیولوژیکی مانند توالی های نوکلئوتیدی و اسید آمینه، حوزه های پروتئینی، ساختار پروتئین و غیره:

مطالعه ساختار مرکز فعال یک پروتئین؛

توسعه نرم افزار برای مدیریت و دسترسی سریع به داده های بیولوژیکی:

ایجاد یک بانک داده از توالی اسیدهای آمینه.

بنابراین، وظایف اصلی بیوانفورماتیک عبارتند از: شناخت مناطق کد کننده پروتئین در ساختار اولیه بیوپلیمرها، تجزیه و تحلیل مقایسه ای ساختارهای اولیه بیوپلیمرها، رمزگشایی ساختار فضایی بیوپلیمرها و کمپلکس های آنها، تاخوردگی فضایی پروتئین ها، مدل سازی ساختار و دینامیک بیوماکرومولکول ها و همچنین ایجاد و نگهداری پایگاه های داده تخصصی.

3. جهت های اصلی بیوانفورماتیک

بسته به اشیاء مورد مطالعه

1) بیوانفورماتیک توالی.

2) بیوانفورماتیک ساختاری.

3) ژنومیک کامپیوتر.

از سوی دیگر، بیوانفورماتیک را می توان بسته به نوع مشکلات حل شده به چندین حوزه تقسیم کرد:

بکارگیری روشهای تحلیلی شناخته شده برای به دست آوردن دانش زیستی جدید.

توسعه روش های جدید برای تجزیه و تحلیل داده های بیولوژیکی.

توسعه پایگاه های اطلاعاتی جدید.

شناخته شده ترین و موثرترین کاربرد بیوانفورماتیک در حال حاضر، تجزیه و تحلیل ژنوم است که ارتباط نزدیکی با تجزیه و تحلیل توالی دارد.

4. مراحل توسعه بیوانفورماتیک

در سال 1962، مفهوم "ساعت مولکولی" اختراع شد، در سال 1965 t-RNA توالی یابی شد و ساختار ثانویه آن تعیین شد و در همان زمان پایگاه های داده PIR برای ذخیره اطلاعات در مورد توالی اسیدهای آمینه ایجاد شد. در سال 1972، شبیه سازی اختراع شد.

برنج. 1. شبیه سازی حیوانات.

در سال 1978، روش های توالی یابی توسعه یافت و پایگاه داده ای از ساختارهای پروتئینی فضایی ایجاد شد. در سال 1980، یک شماره ویژه از مجله NAR که به بیوانفورماتیک اختصاص داشت منتشر شد و سپس برخی از الگوریتم‌های تراز توالی ابداع شد که بیشتر مورد بحث قرار خواهد گرفت. سپس روش PCR (واکنش زنجیره ای پلیمراز) و در بیوانفورماتیک - الگوریتم هایی برای جستجوی قطعات توالی مشابه در پایگاه های داده ابداع شد. در سال 1987 بانک ژن (مجموعه ای از توالی های نوکلئوتیدی) و غیره تشکیل شد.

5. انواع پایگاه داده

یک زیست شناس در بیوانفورماتیک معمولاً با پایگاه های داده و ابزارهای تجزیه و تحلیل داده ها سر و کار دارد. حال بیایید بفهمیم که بسته به آنچه در آنها قرار می گیرد چه نوع پایگاه داده ای وجود دارد.

نوع اول- پایگاه داده های آرشیوی زباله بزرگی هستند که هر کسی می تواند هر چیزی را که می خواهد در آن قرار دهد. این پایگاه ها عبارتند از:

GeneBank & EMBL - توالی های اولیه در اینجا ذخیره می شوند.

PDB - ساختارهای فضایی پروتئین ها،

و خیلی بیشتر.

به عنوان یک کنجکاوی، می توانم مثالی بزنم: در پایگاه داده بایگانی نشان داده شده است که در ژنوم یک آرکی (آرکه باکتریوم) ژنی وجود دارد که پروتئینی از مجتمع اصلی سازگاری بافتی را کد می کند، که کاملا مزخرف است.

نوع دوم– پایگاه های اطلاعاتی سرپرستی شده که مسئولیت صحت آن بر عهده صاحبان پایگاه داده است. هیچ‌کس اطلاعاتی را به آنجا ارسال نمی‌کند؛ کارشناسان آن را از پایگاه‌های اطلاعاتی آرشیوی انتخاب می‌کنند و قابلیت اطمینان اطلاعات را بررسی می‌کنند - آنچه در این توالی‌ها نوشته شده است، چه دلایل تجربی وجود دارد که باور کنیم این توالی‌ها این یا آن عملکرد را انجام می‌دهند. پایگاه های داده از این نوع عبارتند از:

Swiss-Prot بالاترین کیفیت پایگاه داده حاوی توالی اسید آمینه پروتئین ها است.

KEGG - اطلاعات متابولیک (مانند ارائه شده در نقشه مسیر متابولیک که کسانی که در سخنرانی ها در سخنرانی شماره 2 مشاهده کردند).

FlyBase – اطلاعاتی در مورد مگس سرکه.

COG - اطلاعاتی در مورد ژن های ارتولوگ.

نگهداری پایگاه داده مستلزم کار متصدیان یا حاشیه نویسان است.

نوع سوم– پایگاه های داده مشتق شده چنین پایگاه‌هایی با پردازش داده‌ها از پایگاه‌های اطلاعاتی آرشیوی و سرپرستی به‌دست می‌آیند. این شامل:

SCOP – Structural Classification of Proteins Database (ساختار پروتئین ها را توصیف می کند).

PFAM – پایگاه داده خانواده پروتئین؛

GO (هستی شناسی ژن) - طبقه بندی ژن (تلاش برای ایجاد مجموعه ای از اصطلاحات، سازماندهی اصطلاحات به گونه ای که یک ژن متفاوت نامیده نشود و به گونه ای که ژن های مختلف یک نام نداشته باشند).

ProDom – دامنه های پروتئینی؛

AsMamDB - پیوند جایگزین در پستانداران.

بنابراین، سه نوع پایگاه داده وجود دارد: پایگاه‌های اطلاعاتی آرشیو شده، پایگاه‌های اطلاعاتی سرپرستی و پایگاه‌های داده مشتق‌شده.

اگر از یک رهگذر تصادفی بپرسید که زیست شناسی چیست، احتمالاً چیزی مانند "علم طبیعت زنده" پاسخ خواهد داد. او در مورد علوم کامپیوتر خواهد گفت که با کامپیوتر و اطلاعات سروکار دارد. اگر از سرزده بودن هراس نداشته باشیم و سوال سوم را از او بپرسیم - بیوانفورماتیک چیست؟ - این جایی است که او احتمالاً گیج می شود. منطقی است: همه در مورد این حوزه دانش حتی در EPAM نمی دانند - اگرچه متخصصان بیوانفورماتیک در شرکت ما وجود دارد. بیایید بفهمیم که چرا این علم برای بشریت به طور کلی و EPAM به طور خاص مورد نیاز است: در پایان ناگهان در خیابان از ما در مورد آن سؤال می کنند.

چرا زیست شناسی دیگر نمی تواند بدون علوم کامپیوتر کنار بیاید و سرطان چه ارتباطی با آن دارد؟

برای انجام تحقیقات، دیگر برای زیست شناسان کافی نیست که نمونه برداری کنند و از طریق میکروسکوپ نگاه کنند. زیست شناسی مدرن با حجم عظیمی از داده ها سر و کار دارد. اغلب پردازش دستی آنها غیرممکن است، بنابراین بسیاری از مشکلات بیولوژیکی با روش های محاسباتی حل می شوند. خیلی دور نرویم: مولکول DNA آنقدر کوچک است که زیر میکروسکوپ نوری دیده نمی شود. و حتی در صورت امکان (الکترونیکی)، مطالعه بصری باز هم کمکی به حل بسیاری از مشکلات نمی کند.

DNA انسان از سه میلیارد نوکلئوتید تشکیل شده است؛ تجزیه و تحلیل دستی همه آنها و یافتن بخش مناسب یک عمر طول نمی کشد. خوب، شاید کافی باشد - یک عمر برای تجزیه و تحلیل یک مولکول - اما بسیار وقت گیر، گران و غیرمولد است، بنابراین ژنوم با استفاده از کامپیوتر و محاسبات تجزیه و تحلیل می شود.

بیوانفورماتیک مجموعه کاملی از روش‌های کامپیوتری برای تجزیه و تحلیل داده‌های بیولوژیکی است: خواندن ساختارهای DNA و پروتئین، میکروعکس‌ها، سیگنال‌ها، پایگاه‌های داده با نتایج تجربی و غیره.

گاهی اوقات برای تعیین درمان مناسب به تعیین توالی DNA نیاز است. بیماری یکسان، ناشی از اختلالات ارثی مختلف یا تأثیرات محیطی، نیاز به درمان متفاوت دارد. همچنین مناطقی در ژنوم وجود دارد که با پیشرفت بیماری مرتبط نیستند، اما برای مثال، مسئول پاسخ به انواع خاصی از درمان و داروها هستند. بنابراین، افراد مختلف مبتلا به یک بیماری ممکن است به درمان یکسان واکنش متفاوتی نشان دهند.

بیوانفورماتیک نیز برای تولید داروهای جدید مورد نیاز است. مولکول های آنها باید ساختار خاصی داشته باشند و به پروتئین یا بخش خاصی از DNA متصل شوند. روش های محاسباتی به مدل سازی ساختار چنین مولکولی کمک می کند.

دستاوردهای بیوانفورماتیک به طور گسترده در پزشکی، عمدتا در درمان سرطان استفاده می شود. DNA اطلاعات مربوط به استعداد ابتلا به بیماری های دیگر را رمزگذاری می کند، اما بیشترین کار روی درمان سرطان انجام می شود. این جهت امیدوار کننده ترین، از نظر مالی جذاب، مهم - و سخت ترین در نظر گرفته می شود.

بیوانفورماتیک در EPAM

در EPAM، بخش علوم زیستی با بیوانفورماتیک سر و کار دارد. در آنجا نرم‌افزاری را برای شرکت‌های دارویی، آزمایشگاه‌های بیولوژیکی و بیوتکنولوژیکی در همه اندازه‌ها توسعه می‌دهند - از شرکت‌های نوپا گرفته تا شرکت‌های پیشرو جهانی. فقط افرادی که زیست شناسی را می دانند و می دانند چگونه الگوریتم ها و برنامه نویسی کنند می توانند با چنین کاری کنار بیایند.

بیوانفورماتیکان متخصصان ترکیبی هستند. دشوار است بگوییم کدام دانش برای آنها اولیه است: زیست شناسی یا علوم کامپیوتر. اگر سوال را به این صورت مطرح کنید، آنها باید هر دو را بدانند. شاید اول از همه، ذهن تحلیلگر و تمایل به یادگیری چیزهای زیادی مهم باشد. در EPAM زیست شناسانی وجود دارند که تحصیلات خود را در علوم کامپیوتر به پایان رسانده اند و برنامه نویسان و ریاضیدانانی که علاوه بر آن زیست شناسی خوانده اند.

چگونه یک بیوانفورماتیک شویم؟

ماریا زووا، توسعه دهنده:

من یک آموزش استاندارد IT دریافت کردم، سپس در دوره های EPAM Java Lab تحصیل کردم، جایی که به یادگیری ماشین و علم داده علاقه مند شدم. وقتی از آزمایشگاه فارغ التحصیل شدم، به من گفتند: "به Life Sciences برو، آنها بیوانفورماتیک می کنند و فقط افراد را جذب می کنند." من دروغ نمی گویم: این زمانی بود که کلمه "بیوانفورماتیک" را برای اولین بار شنیدم. من در مورد آن در ویکی پدیا خواندم و رفتم.

سپس یک گروه کامل از تازه واردان در واحد استخدام شدند و با هم بیوانفورماتیک مطالعه کردیم. ما با تکرار برنامه درسی مدرسه درباره DNA و RNA شروع کردیم، سپس مشکلات موجود در بیوانفورماتیک، رویکردهای حل آنها و الگوریتم‌ها را به تفصیل تجزیه و تحلیل کردیم و کار با نرم‌افزارهای تخصصی را یاد گرفتیم.

من یک بیوفیزیکدان هستم و در سال 2012 از دکترای خود در ژنتیک دفاع کردم. مدتی در علم کار کردم، تحقیق کردم - و هنوز هم به این کار ادامه می دهم. وقتی فرصت به کار بردن دانش علمی در تولید به وجود آمد، بلافاصله به آن پرداختم.

برای یک تحلیلگر کسب و کار، من یک شغل بسیار خاص دارم. به عنوان مثال، مسائل مالی از من عبور می کند؛ من بیشتر یک کارشناس موضوع هستم. من باید بفهمم مشتریان از ما چه می خواهند، مشکل را درک کنم و مستندات سطح بالا ایجاد کنم - وظیفه ای برای برنامه نویسان، گاهی اوقات یک نمونه اولیه از برنامه می سازم. همانطور که پروژه پیشرفت می کند، من با توسعه دهندگان و مشتریان ارتباط برقرار می کنم تا هر دو بتوانند مطمئن باشند که تیم آنچه را که لازم است انجام می دهد. در واقع، من یک مترجم از زبان مشتریان - زیست شناسان و بیوانفورماتیکان - به زبان توسعه دهندگان هستم."

نحوه خواندن ژنوم

برای درک پروژه های بیوانفورماتیک EPAM، ابتدا باید بدانید که چگونه ژنوم توالی یابی می شود. واقعیت این است که پروژه هایی که در مورد آنها صحبت خواهیم کرد به طور مستقیم با خواندن ژنوم مرتبط هستند. برای توضیح به بیوانفورماتیکان مراجعه می کنیم.

میخائیل آلپروویچ، رئیس واحد بیوانفورماتیک:

تصور کنید که ده هزار نسخه از جنگ و صلح داشته باشید. شما آنها را در یک خردکن قرار می دهید، آنها را کاملاً مخلوط می کنید، به طور تصادفی انبوهی از نوارهای کاغذی را از این توده بیرون می آورید و سعی می کنید متن منبع را از آنها جمع آوری کنید. علاوه بر این، شما نسخه خطی جنگ و صلح را دارید. متنی که جمع آوری می کنید باید با آن مقایسه شود تا اشتباهات تایپی پیدا شود (و قطعاً برخی از آنها وجود خواهد داشت). ماشین های توالی یابی مدرن DNA را تقریباً به همان روش می خوانند. DNA از هسته سلول جدا می شود و به قطعات 300-500 جفت نوکلئوتیدی تقسیم می شود (به یاد داریم که در DNA نوکلئوتیدها به صورت جفت به یکدیگر مرتبط هستند). مولکول ها تکه تکه می شوند زیرا هیچ ماشین مدرنی نمی تواند ژنوم را از ابتدا تا انتها بخواند. دنباله خیلی طولانی است و هنگام خواندن آن خطاها جمع می شوند.

ما "جنگ و صلح" را بعد از خردکن به یاد می آوریم. برای بازیابی متن اصلی رمان، باید تمام قطعات رمان را به ترتیب صحیح بخوانیم و مرتب کنیم. معلوم شد که ما کتاب را چندین بار در قطعات ریز خواندیم. در مورد DNA هم همین‌طور: توالی‌سنج هر بخش از توالی را با همپوشانی‌های متعدد می‌خواند - بالاخره ما نه یک، بلکه بسیاری از مولکول‌های DNA را تجزیه و تحلیل می‌کنیم.

قطعات به دست آمده تراز می شوند - هر یک از آنها به ژنوم مرجع "ضمیمه" می شوند و تلاش می شود تا بفهمیم قطعه خوانده شده با کدام قسمت استاندارد مطابقت دارد. سپس تغییراتی در قطعات تراز شده یافت می شود - تفاوت های قابل توجهی بین خوانده شده و ژنوم مرجع (اشتباهات تایپی در کتاب در مقایسه با نسخه خطی مرجع). این کار توسط برنامه هایی به نام تماس گیرنده های مختلف (از نوع انگلیسی caller - mutation detector) انجام می شود. این سخت ترین بخش تجزیه و تحلیل است، بنابراین برنامه های مختلفی وجود دارد - تماس گیرنده های مختلف و آنها دائما در حال بهبود هستند و برنامه های جدید در حال توسعه هستند.

اکثریت قریب به اتفاق جهش های یافت شده خنثی هستند و هیچ تاثیری ندارند. اما مواردی نیز وجود دارند که مستعد ابتلا به بیماری های ارثی یا توانایی پاسخگویی به انواع مختلف درمان را رمزگذاری می کنند.

برای تجزیه و تحلیل، نمونه‌ای گرفته می‌شود که حاوی سلول‌های زیادی است - و بنابراین کپی‌هایی از مجموعه کامل DNA سلول. هر قطعه کوچک DNA چندین بار خوانده می شود تا احتمال خطا به حداقل برسد. اگر حتی یک جهش قابل توجه نادیده گرفته شود، ممکن است بیمار به اشتباه تشخیص داده شود یا درمان نامناسب انجام شود. خواندن هر قطعه از DNA یک بار بسیار کم است: یک بار خواندن ممکن است اشتباه باشد، و ما در مورد آن نمی دانیم. اگر یک قطعه را دو بار بخوانیم و یک نتیجه صحیح و یک نتیجه نادرست به دست آوریم، تشخیص اینکه کدام قرائت صحیح است برایمان مشکل خواهد بود. و اگر صد قرائت داشته باشیم و در 95 تای آنها همین نتیجه را ببینیم، می فهمیم که درست است.

گنادی زاخاروف:

برای تجزیه و تحلیل سرطان، باید سلول‌های سالم و بیمار را توالی‌بندی کنید. سرطان در نتیجه جهش هایی ظاهر می شود که یک سلول در طول زندگی خود جمع می شود. اگر مکانیسم های مسئول رشد و تقسیم آن در یک سلول بدتر شده باشد، آنگاه سلول بدون توجه به نیازهای بدن شروع به تقسیم نامحدود می کند، یعنی تبدیل به یک تومور سرطانی می شود. برای درک اینکه دقیقاً چه چیزی باعث سرطان می شود، نمونه ای از بافت سالم و یک تومور سرطانی از بیمار گرفته می شود. هر دو نمونه توالی یابی می شوند، نتایج با هم مقایسه می شوند و تفاوت یکی با دیگری را پیدا می کنند: کدام مکانیسم مولکولی در سلول سرطانی شکسته شده است. بر این اساس، دارویی انتخاب می شود که در برابر سلول های دارای "شکستگی" موثر باشد.

بیوانفورماتیک: تولید و منبع باز

بخش بیوانفورماتیک در EPAM دارای پروژه های تولیدی و متن باز است. علاوه بر این، بخشی از یک پروژه تولیدی می‌تواند به منبع باز تبدیل شود، و یک پروژه منبع باز می‌تواند به بخشی از تولید تبدیل شود (به عنوان مثال، زمانی که یک محصول منبع باز EPAM باید در زیرساخت مشتری ادغام شود).

پروژه شماره 1: گزینه تماس گیرنده

برای یکی از مشتریان خود، یک شرکت بزرگ داروسازی، EPAM برنامه گزینه تماس گیرنده را مدرن کرد. ویژگی آن این است که قادر به یافتن جهش هایی است که برای سایر برنامه های مشابه غیرقابل دسترسی هستند. در ابتدا این برنامه به زبان پرل نوشته شده بود و منطق پیچیده ای داشت. در EPAM، برنامه در جاوا بازنویسی شد و بهینه شد - اکنون 20، اگر نه 30 برابر سریعتر اجرا می شود.

کد منبع برنامه در GitHub موجود است.

پروژه شماره 2: نمایشگر مولکول سه بعدی

برنامه های دسکتاپ و وب زیادی برای تجسم ساختار مولکول ها به صورت سه بعدی وجود دارد. برای مثال، درک اینکه یک مولکول در فضا چگونه به نظر می رسد برای توسعه دارو بسیار مهم است. فرض کنید ما نیاز به سنتز دارویی داریم که اثر هدفمند دارد. اول، ما باید مولکول دارو را طراحی کنیم و مطمئن شویم که با پروتئین های مناسب آنطور که می خواهیم تعامل دارد. در زندگی، مولکول ها سه بعدی هستند، بنابراین در قالب ساختارهای سه بعدی نیز تجزیه و تحلیل می شوند.

برای مشاهده سه بعدی مولکول ها، EPAM یک ابزار آنلاین ایجاد کرد که در ابتدا فقط در پنجره مرورگر کار می کرد. سپس بر اساس این ابزار، نسخه ای را توسعه دادند که به شما امکان می دهد مولکول های عینک واقعیت مجازی HTC Vive را تجسم کنید. این عینک دارای کنترل‌کننده‌هایی است که می‌توان از آنها برای چرخاندن مولکول، حرکت آن، قرار دادن آن در کنار مولکول دیگر یا چرخش بخش‌های جداگانه مولکول استفاده کرد. انجام همه این کارها به صورت سه بعدی بسیار راحت تر از یک مانیتور تخت است. این بخش از پروژه بیوانفورماتیک EPAM به طور مشترک با بخش واقعیت مجازی، واقعیت افزوده و تحویل تجربه بازی انجام شد.

این برنامه به تازگی برای انتشار در GitHub آماده می شود، اما در حال حاضر پیوندی وجود دارد که می توانید نسخه آزمایشی آن را مشاهده کنید.

شما می توانید از طریق ویدیو متوجه شوید که کار با برنامه چگونه است.

پروژه شماره 3: مرورگر ژنومی NGB

مرورگر ژنوم خوانش های DNA، تغییرات و سایر اطلاعات تولید شده توسط ابزارهای تجزیه و تحلیل ژنوم را به تصویر می کشد. هنگامی که قرائت‌ها با ژنوم مرجع مقایسه می‌شوند و جهش‌ها پیدا می‌شوند، دانشمند باید بررسی کند که آیا ماشین‌ها و الگوریتم‌ها به درستی کار می‌کنند یا خیر. اینکه چگونه جهش‌ها در ژنوم دقیقاً شناسایی می‌شوند تعیین می‌کند که چه تشخیصی به بیمار داده می‌شود یا چه درمانی تجویز می‌شود. بنابراین در تشخیص بالینی یک دانشمند باید عملکرد ماشین ها را کنترل کند و مرورگر ژنومیک در این امر به او کمک می کند.

برای توسعه دهندگان بیوانفورماتیک، مرورگر ژنومیک به تجزیه و تحلیل موارد پیچیده برای یافتن خطاها در الگوریتم ها و درک چگونگی بهبود آنها کمک می کند.

مرورگر ژنومیک جدید NGB (مرورگر جدید ژنوم) از EPAM در وب کار می کند، اما از نظر سرعت و عملکرد از همتایان دسکتاپ خود کم نیست. این محصولی است که در بازار گم شده بود: ابزارهای آنلاین قبلی کندتر بودند و می توانستند کمتر از ابزارهای رومیزی کار کنند. امروزه بسیاری از مشتریان به دلایل امنیتی اپلیکیشن های وب را انتخاب می کنند. ابزار آنلاین به شما این امکان را می دهد که هیچ چیزی را روی رایانه کاری دانشمند نصب نکنید. با مراجعه به پورتال شرکتی می توانید از هر کجای دنیا با آن کار کنید. یک دانشمند مجبور نیست یک کامپیوتر کار را همه جا با خود حمل کند و تمام داده های لازم را که می تواند تعداد زیادی از آنها باشد را روی آن بارگیری کند.

گنادی زاخاروف، تحلیلگر تجاری:

من تا حدودی به عنوان مشتری روی ابزارهای منبع باز کار کردم: یک وظیفه تعیین کردم. من بهترین راه حل های موجود در بازار را مطالعه کردم، مزایا و معایب آنها را تجزیه و تحلیل کردم و به دنبال چگونگی بهبود آنها بودم. ما نیاز داشتیم که راه حل های وب را بدتر از همتایان دسکتاپ آنها نکنیم و در عین حال چیزی منحصر به فرد به آنها اضافه کنیم.

در نمایشگر مولکولی سه بعدی، این کار با واقعیت مجازی بود و در مرورگر ژنوم، کار با تغییرات بهبود یافته بود. جهش ها می توانند پیچیده باشند. تغییرات در سلول های سرطانی گاهی اوقات مناطق وسیعی را تحت تاثیر قرار می دهد. کروموزوم های اضافی در آنها ظاهر می شوند، قطعات کروموزوم و کروموزوم های کامل ناپدید می شوند یا به ترتیب تصادفی با هم ترکیب می شوند. تکه های تکی ژنوم را می توان 10 تا 20 بار کپی کرد. به دست آوردن چنین داده‌هایی اولاً دشوارتر از خواندن است و ثانیاً تجسم دشوارتر است.

ما یک تجسم کننده ایجاد کرده ایم که اطلاعات مربوط به چنین بازآرایی های ساختاری گسترده ای را به درستی می خواند. ما همچنین مجموعه‌ای از تجسم‌ها را ایجاد کردیم که وقتی کروموزوم‌ها با هم تماس پیدا می‌کنند، نشان می‌دهند که آیا پروتئین‌های هیبریدی به دلیل این تماس تشکیل شده‌اند یا خیر. اگر یک تنوع گسترده روی چندین پروتئین تأثیر بگذارد، با یک کلیک می‌توانیم محاسبه کنیم و نشان دهیم که در نتیجه چنین تغییراتی چه اتفاقی می‌افتد، چه پروتئین‌های ترکیبی به دست می‌آیند. در سایر تجسم‌کننده‌ها، دانشمندان باید این اطلاعات را به صورت دستی ردیابی می‌کردند، اما در NGB این یک فرآیند با یک کلیک است.

نحوه مطالعه بیوانفورماتیک

قبلاً گفتیم که بیوانفورماتیکان متخصصان ترکیبی هستند که باید هم زیست شناسی و هم علوم کامپیوتر را بدانند. خودآموزی نقش مهمی در این امر دارد. البته EPAM یک دوره مقدماتی در بیوانفورماتیک دارد، اما برای کارمندانی طراحی شده است که در پروژه به این دانش نیاز دارند. کلاس ها فقط در سن پترزبورگ برگزار می شود. و با این حال، اگر بیوانفورماتیک برای شما جالب است، فرصتی برای مطالعه وجود دارد: [ویدئو][اسلایدها]

انقلاب در فیزیک هسته ای سال ها پیش منجر به انباشت حجم عظیمی از داده ها شد که باید ذخیره و پردازش می شدند. فقط رایانه ها و سپس ابر رایانه ها می توانند این کار را انجام دهند.

رونق ژنومیک در 10-15 سال گذشته این سنت را ادامه داده و آن را چند برابر کرده است: تحقیقات زیست پزشکی به هر یک از ما مربوط می شود، به این معنی که داده های بیشتری تولید خواهد شد، به ویژه در پرتو ایده پزشکی شخصی و ... خواسته های داروسازی بزرگ در اینجا بدون دانش کامپیوتر و محصولات نرم افزاری کاری نمی توان انجام داد. اما علاوه بر این، شما باید به خوبی بدانید که چه چیزی را مطالعه کنید، چگونه داده ها را تجزیه و تحلیل کنید و چقدر می توانید به آنها اعتماد کنید. نحوه ذخیره و پردازش کجا باید درخواست داد و کجا استفاده کرد.

این سخنرانی بیشتر این "چگونه" ها را پوشش می دهد. هدف آلا صحبت در مورد اهمیت و گستردگی کاربردهای بیوانفورماتیک است.

2. فرآیند جهش و روش های مطالعه آن (الکسی کندراشوف، دانشگاه دولتی مسکو)

[ویدئو][اسلایدها]

فرآیند جهش اولین عامل از دو عامل ضروری در تکامل داروینی است. این سخنرانی درباره علل و مکانیسم‌های جهش، روش‌های اندازه‌گیری پارامترهای فرآیند جهش در زمان‌های کوتاه، متوسط و طولانی، داده‌های مربوط به میزان جهش و ساده‌ترین مدل‌های تأثیر جهش بر ساختار ژنتیکی یک جمعیت بحث می‌کند.

3. انتخاب طبیعی و روش های مطالعه آن (الکسی کندراشوف، دانشگاه دولتی مسکو)

[ویدئو][اسلایدها]

انتخاب طبیعی دومین عامل از دو عامل ضروری در تکامل داروینی است. این سخنرانی درباره علل و مکانیسم‌های انتخاب، روش‌ها و پارامترهای مورد استفاده برای توصیف و مطالعه آن، داده‌های مربوط به انتخاب در طبیعت و ساده‌ترین مدل‌های تأثیر انتخاب بر جمعیت بحث می‌کند.

4. رشد کودک و بیوانفورماتیک: مشکلات و راه حل ها (النا گریگورنکو، دانشگاه ییل)

[ویدئو][اسلایدها]

این سخنرانی در مورد چندین "رابط" بین علوم توسعه و بیوانفورماتیک صحبت می کند.
مشکلات تشخیص قبل از تولد و توالی یابی قبل از تولد و همچنین تعیین توالی اگزوم نوزادان مورد بحث قرار می گیرد.

این مقاله به بررسی تأثیر محیط رشد اولیه بر وضعیت متیلوم و علت ژنومی اختلالات رشد دوران کودکی می‌پردازد. در نهایت، مسائل اخلاقی مربوط به استفاده از اطلاعات ژنومی در تصمیم گیری های تشخیصی و فردی در مورد رشد کودک در نظر گرفته می شود.

5. توالی نسل بعدی: اصول، فرصت ها و چشم اندازها (ماریا لوگاچوا، دانشگاه دولتی مسکو)

[ویدئو][اسلایدها]

توالی یابی نسل بعدی (NGS) بسیاری از حوزه های تحقیقات بیولوژیکی و زیست پزشکی را متحول کرده است. این امکان به دست آوردن توالی ژن ها و ژنوم گونه های قبلاً مطالعه نشده را نسبتاً سریع و ارزان می دهد و همچنین با استفاده از مواد تعداد زیادی از افراد همان گونه، تنوع درون گونه ای را شناسایی کرده و ژن های مرتبط با صفات مورد علاقه را جستجو می کند. علاوه بر تعیین واقعی توالی ژنوم، NGS امکان تجزیه و تحلیل دقیق بیان ژن در بافت های مختلف بدن یا در شرایط مختلف را فراهم می کند و به طور گسترده در مطالعات اپی ژنتیک استفاده می شود.

این سخنرانی مروری بر روش های اصلی توالی، اصول فیزیکوشیمیایی آنها، ویژگی های آماده سازی نمونه، ویژگی های داده های به دست آمده، هزینه آنها و خطاهای معمولی ارائه می دهد. توجه ویژه ای به کاربرد روش های مختلف برای حل مسائل بیولوژیکی می شود و توصیه هایی برای طراحی آزمایش های مربوط به NGS ارائه می شود.

6. زیست شناسی ساختاری پروتئین ها: بررسی مشکلات و رویکردها (پاول یاکولف، BIOCAD)

[ویدئو][اسلایدها]

استفاده از توالی های اولیه به ما این امکان را می دهد که اکثر سوالات مربوط به اسیدهای نوکلئیک (DNA و RNA) را حل کنیم. هنگام مطالعه عملکرد پروتئین ها، دانش تنها توالی اولیه دیگر اجازه حل اکثر مسائل را نمی دهد. کدام پروتئین ها با یکدیگر تعامل خواهند داشت و با چه شدتی؟ آیا جایگزینی اسید آمینه باعث تغییر عملکرد پروتئین می شود؟ چگونه عوارض جانبی پروتئین دارویی را از بین ببریم یا اثربخشی آن را افزایش دهیم؟ حوزه بیوانفورماتیک، که الگوریتم‌هایی را برای مدل‌سازی شکل فضایی پروتئین‌ها و برهم‌کنش‌های آن‌ها ایجاد می‌کند، با هدف پاسخ به این سؤالات است.

7. مونتاژ جدید رونوشت ها (آرتم کاسیانوف، MIPT)

[ویدئو][اسلایدها]

با توجه به کاهش قابل توجه هزینه و افزایش بهره وری فناوری ها، تعداد پروژه های اختصاص داده شده به توالی یابی de novo ژنوم موجودات غیرمدل به طور قابل توجهی افزایش یافته است. در برخی موارد، توالی‌یابی و جمع‌آوری ژنوم به‌صورت de novo دشوار است - برای مثال، اگر اندازه آن بزرگ باشد. در چنین مواردی به مطالعه رونوشت متوسل می شوند. همچنین، تجزیه و تحلیل de novo رونوشت ممکن است در مورد مطالعه گونه‌هایی با تعداد زیادی از ژن‌های جایگزین شده ضروری باشد، زیرا حتی اگر یک ژنوم در دسترس باشد، تعیین فهرست کامل ایزوفرم‌ها بسیار دشوار است.

این سخنرانی به مسائل مربوط به جمع آوری داده های رونویسی در غیاب ژنوم اختصاص دارد. موضوعاتی مانند نمودارهای اسپلایس، برنامه های تثلیث و نوبلر، مقایسه و تحلیل مجموعه ها، مونتاژ رونویسی موجودات پلی پلوئید در نظر گرفته شده است.

8. تکامل الگوریتم های مونتاژ ژنوم (آنتون بانکویچ، SPbAU RAS)

[ویدئو][اسلایدها]

در حال حاضر، چندین نسل از روش های توالی یابی DNA وجود دارد. با این حال، فناوری‌های جدید بدون الگوریتم‌هایی که بتوانند نتایج خود را پردازش کنند، بی‌معنی هستند. روش‌های توالی‌یابی جدید در حال ظهور، چالش‌های الگوریتمی جدیدی را ایجاد می‌کنند. یکی از مهمترین این وظایف مونتاژ ژنوم است. این سخنرانی در مورد تکامل روش های توالی یابی و رویکردهای الگوریتمی به مونتاژ ژنومی صحبت می کند که با هر مرحله از این تکامل پدیدار شده و ادامه می یابد.

9. مقدمه ای بر زیست شناسی مولکولی و ژنتیک (پاول دوبرینین، دانشگاه ایالتی سن پترزبورگ)

[ویدئو][اسلایدها]

این سخنرانی به ساختار و سازماندهی DNA در پروکاریوت ها و یوکاریوت ها، مکانیسم های مولکولی مسئول حفظ و تولید مثل مواد ژنتیکی اختصاص دارد. مکانیسم های اصلی در پشت تنوع ژنتیکی و گزینه هایی برای اجرای مواد ژنتیکی مورد تجزیه و تحلیل قرار می گیرند.

10. مشکل هم ترازی محلی چندگانه و ساخت بلوک های سنتنی (ایلیا مینکین، دانشگاه ایالتی پنسیلوانیا)

[ویدئو][اسلایدها]

این سخنرانی دو مشکل الگوریتمی مشابه را در ژنومیک مقایسه ای مورد بحث قرار می دهد: هم ترازی محلی چندگانه و ساخت بلوک سنتنی. این الگوریتم ها نقش حیاتی در مقایسه توالی ژنوم کامل دارند. در مورد فرمول بندی مسائل و ایده های اساسی که برخی از الگوریتم های مدرن بر اساس آنها ساخته شده اند صحبت می کند.

11. چرا و چگونه ارائه ارائه کنیم (آندری آفاناسیف، iBinom)

[ویدئو][اسلایدها]

این سخنرانی در مورد انواع ارائه ها بحث می کند، چرا آنها واقعاً مورد نیاز هستند، و نحوه صحبت کردن را بیان می کند تا مخاطب همه چیز را بفهمد و به خواب نرود، همچنین از چه اشتباهاتی باید اجتناب کرد و چه کسی را در هنگام تهیه سخنرانی خود مثال بزنید. .

12. تجارت در بیوانفورماتیک (آندری آفاناسیف، iBinom)

[ویدئو][اسلایدها]

این سخنرانی نشان می دهد که چه شرکت های بیوانفورماتیکی در روسیه و جهان وجود دارند، چه کسی آنها را ایجاد کرده است و دقیقاً چگونه کسب درآمد می کند.
برنامه های بازیگران اصلی و روندهای صنعت مورد بحث قرار گرفت.

در قسمت پایانی سخنرانی، آندری در مورد سازماندهی استارتاپ خود یا انتخاب یک محل کار جدید، فکر می کند.

13. چشم اندازها و مشکلات زیست شناسی سیستم ها (ایلیا سربریسکی، مرکز سرطان فاکس چیس)

[ویدئو][اسلایدها]

هدف از این سخنرانی ارائه یک ایده کلی از خواص سیستمیک اجسام بیولوژیکی است. ایلیا سربریسکی در مورد مولفه های اصلی زیست شناسی سیستم ها، اینتراکتومیک و ساخت مدل، مشکلات اصلی زیست شناسی سیستم ها و تلاش برای حل آنها صحبت می کند. برخی از پیشرفت‌ها در زیست‌شناسی سیستم‌ها (عمدتاً در زمینه انکولوژی) مورد بحث قرار گرفته‌اند. منابع عمومی موجود برای زیست شناسی سیستم ها (TCGA/cBioPortal، CCLE) نیز بررسی می شوند.

14. آزمایشگاه زیست شناسی سیستم ها (ایلیا سربریسکی، مرکز سرطان فاکس چیس)

[ویدئو][اسلایدها]

این درس به ایجاد شبکه‌های تعاملی بر اساس پایگاه‌های اطلاعاتی در دسترس عموم اختصاص دارد. از پایگاه های داده و سرویس های وب مانند Entrez، GeneMANIA، BioGRID و غیره استفاده شد. روش های مختلفی برای تجسم شبکه های تعامل در نظر گرفته شده است، به ویژه با استفاده از برنامه Cytoscape.

15. متاژنومیکس (Alla Lapidus، SPbAU RAS)

[ویدئو][اسلایدها]

میکروب ها همه جا هستند، میکروب ها بر جهان حکومت می کنند، اما همه آنها را نمی توان در شرایط آزمایشگاهی ملاقات کرد. ما نمی دانیم که چگونه اکثریت قریب به اتفاق آنها را رشد دهیم، به این معنی که آنها باید به نحوی از زیستگاه طبیعی خود - زمین، آب، از زیر ریشه درختان و غیره، جایی که در گروه های بزرگ زندگی می کنند، حذف شوند.

متاژنومیکس در این مطالعات بسیار گیج کننده کمک می کند. او همچنین به غذا دادن، گرم کردن، درمان مردم و دستگیری مجرمان کمک می کند. این سخنرانی به همه اینها و بیوانفورماتیک در متاژنومیکس اختصاص داشت.

16. مسئله آزمون فرضیه های آماری متعدد (آنتون کوروبینیکوف، دانشگاه ایالتی سن پترزبورگ، دانشگاه کشاورزی سن پترزبورگ RAS)

[ویدئو][اسلایدها]

این سخنرانی مشکل کلاسیک آزمایش چندین فرضیه به طور همزمان را بررسی می کند. مشکلاتی از این دست همیشه به وجود می آیند، به عنوان مثال، در طول جست و جوی ارتباط ژنومی یا تجزیه و تحلیل داده های ریزآرایه. راه حل های ممکن برای این مشکل در نظر گرفته شده است، از رویکرد کلاسیک بونفرونی شروع می شود و به روش هایی ختم می شود که به شما امکان می دهد FDR (نرخ کشف نادرست) را کنترل کنید.

17. نحوه استفاده صحیح و نادرست از آمار (نیکیتا آلکسیف، دانشگاه ایالتی سن پترزبورگ، دانشگاه جورج واشنگتن)

[ویدئو][اسلایدها]

این سخنرانی به اشتباهات در استفاده از آمار و راه های پیشگیری از آنها اختصاص دارد. به طور خاص، پاسخ به این سؤال داده می شود: در چه شرایطی می توان از معیارهای استاندارد برای مقایسه نمایندگان نمونه یک نمونه استفاده کرد، و اگر معیارهای استاندارد مناسب نباشند چه باید کرد؟

18. مدل های ریاضی تنظیم بیان ژن (ماریا سامسونوا، دانشگاه پلی تکنیک ایالتی سنت پترزبورگ)

[ویدئو][اسلایدها]

درک مکانیسم های ظریف تنظیم فعالیت ژن شرط لازم برای رمزگشایی مکانیسم های بیماری در انسان است. متأسفانه، امروزه چنین درکی وجود ندارد: ما نمی‌توانیم به طور رضایت‌بخش توضیح دهیم که چگونه گروه‌هایی از فاکتورهای رونویسی با یکدیگر، با پروتئین‌های کروماتین، سایر پروتئین‌های آداپتور و کمپلکس RNA پلیمراز برهم‌کنش دارند، و همچنین نمی‌توانیم توضیح دهیم که چگونه و چرا این یا آن بخش از توالی DNA می‌تواند کنترل کند. یک الگوی پیچیده، مکانی محدود و تعیین شده در زمان بیان ژن.

مدل‌سازی ریاضی با توصیف مکانیکی و کمی فرآیند به درک مکانیسم‌های تنظیم ژن کمک می‌کند. این سخنرانی دو رویکرد رایج برای مدل‌سازی بیان ژن را مورد بحث قرار می‌دهد - بر اساس معادلات غیرخطی واکنش - انتشار و تعادل ترمودینامیکی. مراحل ساخت چنین مدل هایی به صورت متوالی در نظر گرفته شده و نمونه هایی از استفاده از آنها برای تولید دانش جدید آورده شده است.

19. تراز توالی نیمه محلی و محلی (الکساندر تیسکین، دانشگاه وارویک)

[ویدئو][اسلایدها]

محاسبه طولانی‌ترین زیر دنباله مشترک (LCS) دو رشته یکی از مسائل الگوریتمی کلاسیک است که کاربردهای گسترده‌ای در علوم کامپیوتر و زیست‌شناسی محاسباتی دارد، جایی که به عنوان «هم‌ترازی توالی جهانی» شناخته می‌شود. بسیاری از برنامه ها نیاز به تعمیم این مشکل دارند که ما آن را محاسبات LCS نیمه محلی یا "تراز نیمه محلی" می نامیم. در این مورد، شما باید LCS را بین یک رشته و همه زیر رشته‌های رشته دیگر، و/یا بین تمام پیشوندهای یک رشته و همه پسوندهای رشته دیگر محاسبه کنید. علاوه بر نقش مهم این مسئله تعمیم یافته در الگوریتم های رشته ای، دارای ارتباطات غیرمنتظره ای با جبر نیمه گروهی و هندسه محاسباتی، با شبکه های مقایسه و همچنین کاربردهای عملی در زیست شناسی محاسباتی است. علاوه بر این، وظیفه محاسبه LCS نیمه محلی می تواند به عنوان یک رویکرد منعطف و کارآمد برای تراز (کاملا) محلی توالی های بیولوژیکی استفاده شود.

این سخنرانی یک راه حل کارآمد برای مشکل محاسبه LCS نیمه محلی ارائه می دهد و یک نمای کلی از نتایج و برنامه های اصلی مرتبط ارائه می دهد. اینها شامل پشتیبانی پویا LCS می شود. محاسبه سریع دسته ها در برخی از نمودارهای خاص. مقایسه سریع رشته های فشرده؛ محاسبات موازی روی رشته ها

20. تجزیه و تحلیل خانواده های توالی های مولکولی (Sergey Nurk، SPbAU RAS)

[ویدئو][اسلایدها]

بیوانفورماتیکان هنگام حل مشکلات مختلف، از جست‌وجوی موتیف‌های تنظیم‌کننده تا پیش‌بینی عملکرد پروتئین، باید با کل «خانواده‌های» توالی‌های نوکلئوتیدی یا اسید آمینه مرتبط با تکامل کار کنند. این سخنرانی راه‌های مختلف نمایش چنین خانواده‌هایی را که در ابزارها و پایگاه‌های اطلاعاتی محبوب بیوانفورماتیک استفاده می‌شوند، مورد بحث قرار می‌دهد. نحوه رمزگشایی الگوی PROSITE و تفسیر لوگوی توالی، تفاوت بین پروفایل HMM و PSSM و همچنین نحوه جلوگیری از اشتباه در هنگام ساخت آنها و تجزیه و تحلیل نتایج توضیح داده شده است.

21. اپی ژنومیک، RNA و همه چیزها (آندری میرونوف، IITP RAS)

[ویدئو][اسلایدها]

این سخنرانی مروری بر مفهوم اپی ژنتیک ارائه می دهد. سطوح سازماندهی ساختاری کروماتین در نظر گرفته شده است، تغییرات اپی ژنومیک مختلف شرح داده شده است: تغییرات هیستون، متیلاسیون نقوش CpG. تأثیر آنها بر بیان ژن مورد بحث قرار گرفته است.
نقش تغییرات اپی ژنومیک در اسپلایسینگ، منقوشی و ... نیز مورد توجه قرار می گیرد.

سیستم XIST (رونوشت خاص غیرفعال سازی X)، RNA های ضد حس، اتصال، و مقررات وابسته به RNA شرح داده شده است.
مدل هایی برای مطالعه تغییرات اپی ژنومیک نیز در نظر گرفته شده است.

22. کنترل کیفیت داده NGS (کنستانتین اوکونچنیکوف، موسسه زیست شناسی عفونت ماکس پلانک)

[ویدئو][اسلایدها]

این سخنرانی خطاهای توالی مشخصه فن آوری های NGS را توصیف می کند. نمونه هایی از چنین خطاهایی عبارتند از: تقویت PCR، خطاهای خواندن توالی خاص، توزیع ناهموار ترکیب GC و موارد دیگر. روش های مختلفی برای ارزیابی این خطاها و در نظر گرفتن آنها در تجزیه و تحلیل مورد بحث قرار می گیرد. موضوع روش های حل عملی و ابزارهای نرم افزاری موجود مطرح می شود.

23. کنترل کیفیت داده های NGS، سمینار (کنستانتین اوکونچنیکوف، موسسه زیست شناسی عفونت ماکس پلانک)

[ویدئو][اسلایدها]

در طول کارگاه، شرکت کنندگان یاد گرفتند که مهارت های برنامه نویسی را برای کنترل کیفیت داده های NGS به کار ببرند. فرمت‌های داده‌های BAM/SAM، کتابخانه‌های pysam و pyplot و مفاهیم اساسی مورد بحث قرار گرفتند. به طور خاص، نمونه هایی از محاسبه ترکیب GC، تخمین فراوانی تکرارها، توزیع طول درج، و محاسبه پوشش در پنجره ها مورد بحث قرار می گیرد.

24. توالی یابی عملی RNA (Konstantin Okonechnikov، موسسه ماکس پلانک برای زیست شناسی عفونت)

[ویدئو][اسلاید 1] [اسلاید 2]

این سمینار به مسئله عملی تجزیه و تحلیل داده های RNA-seq پرداخت.
در قالب ارائه و تمرین، روش‌ها مورد بحث و بررسی قرار گرفت: هم‌ترازی خواندن، کنترل کیفیت اولیه، خطوط لوله برای مطالعه بیان ژن DESeq و Cufflinks، یافتن ایزوفرم‌های رونوشت، جستجوی ژن‌های ترکیبی.

25. رویکردهای بیوانفورماتیک برای مطالعه و درمان سرطان با استفاده از مثال سرطان ریه (ماریا شوتووا، IOGEN RAS)

[ویدئو][اسلایدها]

سرطان یکی از شایع ترین و خطرناک ترین بیماری هاست. به دلیل سهم عظیم جهش های انباشته شده و جدید در ظهور و توسعه آن، "بیماری ژنوم" نامیده می شود. مشخص است که نه تنها وضعیت ژنوم، بلکه وضعیت رونویسی و حتی اپی ژنتیک سلول های سرطانی اولیه و همچنین هموستاز پیچیده یک تومور در حال رشد مستقیماً بر ویژگی های آن و از همه مهمتر حساسیت به درمان تأثیر می گذارد. تنها فرصت برای درک این درهم تنیده عوامل وابسته به هم توسط بیوانفورماتیک فراهم شده است. این سخنرانی به بررسی سوالات اصلی مرتبط با مطالعه تشکیل تومور و راه های ممکن برای پاسخ به آنها با استفاده از رویکردهای بیوانفورماتیک می پردازد.

26. اومیکس جدید در زیست شناسی انسان: متابولومیک و لیپیدومیکس (فیلیپ خایتوویچ، اسکلتک)

[ویدئو][اسلایدها]

تعیین توالی ژنوم انسان، مطالعه تغییرات ژنتیکی انسان، تعیین توالی متاژنوم انسانی، تجزیه و تحلیل رونویسی بافت انسانی - همه این روش‌های بیولوژیکی، وقتی برای داده‌های بزرگ به کار می‌روند، اطلاعات ارزشمندی در مورد آنچه انسان را از سایر حیوانات متمایز می‌کند به دانشمندان داده است.

این سخنرانی به "اومیکس" جدید اختصاص دارد که به ما امکان می دهد هنگام مطالعه مغز و سایر بافت ها - متابولومیک و لیپیدومیکس - به سؤالات مربوط به بدن انسان پاسخ دهیم.

27. مونتاژ ژنوم: نگاهی به فردا (آندری پرژیبلسکی، SPbAU RAS)

[ویدئو][اسلایدها]

در سال‌های اخیر، فناوری‌های توالی‌یابی نسل بعدی گام مهمی به جلو برداشته‌اند: IonTorrent و Pacific Biosciences ظاهر شدند، Ilumina تعدادی پروتکل جدید ایجاد کرد. اما، همانطور که مشخص است، همه اینها برای حل مشکل مونتاژ ژنوم کافی نیست. رفتن از استخراج DNA به یک ژنوم کامل معمولاً به ده‌ها متخصص مختلف، صدها هزار دلار و سال‌ها کار نیاز دارد. بنابراین، امروزه این وظیفه هم از نظر بیوتکنولوژی و هم از نظر بیوانفورماتیک مرتبط باقی می ماند. این سخنرانی به بررسی آخرین پیشرفت‌ها در روش‌های مونتاژ ژنوم، آخرین انواع داده‌هایی می‌پردازد که ممکن است اجازه دهند این کار به سطح بعدی ارتقا یابد، و چشم‌انداز ژنومیک در آینده نزدیک.

به جای نتیجه گیری

تحصیلات

مدرسه تابستانی

افزودن برچسب

مفهوم بیوانفورماتیک

بیوانفورماتیک معمولاً به استفاده از رایانه برای حل مسائل بیولوژیکی اشاره دارد. در حال حاضر، اینها تقریباً منحصراً وظایف زیست شناسی مولکولی هستند. دلیل این امر این است که در طی 20-25 سال گذشته، مواد آزمایشی واقعا عظیمی به طور خاص بر روی ساختار و عملکرد مولکول های بیولوژیکی (پروتئین ها و اسیدهای نوکلئیک) انباشته شده است؛ به عنوان مثال، ذکر ژنوم انسان کافی است. این ماده برای تجزیه و تحلیل خود به روش های کامپیوتری پیشرفته نیاز دارد. بنابراین بیوانفورماتیک در اکثر مراکز علمی دنیا مترادف زیست شناسی مولکولی محاسباتی است.

چندین جهت اصلی این شاخه از علم وجود دارد، بسته به

اشیاء مورد مطالعه:

* بیوانفورماتیک توالی.
* بیوانفورماتیک ساختاری.
*ژنومیک محاسباتی

جهت های اصلی بیوانفورماتیک بسته به اشیاء مورد مطالعه

توالی بیوانفورماتیک

توالی بیوانفورماتیک

این شاخه از بیوانفورماتیک به تجزیه و تحلیل توالی های نوکلئوتیدی و پروتئینی می پردازد. در حال حاضر روش های تجربی موثری برای تعیین توالی نوکلئوتیدی توسعه یافته است. تعیین توالی نوکلئوتیدی به یک روش معمول و خودکار تبدیل شده است. در نتیجه یک روش معمول و خودکار، حجم عظیمی از متون ژنتیکی قبلاً به دست آمده است. بنابراین، از 15 فوریه 2007، پایگاه داده EMBL 87،000،493 سند را ذخیره می کند که توالی های نوکلئوتیدی را توصیف می کند، که در مجموع شامل 157545686001 کاراکتر (نوکلئوتید) است، که تقریباً مربوط به کتابخانه ای از 105 جلد ضخیم با فونت منظم است. یافتن ژن مناسب در EMBL مانند یافتن یک استناد در چنین کتابخانه ای است. بدون کمک کامپیوتر، انجام این کار، به بیان ساده، بسیار دشوار است. و حجم داده ها به طور تصاعدی در حال افزایش است.

بیایید ژنوم یک باکتری کوچک را تصور کنیم - این یک رشته پیوسته به طول 1-10 میلیون کاراکتر است، و نه همه کدهای DNA برای پروتئین ها. اولین نوع کار بیوانفورماتیک، جستجو در توالی های نوکلئوتیدی برای نواحی خاص، نواحی کدکننده پروتئین، مناطق کدکننده RNA (مثلا tRNA)، مکان های اتصال برای پروتئین های تنظیم کننده و غیره است. و اینها همیشه کارهای ساده ای نیستند. برای مثال، ژن‌های موجودات یوکاریوتی از قطعات متناوب «معنادار» و «بی‌معنی» (اگزون‌ها و اینترون‌ها) تشکیل شده‌اند، و فاصله بین قطعات «معنادار» می‌تواند به هزاران نوکلئوتید برسد.

بگذار ژن پیدا شود. چه چیزی را رمزگذاری می کند؟ چرا نیاز است؟

اگر ما در مورد بخشی از DNA صحبت می کنیم که یک پروتئین را کد می کند، با استفاده از یک عملیات بسیار ساده - ترجمه با استفاده از یک کد ژنتیکی شناخته شده - می توان به دست آورد. توالی اسیدهای آمینه (پروتئین). از 4,273,512 پروتئینی که تا به امروز شناخته شده است، حدود 94 درصد از توالی ها فقط چنین ترجمه های فرضی هستند و هیچ چیز بیشتری در مورد آنها شناخته شده نیست. سرعت اطلاعاتی که از ترتیب دهنده های خودکار به دست می آید از سرعت درک ما از معنای آن بیشتر است! اما اشیاء بیولوژیکی اشیایی هستند که در فرآیند تکامل پدید آمده اند. رویکرد تکاملی تطبیقی یکی از قدرتمندترین رویکردها در زیست شناسی است. به عنوان مثال، عملکرد یک پروتئین از یک موجود زنده به خوبی مورد مطالعه تجربی قرار گرفته است؛ پروتئینی با یک توالی اسید آمینه مشابه در موجود دیگر یافت شده است. می توان فرض کرد که پروتئین دوم (ناشناخته) عملکرد مشابه یا مشابهی را انجام می دهد. و در اینجا بلافاصله چندین سؤال مطرح می شود. اول، توالی مشابه به چه معناست؟ چگونه توالی ها را با هم مقایسه کنیم؟ تا چه حد از شباهت توالی می توانیم فرض کنیم که پروتئین ها عملکردهای مشابهی دارند؟ مقایسه توالی (هم ترازی) یک کار حیاتی در بیوانفورماتیک است. پیدا کردن یک زیست شناس مدرن که هرگز از برنامه های Blastp و ClustalX استفاده نکرده باشد دشوار است؛ ظاهر این برنامه ها در حال حاضر موفقیت بزرگی در بیوانفورماتیک است. اما بیوانفورماتیکان مدرن خوشحال نیستند و دائماً در حال بهبود روش های تراز کردن هستند. مثال‌های زیادی وجود دارد که چگونه رویکرد تکاملی تطبیقی در ترکیب با روش‌های بیوانفورماتیک دانش بیولوژیکی جدیدی تولید می‌کند.

متون ژنتیکی متن هایی با مقدار زیادی نویز هستند؛ با مقایسه توالی های مرتبط، در برخی موارد می توان نویز را فیلتر کرد و سیگنالی را شناسایی کرد، به عنوان مثال، یک توالی کوتاه از نوکلئوتیدها که قادر به اتصال به یک پروتئین تنظیم کننده یا آمینو هستند. بقایای اسید در آنزیمی که مسئول اتصال سوبسترا است. برای اطمینان از نتیجه، بیوانفورماتیکان از نظریه احتمال و آمار ریاضی استفاده می کنند. به طور خلاصه، می توان گفت که وظایف اصلی بیوانفورماتیک مرتبط با تجزیه و تحلیل توالی های فردی به شرح زیر است:

* تراز و تعیین شباهت دو دنباله
* ساخت ترازهای متعدد
* تشخیص ژن
* پیش بینی مکان های اتصال پروتئین تنظیمی
*پیش بینی ساختار ثانویه RNA

ایجاد فناوری های آزمایشی جدید تعدادی چالش جدید برای بیوانفورماتیک ایجاد می کند. به عنوان مثال، توسعه طیف سنجی جرمی امکان تجزیه و تحلیل کل مجموعه پروتئین های موجود در یک سلول را در یک آزمایش (تا کنون، در اصل) ممکن می سازد. برای حل این مشکل، تجزیه و تحلیل مشترک طیف جرمی و ژنوم مورد نیاز است. کشف پدیده ها و مکانیسم های بیولوژیکی جدید نیز منجر به پیدایش مشکلات جدید می شود. یک مثال خوب، کشف تداخل RNA است که جایزه نوبل فیزیولوژی در سال 2006 برای آن اعطا شد. این کشف موج کاملی از کار بیوانفورماتیک را به وجود آورد که به جستجوی مکان‌های اتصال برای microRNAها و microRNAهای جدید اختصاص یافت. سپس بسیاری از یافته ها به صورت تجربی تایید شدند.

حرفه: بیوانفورماتیک

آن چیست؟

علوم کامپیوتر شاخه ای از علم است که به مطالعه ساختار و ویژگی های کلی اطلاعات و همچنین مسائل مربوط به جمع آوری، ذخیره سازی، جستجو، پردازش، تبدیل، توزیع و استفاده از آن در زمینه های مختلف فعالیت می پردازد. بیوانفورماتیک نامی است که برای علم کامپیوتر در زیست شناسی مولکولی به کار می رود.

همه می دانند که ژنوم انسان خوانده شده است. ژنوم از دیدگاه علم کامپیوتر چیست؟ این متن طولانی حاوی حدود 3 میلیارد حرف (نوکلئوتیدهای A، T، G، C) است. همین. یکی از مشکلات بیوانفورماتیک تثبیت معنای این متن است.

البته علاوه بر خود توالی DNA، اطلاعات تجربی اضافی زیادی نیز وجود دارد.

همه ژن های انسان شناخته شده نیستند و هیچ داده ای در مورد عملکرد بسیاری از ژن ها وجود ندارد. هدف بیوانفورماتیک یافتن ژن‌های ناشناخته قبلی و توصیف عملکرد احتمالی آنهاست. ژن ها چگونه یافت می شوند؟ این کار سختی است. اینجاست که ریاضیات به کمک می آید. در مجموعه ای عظیم از اطلاعات، با استفاده از روش های نوین ریاضی، الگوهای پنهانی جستجو می شوند که یافتن ژن ها و پیش بینی خواص آنها را ممکن می سازد.

وقتی درباره ژنوم صحبت می‌شود، معمولاً با رمزگشایی نسخه‌های خطی باستانی تشبیه می‌کنند، در حالی که متن شناخته شده است، اما زبان آن نیست. تا زمانی که از محتوای متن اطلاعی نداشته باشیم این کار حل نشدنی است. با این حال، اگر حداقل یک ایده تقریبی از آنچه این متن در مورد آن است داشته باشیم، امیدی برای درک آن وجود دارد. بیوانفورماتیک بهتر از رمزگشایی نوشته‌های باستانی است، زیرا پیش‌بینی‌های آن را می‌توان آزمایش کرد.

ژن ها پروتئین ها را رمزگذاری می کنند، بنابراین پیش بینی عملکرد ژن مانند پیش بینی عملکرد پروتئین است. برای بسیاری از پروتئین ها، عملکردها از آزمایش مشخص شده است. با استفاده از این داده ها، روش قیاس ها و سایر روش های ریاضیات مدرن، گاهی اوقات می توان عملکرد پروتئین های دیگر را پیش بینی کرد.

امروزه آزمایشگاه های مدرن اغلب از تکنیک آزمایش های انبوه استفاده می کنند، زمانی که اطلاعاتی در مورد هزاران ژن در یک آزمایش به دست می آید. این دریای اطلاعات را فقط با استفاده از کامپیوتر می توانید درک کنید. پروژه ژنوم انسانی نمونه بارز این رویکرد است. مثالی دیگر. اگر فعالیت همه ژن ها را در یک سلول سالم و سرطانی تعیین کنید، پس از تجزیه و تحلیل داده ها می توانید دریابید که کدام ژن ها مسئول انحطاط یک سلول سالم به یک سلول سرطانی هستند. اگر چنین داده های تجربی حاوی نویز زیادی نباشد، همه چیز ساده خواهد بود. خطاها

ژن ها توالی DNA هستند، پروتئین ها توالی اسید آمینه هستند. عملکرد پروتئین ها با شکل فضایی آنها تعیین می شود. علاوه بر این، پروتئین هایی با توالی های اسید آمینه مختلف می توانند ساختار فضایی بسیار مشابهی داشته باشند. یکی از مشکلات کلاسیک (و هنوز حل نشده) بیوانفورماتیک، پیش‌بینی ساختار فضایی یک پروتئین از روی توالی اسید آمینه آن است. بیش از 5 سال است که مسابقات بین المللی در روش های پیش بینی ساختار فضایی یک پروتئین از روی توالی آن وجود دارد.

چرا این جالب است؟

تجزیه و تحلیل ژنوم ها اطلاعات جدیدی را به ارمغان می آورد. در حال حاضر بیش از 200 ژنوم از باکتری های مختلف رمزگشایی شده است که هر کدام حاوی چندین هزار ژن است. مشخص کردن یک ژن واحد مستلزم ماه ها کار سخت آزمایشگران است. از سوی دیگر، برای توصیف یک ژنوم باکتری با جزئیات کافی با استفاده از بیوانفورماتیک، حدود یک ماه کار گروه کوچکی از محققان کافی است.

ژنوم انسان حاوی حدود 35 هزار ژن است (تنها 10 برابر بیشتر از یک باکتری و 2 برابر بیشتر از یک مگس میوه) و تعداد پروتئین های سنتز شده بسیار بیشتر است. موضوع چیه؟ معلوم می شود که اغلب یک ژن چندین شکل مختلف پروتئین را کد می کند. این مسئول پدیده ای به نام است پیوند جایگزین. بیوانفورماتیک برای اولین بار نشان داده است که تعداد ژن‌های دارای پیوند جایگزین بسیار زیاد است. این یک راز باقی مانده است که چگونه همه اینها تنظیم می شود.

لازم نیست همه ژن ها به طور همزمان در یک سلول کار کنند. برای اینکه ژن‌ها مانند یک ارکستر هماهنگ عمل کنند، لازم است که ژن‌ها تنها زمانی روشن شوند که کارشان ضروری است. این توسط سیستم تنظیم ژن مدیریت می شود، تجزیه و تحلیل آن امکان کشف روش های اساساً جدید تنظیم را فراهم کرد - ریبوسوئیچ ها.

جهت دیگر مطالعه تکامل همه موجودات زنده است. اکتشافات زیادی در اینجا نیز وجود دارد، مانند انتقال افقی ژن بین گونه ها. بیوانفورماتیک در برخی موارد نه تنها نشان دادن این موارد، بلکه تاریخ گذاری آنها را نیز ممکن می سازد.

چرا این لازم است؟

زیست شناسی و بیوانفورماتیک نه تنها راه هایی برای درک جهان هستند، بلکه اهمیت کاربردی نیز دارند، در درجه اول در پزشکی و بیوتکنولوژی.

بیوانفورماتیک نقش مهمی در جستجوی داروهای جدید و اهداف آنها و همچنین در رد داروهای بی‌امید دارد. بگذارید برای شما مثالی بزنم.

همه شما درباره صابون Safeguard شنیده اید که میکروب ها را از بین می برد. معلوم شد که استرپتوکوک های بسیار خطرناکی وجود دارد که به اصل فعال آن - تریکلوزان - حساس نیستند. این ابتدا با استفاده از تجزیه و تحلیل کامپیوتری ژنوم استرپتوکوک نشان داده شد و سپس به صورت تجربی تایید شد.

مثال دیگر تجزیه و تحلیل داده های ژنتیکی افراد سالم و مبتلایان به برخی بیماری ها مانند بیماری عروق کرونر قلب است. هیچ ژن واحدی مسئول این بیماری نیست. با این حال، مقایسه داده ها در مورد تعداد زیادی از بیماران، یافتن به اصطلاح انجمن ها - مجموعه ای از ژن های مستعد ابتلا به یک بیماری خاص را ممکن می سازد، و از این طریق امکان تعیین یک گروه خطر ژنتیکی را فراهم می کند.

بیوانفورماتیک به طور گسترده ای در بیوتکنولوژی استفاده می شود، وظیفه آن به طور کلی به دست آوردن حداکثر محصول مورد نظر از 1 گرم، به عنوان مثال، شکر است. برای این کار لازم است مسیرهای بیوسنتز به طور دقیق مورد مطالعه قرار گیرد، سیستم تنظیمی مورد مطالعه قرار گیرد و آنزیم های موثرتر در موجودات دیگر یافت شود. در اینجا نیز بیوانفورماتیک می تواند تمام کارهای مقدماتی را به عهده بگیرد.

اهمیت این حوزه از علم را می توان به طور غیر مستقیم نشان داد. کافی است بگوییم که چندین مرکز علمی بزرگ بیوانفورماتیک در دنیا وجود دارد و شرکت های تجاری ارائه دهنده خدمات بیوانفورماتیک هستند. هر شرکت داروسازی یا بیوتکنولوژی بزرگ یا متوسط دارای بخش بیوانفورماتیک است. اکنون بسیاری از دانشگاه ها در این زمینه متخصص تربیت می کنند. صنعت داروسازی و بیوتکنولوژی در کشور ما در حال احیا است که به زودی نیاز به متخصص دارد. علم دانشگاهی نیز به بیوانفورماتیکان شایسته نیاز دارد.

چه چیزی را باید بدانید و بتوانید انجام دهید؟

یک بیوانفورماتیک شایسته باید تحصیلات متنوعی داشته باشد. او باید زیست شناسی را خوب بداند. علاوه بر این، او باید در بسیاری از روش های ریاضی مهارت داشته باشد: آمار، نظریه احتمال، ریاضیات محاسباتی، نظریه الگوریتم ها. شما باید فیزیک و شیمی بدانید تا کارهای احمقانه انجام ندهید. برای خواندن ادبیات علمی باید انگلیسی بلد باشید. ما باید دائماً به نتایج جدید هم در بیوانفورماتیک و هم در زیست شناسی به طور کلی علاقه مند باشیم.

به طور کلی، شما باید فردی بافرهنگ باشید و دائماً برای یادگیری چیزهای جدید تلاش کنید.

مطالب موضوعی:

جهت های اصلی بیوانفورماتیک بسته به موضوعات مورد مطالعه مراحل توسعه بیوانفورماتیک

کار تحقیقی "چرا برگها سبز هستند" نقشه فناوری درس زیست شناسی

توالی رشد قورباغه

چرا رویای یک درخت کریسمس سبز را می بینید؟

سال بز (گوسفند) طبق فال چینی: چه نوع افراد آرام و خلاقی هستند

سال بز از نظر فال شرقی: چه نوع افرادی در این علامت متولد می شوند

چگونه می دانید که عزیزتان باز خواهد گشت؟

قمری روز به تاریخ طالع بینی تولد قمری

به روز رسانی: 1392/12/15

103583

اگر متوجه خطایی شدید، یک متن را انتخاب کنید و Ctrl+Enter را فشار دهید

اشتراک گذاری:

میخائیل گلفاند، بیوانفورماتیک: «جایزه نوبل زیست شناسی اکنون معنایی ندارد. جهت های اصلی بیوانفورماتیک بسته به موضوعات مورد مطالعه مراحل توسعه بیوانفورماتیک

1. بیوانفورماتیک چیست؟

2. اهداف و اهداف بیوانفورماتیک

3. جهت های اصلی بیوانفورماتیک

4. مراحل توسعه بیوانفورماتیک

5. انواع پایگاه داده

چرا زیست شناسی دیگر نمی تواند بدون علوم کامپیوتر کنار بیاید و سرطان چه ارتباطی با آن دارد؟

بیوانفورماتیک در EPAM

چگونه یک بیوانفورماتیک شویم؟

نحوه خواندن ژنوم

بیوانفورماتیک: تولید و منبع باز

پروژه شماره 1: گزینه تماس گیرنده

پروژه شماره 2: نمایشگر مولکول سه بعدی

پروژه شماره 3: مرورگر ژنومی NGB

نحوه مطالعه بیوانفورماتیک

2. فرآیند جهش و روش های مطالعه آن (الکسی کندراشوف، دانشگاه دولتی مسکو)

3. انتخاب طبیعی و روش های مطالعه آن (الکسی کندراشوف، دانشگاه دولتی مسکو)

4. رشد کودک و بیوانفورماتیک: مشکلات و راه حل ها (النا گریگورنکو، دانشگاه ییل)

5. توالی نسل بعدی: اصول، فرصت ها و چشم اندازها (ماریا لوگاچوا، دانشگاه دولتی مسکو)

6. زیست شناسی ساختاری پروتئین ها: بررسی مشکلات و رویکردها (پاول یاکولف، BIOCAD)

7. مونتاژ جدید رونوشت ها (آرتم کاسیانوف، MIPT)

8. تکامل الگوریتم های مونتاژ ژنوم (آنتون بانکویچ، SPbAU RAS)

9. مقدمه ای بر زیست شناسی مولکولی و ژنتیک (پاول دوبرینین، دانشگاه ایالتی سن پترزبورگ)

10. مشکل هم ترازی محلی چندگانه و ساخت بلوک های سنتنی (ایلیا مینکین، دانشگاه ایالتی پنسیلوانیا)

11. چرا و چگونه ارائه ارائه کنیم (آندری آفاناسیف، iBinom)

12. تجارت در بیوانفورماتیک (آندری آفاناسیف، iBinom)

13. چشم اندازها و مشکلات زیست شناسی سیستم ها (ایلیا سربریسکی، مرکز سرطان فاکس چیس)

14. آزمایشگاه زیست شناسی سیستم ها (ایلیا سربریسکی، مرکز سرطان فاکس چیس)

15. متاژنومیکس (Alla Lapidus، SPbAU RAS)

16. مسئله آزمون فرضیه های آماری متعدد (آنتون کوروبینیکوف، دانشگاه ایالتی سن پترزبورگ، دانشگاه کشاورزی سن پترزبورگ RAS)

17. نحوه استفاده صحیح و نادرست از آمار (نیکیتا آلکسیف، دانشگاه ایالتی سن پترزبورگ، دانشگاه جورج واشنگتن)

18. مدل های ریاضی تنظیم بیان ژن (ماریا سامسونوا، دانشگاه پلی تکنیک ایالتی سنت پترزبورگ)

19. تراز توالی نیمه محلی و محلی (الکساندر تیسکین، دانشگاه وارویک)

20. تجزیه و تحلیل خانواده های توالی های مولکولی (Sergey Nurk، SPbAU RAS)

21. اپی ژنومیک، RNA و همه چیزها (آندری میرونوف، IITP RAS)

22. کنترل کیفیت داده NGS (کنستانتین اوکونچنیکوف، موسسه زیست شناسی عفونت ماکس پلانک)

23. کنترل کیفیت داده های NGS، سمینار (کنستانتین اوکونچنیکوف، موسسه زیست شناسی عفونت ماکس پلانک)

24. توالی یابی عملی RNA (Konstantin Okonechnikov، موسسه ماکس پلانک برای زیست شناسی عفونت)

25. رویکردهای بیوانفورماتیک برای مطالعه و درمان سرطان با استفاده از مثال سرطان ریه (ماریا شوتووا، IOGEN RAS)

26. اومیکس جدید در زیست شناسی انسان: متابولومیک و لیپیدومیکس (فیلیپ خایتوویچ، اسکلتک)

27. مونتاژ ژنوم: نگاهی به فردا (آندری پرژیبلسکی، SPbAU RAS)

به جای نتیجه گیری

مفهوم بیوانفورماتیک

جهت های اصلی بیوانفورماتیک بسته به اشیاء مورد مطالعه

توالی بیوانفورماتیک

حرفه: بیوانفورماتیک

آن چیست؟

چرا این جالب است؟

چرا این لازم است؟

چه چیزی را باید بدانید و بتوانید انجام دهید؟

سرفصل های سایت