فایل صوتی برای نابینایان، در انتهای این مقاله
در مقاله ای که اخیراً منتشر شده است ، تیم ما نشان داد که چگونه یک مدل یادگیری ماشینی که ما توسعه داده ایم می تواند از طریق یک سیستم چند وظیفه ای (multitask)، یک آنزیم مناسب را برای یک کار تولیدی مناسب تعیین کند و همه می توانند آن را در RXN for Chemistry امتحان کنند.
مقاله ای از بخش علم و همینطور بخش علوم کامپیوتری
ارتقاء نقشه برداری از واکنش های شیمیایی با مدل جدید هوش مصنوعی آریکسن آی بی ام [1]
درست مثل ستاره شناسی که فضا را بررسی می کند, یک شیمیدان نیز فضای شیمیایی - قلمروی نظری حاوی تمام ترکیبات شیمیایی شناخته و ناشناخته ممکن - را بررسی می کند .محققان تخمین می زنند که فضای شیمیایی حاوی بیش از۱۰۱۸۰ ترکیب یعنی بیش از دو برابر تعداد اتمهای موجود در کهکشان باشد .در حال حاضر, بزرگترین پایگاه داده مولکول های سنتز شده ای که تا به امروز در دسترس عموم قرار گرفته بنام پاپ کم[2] دارای بیش از ۱۰۰ تا ۱۰۸ میلیون از آنهاست. با ورود به فضای واکنش های شیمیایی بین مولکول ها, حتی فضای شیمیایی بزرگتری نیز خواهید داشت.
به راحتی می توان درک کرد که چرا وسعت فضای واکنش شیمیایی حتی با تجربه ترین شیمیدانان را نیز غافلگیر می کند. در حالیکه ستاره شناسان، تلسکوپ های قوی برای کمک دارند, شیمیدانان اغلب فقط به تجربیات و بصیرت خود تکیه می کنند. این یکی از دلایلی است که کشف داروها و مواد جدید ماهها و حتی سالها بطول می انجامد. چنین چیزی برای هدایت شیمیدانان، در کهکشان شیمیایی وجود ندارد.
به هر حال اخیرن دانشمندان بیشتر و بیشتر بر روی هوش مصنوعی (آی ای[3]) بعنوان ابزاری برای جهت یابی تکیه کرده اند. هوش مصنوعی دارای پتانسیل هدایت شیمیدانان به مرزهای جدیدی است, طوری که نه تنها می تواند جهت یافتن مولکولهایی که در غیراینصورت ممکن است نادیده گرفته شوند, سریعتر از انسان فضای شیمیایی (فضای واکنش شیمیایی) را کاوش کند, بلکه همچنین می تواند به درک بهتر چگونگی تغییر شکل هایی که مولکولها متحمل می شوند نیز کمک کند.
مقاله اخیر ما برای دسته بندی واکنش های شیمیایی و به تصویر کشیدن فضای واکنش شیمیایی, مدل های یادگیری عمیق را بررسی می کنند. با این نقشه برداری, شیمیدان ها باید بتوانند مجموعه داده های بزرگ را از لحاظ ویژگی های مشترک بررسی کرده و در مدخل واکنش های مشابه بازیابی کنند و شیمی جدیدی را بر اساس آنچه که بعنوان مجموعه داده های واکنش پذیری شیمیایی شناخته می شود کاوش کنند.
شیمی بعنوان یک زبان
در این مقاله ما جزئیات برنامه مبتنی بر وب خود را که آریکسن آی بی ام برای شیمی نام دارد به تفصیل شرح داده ایم. در ساختن این برنامه به ما از زبان الهام گرفتیم. در واقع شیمی آلی و زبان اشتراکات بسیاری دارند. برای مثال, کوچکترین تغییری در نحو کلام و یا زمان یک کلمه می تواند به یک عبارت معنایی کاملن جدید بدهد,همانطور که استریوشیمی یا همان شیمی فضایی می تواند ماده شیمیایی بنام تالیدومید[4] را به یک دارو و یا یک سم کشنده تبدیل کند.
این برنامه بر اساس ایده در نظر گرفتن شیمی بعنوان یک زبان ساخته شده که به منظور پیش بینی خروجی واکنش و برنامه ریزی سنتز از میان مدل های سکانس به سکانس برای ترجمه از یک زبان به زبان دیگر استفاده می کند. برای دستیابی به این هدف مولکول ها بعنوان سکانسهایی (دنباله هایی) از کاراکترها کد گذاری می شوند که "سمایلز"[5] یا نشانه گذاری سیستم ورودی خطی مولکولی ساده شده, نامیده می شود.
پیش بینی واکنش و مدل های برنامه ریزی سنتزی در برنامه آریکسن شیمی در عین اینکه سودمندی این برنامه را برای ساختن دارو و کشف مواد ثابت می کنند, همچنین معمولن این دو مدلهای جعبه سیاه نیز می باشند. هدف ما این بود که واکنش های شیمیایی پیش بینی شده را برای شیمیدانان قابل توضیح تر و در دسترس تر کنیم, در نتیجه با هدف نقشه برداری از فضای واکنش های شیمیایی شروع به آزمایش با شبکه های عصبی مبتنی توجه کردیم (نوعی توجه تکنیکی که توجه شناختی را تقلید می کند).
دسته بندی اتوماتیک
واکنش های آلی معولن در مجموعه های حاوی واکنش هایی با معرف ها و مکانیسم های مشابه قرار می گیرند. دسته های واکنش می توانند ارتباط موثری بین شیمیدانان برقرار کنند. درهر حال, پروسه دسته بندی در یک مجموعه داده بزرگ کاری خسته کننده و وقت گیر است و نیاز به شناسایی اتم های واکنش دهنده و تمایز بین واکنش دهنده ها و معرف ها دارد.
ایده ما این بود که با استفاده از شبکه های عصبی که به شیمیدانان اجازه کاوش واکنش ها و تشخیص الگوهایی که ما را به سوی کشف های جدید هدایت می کنند, دسته بندی مجموعه داده های واکنش را اتوماتیک کنیم, بنابراین همچنان با در نظر گرفتن شیمی آلی بعنوان یک زبان, از یک نمایش مبتنی بر متن برای نمایش واکنش های شیمیایی استفاده کردیم و از مدل های هوش مصنوعی مبتنی بر زبان همچون برت[6] که یک تکنیک یادگیری ماشین مبتنی بر مدل پردازش زبان طبیعی می باشد استفاده کردیم و آنها را جهت دسته بندی واکنش ها آموزش دادیم.
چیزی که مدل های یادگیری عمیق ما را منحصر به فرد می سازد این است که این مدل ها نیازی به قوانین خاص فرموله کردن که طبق آن هر واکنشی باید به دقت نقشه برداری اتمی شود ندارند. در عوض این مدل ها اشکال اتمی عمده ای را که واکنش های دسته های مختلف را از هم متمایز می سازند می آموزند و با واکنش خام سمایلز, بدون حاشیه نویسی نقش معرف-واکنش دهنده شروع می کنند.
ممکن است هنوز به نظر کسی پیچیده به نظر برسد, در نتیجه اجازه بدهید یک قیاس انجام دهیم. در نظر بگیرید که یک عنوان بدون مقاله دارید. این عنوان به شما ایده ای از یک موضوع می دهد اما شما فقط می توانید یک فرض عمومی درباره پیام موجود در آن داشته باشید و در حالیکه ممکن است دسترسی به عناوین دیگری نیز داشته باشید, پیدا کردن پیامی که بدنبال آن هستید از میان این عناوین به نظر غیر ممکن می رسد اما اگر یک مدل هوش مصنوعی آن را با عناوین مشابه دیگر دسته بندی کند, شما می توانبد شروع به شناسایی یک موضوع مشترک مثل سیاست, ورزش و یا مد کنید.
دسته بندی مدل ها: قیاس بین موضوعات اصلی وبلاگ و دسته بندی های واکنش شیمیایی. واکنش های شیمیایی با استفاده از سمایلز بعنوان یک متن نمایش داده می شوند.
الگوهای منحصر بفرد واکنش (اثر انگشت های واکنش)
سپس به این نتیجه رسیدیم که می توانیم برای ایجاد یک "اثر انگشت واکنش" از اطلاعات گنجانده شده در مدل های دسته بندی هوش مصنوعی خود استفاده کنیم. اساسن مدل ما هر گونه واکنش شیمیایی را به یک بردار پیوسته تبدیل می کند که به شیمیدانان امکان نقشه برداری فضای واکنش شیمیایی را داده و به آنها اجازه می دهد که به آسانی در مورد واکنش های مشابه تحقیق و پژوهش کنند. این اثر انگشت های واکنش داده محور, امکان نقشه برداری از فضای واکنش بدون دانستن مراکز واکنش و یا شکاف واکنش دهنده-معرف را فراهم می کنند.
با نظری دوباره به قیاس عنوان, اطلاعات موجود (اثر انگشت ها) که از گروه کردن بدست می آمدند مثل یک گروه از عناوین با هم, بعنوان نموداری که در یک فضای دو بعدی گنجانده شده است نمایش داده می شوند که به ما اجازه می دهد نگاه عمیق تری به مشخصاتی مثل اینکه عنوان اصلی به کدام ورزش مربوط می شود بیاندازیم. با این اطلاعات شما به راحتی می توانید عناوین دیگری را که بعنوان شما مربوط می شوند پیدا کنید. در همین راستا, شیمیدانان می توانند برای پیدا کردن واکنش های مرتبطی که ممکن است نقطه شروعی برای آزمایشات بعدی آنها باشد, از این اطلاعات استفاده کنند.
اثر انگشت واکنشی. رمزگذاری واکنشهای شیمیایی برای ایجاد تجسم از فضای واکنش شیمیایی.
اثر انگشت های واکنش, واکنشهای شیمیایی را برای ساختن تصویری از فضای شیمیایی رمزگذاری می کنند. مدل های ما به یک دقت ۹۸/۹ درصدی در دسته بندی دو مجموعه داده واکنش متفاوت رسیده اند. اثر انگشت های واکنش ما می توانند برای خوشه بندی تقریبن کامل تمام فضای واکنش شیمیایی استفاده شوند. اساسن, ما با باز کردن یک بزرگراه در کهکشان شیمیایی, یک راه جدید برای کاوش در داده های واکنش شیمیایی ساختیم. اجازه دهید سفر آغاز شود.
برای دسترسی به اطلس واکنش تعاملی به RXN4Chemistry در GitHub مراجعه کنید.
تهیه و ترجمه: مریم ژوسو
پانوشت ها
1- IBM RXN
شبکه RXN یک برنامه شیمی مبتنی بر هوش مصنوعی از شرکت IBM است که شیمی آلی را به عنوان یک زبان در نظر می گیرد و با استفاده از شبکه های عصبی, طبقه بندی واکنش ها را بطور خودکار انجام می دهد که این به شیمیدانان امکان می دهد تا الگوهایی را شناسایی کنند که می توانند به ساخت داروها و درمان های جدید منتهی شوند.
2- PubChem
PubChemیک پایگاه داده آمریکایی از مولکول های شیمیایی است که توسط مرکز اطلاعات بیوتکنولوژی (NCBI) شعبه کتابخانه ملی پزشکی ایالات متحده تحت نظارت موسسه ملی بهداشت (NIH) اداره میشود. این پایگاه داده چندین میلیون ترکیب را با قرار دادن مقدار زبادی داده از انواع مختلف بصورت آنلاین برای هر ماده فهرست می کند؛ شیمیایی, دارویی, تولیدی, سم شناسی, محیطی و غیره.
3- AI هوش مصنوعی
4- Thalidomide
تالبدومید دارویی است که در دهه های 50 و60 میلادی بعنوان آرامبخش و ضد تهوع بویژه در زنان بارداراستفاده می شد و مشخص شد که باعث نقص های جدی مادرزادی می شود.
5- SMILES
6- BERT
فایل صوتی-تصویری در یوتیوب
بزودی