המרוץ של ענקיות הטק אל החלבון
בשנה שעברה דמיס הסאביס, מייסד DeepMind החברה שנמצאת אולי במרכז יכולות ה-AI של גוגל, זכה בפרס נובל על עבודתו בתחום החלבונים – כאשר המודל AlphaFold הוא המוביל שביניהם.
כעת, שני חוקרים של חברת אפל (שבמוצריה כרגע יש פער משמעותי של שימוש במודלים של בינה מלאכותית יוצרת), פרסמו גרסת Pre print של המחקר שלהם שעוסק בדרך לייצר תוצאות טובות לא פחות בניבוי של תצורת חלבונים מ-Alpha Fold, ולפעמים אף יותר בצורה הרבה יותר פשוטה לטענתם וגם חסכונית יותר. ולצורך כך הם עשו שימוש בטכנולוגיה יחסית נפוצה של יצירת תמונות מטקסט עם מודלים שנקראים Diffusion models – בדומה נגיד למודלים כמו Dall-E של Open AI.

בנוסף, גם מיקרוסופט זורקת את הכובע שלה לזירה, כשהיא מספרת לעומק על המודל שלה BioEmu העושה שימוש במודלים של LLM על מנת לחזות את התפקוד של חלבונים, ולעשות זאת באופן פשוט וחסכוני.
נראה שענקיות הטק לא משחררות אף חזית האחת מול השנייה, ותחום הביולוגיה הולך ומתחמם בהקשר הזה.
SimpleFold – קיפול חלבונים בפחות משאבים
ב־AlphaFold2, הבסיס לכל חיזוי הוא ההשוואה: לוקחים רצף של חלבון חדש, משווים אותו לאלפי רצפים אחרים, בונים ייצוג גיאומטרי, ומחשבים מבנה תלת-ממדי מתוך הקשרים אבולוציוניים. זה עובד היטב, כל עוד יש למה להשוות. אבל כשאין — כלומר, כשמדובר בחלבונים נדירים, או בכאלה שלא תועדו קודם — AlphaFold נעשה פחות מדויק. השיטה הזו של השוואה היא גם כוחו וגם מגבלתו. הוא דורש דאטה עצום, זמן עיבוד יקר, ותחזוקה רבה.
כאן אפל מנסה לשנות, באמצעות מודל שלו נתנו את השם – SimpleFold. מדובר במודל ללמידה עמוקה שמנבא מבנה תלת־ממדי של חלבון על בסיס הרצף חומצות האמינו שלו. זה כשלעצמו לא חידוש ודומה לאלפא-פולד. החידוש הוא של החוקרים זו הדרך. בניגוד לאלפא-פולד, הוא לא עושה שימוש בשום תהליך אבולוציוני של רצפים, לא נשען על ידע ביולוגי קודם, ולא מתבסס על ארכיטקטורה ייעודית שפותחה במיוחד לתחום. הם השתמשו במודל טרנספורמר כללי (בדומה ל־GPT), ובשיטה שנקראת flow matching – סוג של דיפוזיה שמתחילה מ"רעש" ומייצרת מתוכו מבנה כלי שדומה בעיקרון לדרך שבה מודל התמונות של Open AI מייצר תמונות.

SimpleFold, בעצם מבצע מה שמודל שפה יודע הכי טוב, הוא פשוט לומד ממבנים קיימים איך חלבונים "נראים", ומתרגם רצפים למבנים — כמו מודל שמתרגם אנגלית לצרפתית, בלי לדעת כיצד זה פועל. וזה לא רק עניין של עיקרון. מדובר בהבדל מבני אמיתי: בעוד AlphaFold בנוי כמערכת מורכבת של רכיבים ביולוגיים-גיאומטריים, SimpleFold הוא מודל end-to-end, קומפקטי בהרבה ועל כן זול ונוח בהרבה.
אחת מנקודות החוזקה של SimpleFold היא שהוא לא מנפק מבנה אחד "נכון" של חלבון, אלא סדרה של מבנים אפשריים — מה שנקרא קונפורמציות. בעולם הביולוגי, זה תיאור מדויק יותר של המציאות: חלבונים נעים, משנים צורה, מסתגלים לסביבה. ולכן גם כל ניסיון לקבע אותם למבנה יחיד, כמו שעושה AlphaFold, מפספס משהו מהותי. SimpleFold יודע להתמודד עם זה ומאפשר לראות את המרחב האפשרי, לא רק את נקודת האיזון. זה יכול להיות קריטי בפיתוח תרופות, בזיהוי אתרי קישור, ובמקרים שבהם הגמישות המבנית משפיעה על התפקוד.
החוקרים בדקו את ביצוע המודל על מבחנים מקובלים למודלים מסוג זה. אז האם SimpleFold מנצח את AlphaFold? לא ממש. אבל הוא מתקרב. ובכמה מבחנים ספציפיים הוא מצליח לעקוף מודלים כמו ESMFold (מודל חיזוי דומה לאלפא-פולד), ואף מתקרב לתוצאות של AlphaFold2.
אבל ההישג המשמעותי נמצא בצורת המימוש – בלי ידע ביולוגי. בלי הנחות. ובלי חבילת קוד מורכבת וצור במשאבים בלתי נגמרים.
Bioemu – מקיפול לצורות התנהגות
המודל של מיקרוסופט שנקרא , BioEmu, יושב באמצע באופן מסוים. הוא לא אומר “כך נראה החלבון”, אלא “כך הוא עשוי לזוז, להיפתח ולהיסגר לאורך זמן”. במקום לחשב מבנה קפוא, הוא מייצר אלפי גרסאות קטנות של אותה מולקולה – כמו פריימים בסרט – ובוחן את ההסתברויות לכל מצב. התוצאה היא תמונה עשירה של הדינמיקה: לא רק איך החלבון נראה, אלא איך הוא מתנהג – בדומה באופן מסוים ל-simplefold. הוא עושה שימוש בספריית החלבונים של Alphafold, ועוד ספריה של מחקרים על משמעותיות חלבונים. הפרומפט שלו אינו חומצות האמינו אלא החלבון עצמו. הכלי הזה מאפשר לחוקרי תרופות כלי משמעותי, כי פעמים רבות תרופה שנכשלה בקשירה למבנה אחד יכולה להיקשר בהצלחה לרגע חולף במבנה אחר.

מגמה גדולה יותר
הכניסה הרחבה של מודלים של LLM לעולם הביולוגיה, ושל ענקיות הטק יחד איתן לעולם החלבונים באופן ספציפי מהווה תפנית משמעותית.
גוגל, אפל ומיקרוסופט לא מתחרות רק על דיוק או מהירות. הן מתחרות על פרדיגמה: האם נבין את הביולוגיה דרך אלגוריתמים מיוחדים שמבינים פיזיקה, או דרך שפה כללית של דפוסים ולמידה. אפל מהמרת על הפשטות; מיקרוסופט על עומק הדינמיקה; וגוגל, לפחות בינתיים, על יציבות של מי שהייתה שם קודם.
יש כאן סיפור גדול יותר על שאלת המומחיות, והמשמעות של LLM לפירוק מסוים של המומחיות הזו. אם בקיפול חלבונים ניתן להגיע לתוצרים, תהיה לכך משמעות לעוד אזורי מחקר ומומחיות. בכל מקרה אם נצליח לייצר הדמיות יעילות במחירים נמוכים ובמהירות משמעותית – זה גם ישנה את הדרך שבה תרופות יפותחו.