פרדוקס AI ובני אדם – שני מחקרים חדשים

פרדוקס AI ובני אדם – שני מחקרים חדשים

בצעירותי, אבא שלי הסביר שכשלמד בטכניון חישבו סינוסים בסרגל-חישוב. אני כבר הקלדתי במחשבון. שלטעמו היה  “קליל מדי,” ולכן "אתה לא באמת יודע לחשב". אולי באמת ויתרתי על המאבק שמחולל זיכרון

קפיצה מהירה להווה: האם קסמי ה-AI יעשו לנו אותו תרגיל? שני מחקרים חדשים, האחד מ-MIT בחינוך והשני מאוקספורד בבריאות—בודקים ומוצאים תופעה מוזרה: ברגע שאדם ו-AI עובדים יחד, הביצוע הסופי לעיתים נחות מזה של כל אחד בנפרד.

התקשורת יצאה בכותרות מבהילות, אבל זה לא יעצור אימוץ. כמו טכנולוגיות קודמות, גם כאן עדיף ללמוד אופטימיזציה מאשר להתבצר.

תמיד המטופלים מפריעים

אמירה ידועה ומשעשעת אומרת שרפואה הייתה מקצוע מעולה אם רק לא היו מטופלים. נראה שלאמירה הזו ממש מכוונות תוצאות המחקר שנערך באוקספורד. במחקר ניסו לבחון את היעילות של מודלים של בינה מלאכותית בפתרון של תרחישים רפואיים ובחירת דרכי פעולה.

איך בנו את התרחישים?

שלושה קלינאים בכירים כתבו עשרה תסריטים רפואיים פשוטים יחסית (כאב-חזה, פריחה בילד, כאב-בטן חריף). צוות נפרד של רופאים שלא ראו את הכתיבה יצר כל מקרה אבחנה מובהקת ודרך-פעולה מוסכמת.

המודלים שנבחנו

GPT-4o, Llama 3-70B ו-Command R+. תחילה קיבלו את התרחישים “נקיים” ונמצא ש-Chat GPT הציג 95 %  דיוק באבחנה, ו-56 % בבחירת פעולה. Llama ו-Command השיגו רמות דיוק דומות, מעט מתחת.

ואז נכנסו בני האדם

1,300 מתנדבים (מאוזנים מִגְדרית, גילאית, השכלה) חולקו לארבע קבוצות: שלוש קיבלו אחד משלושת המודלים לייעוץ חופשי בצ’אט; הרביעית חיפשה פתרון כפי רצונה (לרוב גוגל). אחרי כל שיחה ציינו המשתתפים אבחנה ופעולה בשאלון.

והתוצאה: הדיוק האנושי עם AI צנח ל- 35% באבחנות ו-44.2% בהחלטות על דרך פעולה. בדומה לקבוצת הגוגל.

כאשר החוקרים ניתחו את הצ’אטים התברר: המודלים הזכירו את האבחנה הנכונה בכ-65% מהפעמים, אך המשתמשים לא שמו לב, חששו או פירשו לא נכון את הסיטואציה וההמלצות. עוד יצוין שסימולציות AI לתרגול מול מטופלים שהריצו החוקרים על המודלים לא הצליחו לנבא את הכישלון.

כך בוצע המחקר באוקספורד
תהליך המחקר באוניברסיטת אוקסופרד. מתוך המחקר

העומס הקוגניטיבי מוסר

54 סטודנטים יושבים מול לפטופים, כובעי EEG מחוברים לראשם. הסטודנטים נתבקשו לכתוב חיבור בסגנון מבחני ה -SAT. הם חולקו ל-3 קבוצות:

  1. לכתוב בלי עזרים כלל
  2. נעזרה ב- Chat GPT
  3. נעזרה במנוע החיפוש של גוגל.

החוקרים גילו שהמאמרים שנכתבו על ידי chat GPT היו ללא "נשמה" והפעילות הקוגניטיבית של הכותבים שנעזרו במנועים הייתה נמוכה בכל האזורים במוח. כמו כן, רמת המעורבות ירדה לאורך המחקר והמשתמשים החלו ממש רק להעתיק ולהדביק את התוצאות. בנוסף כאשר נשאלה הקבוצה הזו לגבי המאמרים, הם לא באמת הצליחו לענות על שאלות או לשחזר מה שכתבו.  החוקרים מכנים זאת הטלת עומס קוגניטיבי החוצה—המוח נסמך על קביים חיצוניים ומפסיק להתאמן.

איור של משתתף במחקר MIT
איור של משתתף במחקר MIT

מה הקשר?

לכאורה, שני הניסויים אינם קשורים. האחד עוסק בחינוך, והשני הרפואה. אך ניתן לראות חיבור עמוק ביניהם: ברגע שה-AI פוגש את האדם, הכימיה שנמצאת בין השניים אינה בהכרח חיובית – הן בתוצרים, והן ביחסו של האדם לתוצרים. נראה שעצם היכולת להטיל את ה"אחריות" הקוגניטיבית על מכונה אחרת, גורמת לנו להניח שהעבודה הקשה כבר נעשתה, ולכן אנחנו מתאמצים פחות, זוכרים פחות ולעיתים פועלים באוטומט.
נקודה נוספת שיש לשים לב בשני הניסויים, הוא הניתוק הרגשי. גם המתנדבים במחקר אוקספורד וגם הסטודנטים ב-MIT לא היו זקוקים למשהו בניסוי. המתנדבים באוקספורד לא היו באמת חולים במחלה שאותה ניסו לאבחן בעזרת המנועים. והסטודנטים ב-MIT לא באמת קיבלו ציוני SAT על כתיבתם. חוסר המוטיבציה לטעמי השפיע לא מעט על איכות התוצאות והבדיקות שאנשים עשו עבורם. בני אדם מונעים בהרבה מאוד מקרים מרגש ומוטיבציה, וכאשר אלו לא מהותיים, אין ספק שהדבקות הקוגניטיבית יורדת.

מה אפשר ללמוד מזה?

ההיסטוריה מלמדת שכל כלי חדש משכתב את החוזה בין מאמץ לנוחות. המחשבון אילץ את מערכת החינוך להתמקד בהבנה מושגית ועד השנים האחרונות ממשיכים לחקור וללמוד כיצד משפיע המחשבון על הלמידה. המחקרים מראים שאם בני האדם לומדים ללא מחשבון לפני, ומבינים את הדברים, שימוש בטכנולוגיה ובמחשבון משפרת יכולות. אם לא, ויש שימוש כבד בטכנולוגיה התוצאות יורדות. גם טייסי מטוסי סילון עוברים ימי “טיסה ידנית” כדי שלא יאבדו כישורים. ונראה שהדבר יהיה נכון גם עם מודלי-שפה גדולים: מי שישגשג יהיו אלה שילמדו להתמודד עם בעיות קודם כל באופן עצמאי ואז יפנו ל-AI. או שתיבחר הדרך האחרת – בה AI יהיה בזירה לבד, שם נראה תוצאותיו עדיפות.

בכיתה, מחקרים הראות שכאשר התלמיד מתחיל להתמודד עם הבעיה לבד, ללא עזרה טכנולוגיות, למשל כתיבה עצמית לזמן מסוים לפני הזמנת משוב מה-AI  משמרות את היכולת הנוצרת מההתמודדות אך מוסיפות עומק ודיוק שבאים משימוש בכלי בינה מלאכותית.

אצל רופאים, הסכנה היא הטיית אוטומציה—הנטייה להאמין למכונה באופן מידי. מחקרים בדקו והראו שעצירה מסוימת, או בחינה מראש לפני קבלת תשובה מ-AI מפחיתה את התלות הזו ואת ההטיה הנוצרת. אלמנטים אלה, מזכירים בשימוש שלהם את התיאוריות של פרופ' כהנמן על מערכת 1 ומערכת 2, מרגע שמכריחים את המוח לא לקבל את קיצור הדרך ולהשקיע מחשבה – התוצר משתנה ולטובה. כך למשל יש מחקרים שבדקו מה קורה אם הרופא מתחייב לאבחנה לפני, או מקומות שהוסיפו מקום להצהרה של הקלינאי כי שקל ובדק את הדברים יחד עם AI  . זה מקביל לדרישה שטייס ייגע בהגאים: תזכורת שהאחריות—והלמידה—נותרות בידי האדם.

המחקרים הללו מעלים בהחלט שאלות לא פשוטות כיצד יש לעצב את הממשק בין אדם ומכונה, וכיצד ניתן לבחון את הכלים הללו כאשר המבדקים הקיימים לא באמת מנבאים  את היכולת כאשר היא פוגשת בני אדם. באוקספורד טוענים להצלחות חלקיות עם מודלים של סימולציה, אך זה עדיין לא שם.

נראה לי שצריך לחזור לבסיס, חשיבה ביקורתית, שאלה שאלות והגברת מעורבות (מוטיבציה ורגש) עשויים לשפר משמעותית את היכולת שלנו להפיק ערך מהכלים הללו ולא לתת לזה להרקיב את מוחנו.

תכל'ס: ארבעה הרגלים שיסייעו לכם להתמודד ולשפר תוצאות

  • התחילו לפתור לבד, ואז הזמינו את ה-AI לעבוד אתכם.
  • דרשו לראות את ההיגיון של המכונה—מקורות, הסתברויות, חלופות.
  • כתבו בשתי שורות למה התשובה נשמעת לכם נכונה (או לא).
  • בהחלטות גורליות, שתפו מומחה אנושי לפני ביצוע.

הקפידו על ארבעת ההרגלים האלה ובינה מלאכותית תהפוך לכלי שמסייע לשפר תוצאים ולא להפחית אותם.


כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זו עושה שימוש ב-Akismet כדי לסנן תגובות זבל. פרטים נוספים אודות איך המידע מהתגובה שלך יעובד.