מי מנבא את עונת השפעת טוב יותר? ויקיפדיה או גוגל

מי מנבא את עונת השפעת טוב יותר? ויקיפדיה או גוגל

כלי המעקב של גוגל אחר ההתפתחות של תחלואת השפעת (Google Flu Trends), הפך בשנים האחרונות לאחת הדוגמאות הקלסיות לשאלה כיצד המידע הנצבר במנועי חיפוש ובכלל ברשת וניתוח שלו כ-Big data יכול לסייע ולשפר את עולם הבריאות, ובמקרה הזה את עולם המחקר האפידמיולוגי ויכולות הניבוי שלו. כעת לקראת עונת השפעת הקרובה, נאלצו בגוגל לשנות את מודל הפעילות של הכלי שלהם, ובמקביל יצאו לאוויר העולם שני מחקרים עם כלי מידע בצידם העושים שימוש בחיפושים שנעשו בויקיפדיה, ולטענתם הם עדיפים.

לחיזוי מוקדם של עוצמת השפעת ישנה חשיבות ביכולת של מערכת הבריאות לפעול בזמן אמת להסתת משאבים, עידוד התחסנות, טיפול או צעדים נוספים הקשורים לבריאות הציבור. יכולת החיזוי הבסיסי של רשויות הבריאות, כאשר ה-CDC נחשב לאחת הרשויות המצטיינות שבהם, היא דיי גרועה, כלומר בדיעבד הם יודעים לא רע, אבל בזמן אמת בגלל שיטת הדיווח לרוב אין יכולת חיזוי טובה, וממילא הדיווח מסתמך רק על מי שבה לטפל, שזה לא תמיד כל האנשים החולים.

בשל הסיבה הזו הכלי שגוגל פיתחו עורר עניין רב מאוד גם אצל ה-CDC. לפני שנה ביקשו ב-CDC, במסגרת תחרות חדשנות, פתרונות נוספים בדגש על מודלים של ניבוי המסתמכים על מדיה חברתית ורשת האינטרנט.

גוגל משנה כיוון

בפוסט בבלוג של גוגל שפורסם בימים האחרונים מסבירים אנשי Google Flu כי הם עדכנו את מודל המעקב שלהם מכזה המשתמש רק ב-50 עד 300 מונחי חיפוש על מנת לנבא את אפקט השפעת, לכזה שלפחות בארה"ב יעשה שימוש גם בנתוני אמת של המכון לבקרת מחלות (CDC) על מנת לשפר את הדיוק. השינוי מתרחש לאחר שמאמר שפורסם בעיתון Science בתחילת השנה מצא כי המודל של גוגל העריך את מספר מקרי השפעת ביתר, כאשר בעונת 2012-2013 הוא פספס הכי בגדול, אך גם בשנים לפני כן העריך את היארעות השפעת בצורה מוגזמת. אותם חוקרים מצאו גם כי חיבור מידע ממנוע החיפוש יחד עם מידע שקיים ב-CDC המדווח מהשטח הביא ליכולת הניבוי הטובה ביותר. באופן שאמור להיות לא קשור, זה בדיוק מה שעשו בגוגל על מנת לשפר את המערכת. בגוגל הבטיחו כי יפרסמו מאמר יותר טכני המסביר את המודל החדש בהמשך השנה.

ניבוי מחלת השפעת - מדיה חברתיים

ויקיפדיה נכנס לעסק

אחד הפתרונות שהוגשו לתחרות ותפסו את תשומת הלב הוא האפשרות להשתמש בחיפושים שנעשים בתוך האתר ויקיפדיה על מנת לנסות ולחזות את עונת השפעת, ואת מהלך התחלואה בתוך העונה עצמה. הצוות ממעבדות Los Alamos National Laboratories בהובלת החוקר קייל היקמן פיתחו אלגוריתם המודד את מספר החיפושים הקשורים בשפעת שנעשו בויקיפדיה יחד עם הנתונים מתוך הדיווחים של ה-CDC על מספר האבחונים באותו תאריך. כך למד האלגוריתם למצוא את החיבור בין אופי החיפושים למספר האבחנות. לאחר שהאלגוריתם למד את שנדרש לו הצליחו החוקרים לנבא באופן טוב את רמת  התחלואה בעונת השפעת 2013-14.

צוות אחר של חוקרים פרסם באפריל האחרון בכתב העת  Plos Computional Biology  מאמר ובו מודל סטטיסטי המבוסס על מודל Poisson על מנת לנבא את השפעת, זאת לאחר שלמדו וחיברו את ההקשרים בין כניסות לערכים רלוונטיים של ויקיפדיה ולבין הדוחות של ה-CDC בשנים 2007-13. בבדיקה שהם ערכו למודל הם הצליחו לייצר ניבוי של עומס מחלת השפעת שבועיים לפני שזה התבטא בדיווחי ה-CDC. שבועיים אלו הם זמן רב ויקר עבור רשויות הבריאות.

החוקרים ציינו כי הבחירה להשתמש  בפלטפורמה של ויקיפדיה נובעת מכך שהם מעריכים כי אנשים המבקשים לבדוק סימפטומים כלשהם מעדיפים להיכנס ישירות לויקיפדיה ולא באופן כללי לגוגל. נתון זה מאושש במחקר שנערך על ידי IMS ומצא שויקיפדיה זהו מאגר המידע המועדף הן על מטופלים והן על רופאים, ושהוא גם מכיל מידע המניע את המטופלים לפעולה.

ויש גם אפליקציה

אפליקציית Sickwheather  משתמשת ביכולת לסרוק את הרשתות החברתיות על מנת לעקוב אחר אנשים המדווחים על עצמם כמרגישים חולים. באמצעות התיוג הגיאוגרפי של אותם אנשים מסוגלת האפליקציה לדעת היכן יש התפרצות של מחלה מידבקת והיא מאפשרת למשתמש באפליקציה לדעת האם באיזור הקרוב אליו ישנה תחלואה.

כיצד עובדת אפליקציית Sickwheather
כיצד עובדת אפליקציית Sickwheather (מתוך אתר האפליקציה)

השימוש בדיווחים ברשתות חברתיות על תחלואה ככלי לניבוי נמצא יעיל גם בעבר, עת חוקרים הצליחו לנבא תחלואת שפעת 8 ימים טרם האדם חולה וזאת רק על ידי בדיקת הדיווחים של חבריו ברשת הטוויטר.

שוב אנו רואים את היכולת של התנהגויות שונות ברשת האינטרנט לשפר את אפשרויות המחקר הרפואי, את המחקר האפידמיולוגי ועוד. התנהלותה של גוגל מראה גם כי היא מוכנה ללמוד ולשפר מודלים בעקבות ביקורת.


כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.