מובהקות ומשמעות במחקרים

מובהקות לעומת משמעות

שלמה קניאל

במאמר קצר זה ברצוני להתייחס למחקרים בתחום מדעי החברה אשר לעתים הם תואמים את האינטואיציה שלנו ואז אין לנו בעיה ואנו מפטירין כדאשתקד. אולם לעתים המסקנות הנגזרות ממחקרים מחייבות אותנו להשתנות ולכן יש למצוא איזון בין לדחות את המסקנות (אינטרסים אישיים של חוקרים), או לקבל אותן ככתבן וכלשונן. ישנן זוויות שונות לבחון מחקרים ואני רוצה להתעכב על אחת מהן שנראית לי חשובה במיוחד וזו ההבחנה בין מובהקות למשמעות.

כדי להסביר את ההבדל בין המושגים אציג מספר אירועים דמיוניים.

יועץ שר החינוך מתבקש לבדוק את השפעת המחשבים על הישגי התלמידים בהבנת הנקרא. הוא מודד בכל בית ספר את מספר המחשבים ואת ממוצע הציונים של התלמידים במבחן סטנדרטי בהבנת הנקרא. המבחן מועבר על ידי רשות חיצונית שזכתה במכרז למדידת הבנת הנקרא. החוקרים מטעם הרשות מבצעים מתאם בין מספר המחשבים וציון הבנת הנקרא ב 1500- בתי ספר. המתאם (קורלציה) שהתקבל הוא חיובי וערכו 0.2. לפי הטבלה הסטטיסטית מתאם זה הוא מובהק. כלומר, ניתן להסיק כי ככל שיש יותר מחשבים בבית הספר כך הציון בהבנת הנקרא יותר גבוה. אולם המשמעות היישומית של המתאם היא מאוד נמוכה. הכפלת המתאם (0.2) בעצמו מגלה כי רק 4% מהשונות בהבנת הנקרא מוסברת על ידי מספר המחשבים בבית הספר. כאשר שוקלים את העלות של המחשבים מול המשמעות של ההישגים, ניתן להרהר ולערער על יעילותם של המחשבים בהעלאת רמת הבנת הנקרא.

הנה אירוע נוסף עם סוג אחר של מבחן סטטיסטי

מורה למתמטיקה עברה השתלמות להוראת מתמטיקה לבגרות ומציעה למנהלת בית הספר שלה את התוכנית החדשה. כדי להחליט מבקשת המנהלת מהמורה ללמד כיתה אחת לבגרות לפי השיטה החדשה, ומהמורה המקבילה ללמד לפי השיטה הישנה. מכיוון ששתי הכיתות שוות ברמתן, היא תוכל להשוות את תוצאות מבחני הבגרות בסוף השנה ובהתאם לכך להחליט האם התוכנית החדשה טובה מקודמתה. בסוף השנה מתקבלות תוצאות המבחנים: בשיטה חדשה הממוצע הוא 85 (סטיית התקן 3.7); בשיטה ישנה הממוצע הוא 80 (סטיית התקן 3.2). המנהלת מפעילה את הניתוח הסטטיסטי (מבחן (t, ומוצאת כי ההבדלים בין הקבוצות הם מובהקים (P<0.05). כלומר ההסתברות שהיא טועה בהחלטה (שהשיטה החדשה טובה מהישנה) קטנה מחמישה אחוזים. ההסתברות זו לטעות היא קטנה ובמדעי החברה החליטו בצורה שרירותית כי הסתברות זו היא מספיקה לקבלת החלטות במדעי החברה.

"יפה מאוד", אומרת המנהלת, "זה אומר שההסתברות שאני טועה בהחלטה 'שיש הבדלים בין הקבוצות וזה לא מקרי' היא קטנה מחמישה אחוזים. אני מוכנה שנתחיל בתוכנית החדשה". עיני המורה בורקות והיא עומדת לצאת מהחדר שמחה ומאושרת. בעוד ידה אוחזת בידית הדלת היא פונה למנהלת ואומרת:

"שכחתי להגיד לך, אבל יש מספר עזרים כמו ספרים ותוכנת מחשב חדישה שצריך לקנות לכל תלמיד".

"שבי רגע", אומר המנהלת מבוהלת קמעא, "כמה בדיוק זה עולה?"

"300 שקלים לתלמיד" אומרת המורה בקול רפה ועיניה מושפלות.

"אם כך אני מבטלת את התוכנית. לא אוכל לחייב את התלמידים בהוצאה של 300 שקלים. ההפרש בין ממוצע 80 ל85- הוא אמנם מובהק, אבל עלייה בחמש נקודות אלה אינה משמעותית  להוצאה הגבוהה. אינני יכולה ליישם את התוכנית." המנהלת מסכמת את הישיבה והמורה יוצאת מהחדר מאוכזבת.

למורה ומנהלת אחרת היה אותו סיפור אלא שהתוצאות היו שונות: ממוצע הציונים בשיטה החדשה היה 59; ובשיטה הישנה הממוצע היה 54. המנהלת מפעילה את הניתוח הסטטיסטי ומוצאת כי ההבדלים בין הקבוצות אינם מובהקים (P<0.15).

"חבל", אומרת המנהלת, "זה אומר שההסתברות לטעות בהחלטה 'שיש הבדלים בין הקבוצות וזה לא מקרי' היא קטנה מ 15- אחוזים. אבל השיטה החדשה מצליחה להעביר את הכיתה מציון נכשל בבגרות (54) לציון עובר (59). השיטה אמנם איננה מובהקת, אבל מאוד משמעותית בשבילי. אני מוכנה לקבל את ההחלטה גם בסיכון שההסתברות שאני טועה קטנה מחמישה-עשר אחוזים. לכן אני מוכנה ליישם את התוכנית החדשה גם במחיר של 300 שקל לתלמיד."

הנה עוד מחקר שמדגים את ההבדל בין מובהקות למשמעות

בשנות השמונים עבדתי במכון של פרופסור פוירשטיין ז"ל (בעל פרס ישראל) וליוויתי מחקר על ניתוחי פנים אצל מתבגרים בעלי תסמונת דאון. בתוך בעלי התסמונת יש אוסף של תכונות גופניות ונפשיות הנגרמות כתוצאה מבעיה גנטית הנוצרת עוד בטרם הלידה. בעלי תסמונת דאון נוטים להיות בעלי תווי פנים אופייניים, המושכים תשומת לב ומזהים אותם כשונים ומיוחדים. מאידך רבים מהם מתפקדים היטב בתחומים מסוימים ומאוד חשוב לשלב אותם בחברה הרגילה. פרופסור פוירשטיין העלה רעיון לבצע בהם ניתוחים קוסמטיים בפנים וכך לשוות להם מראה פנים רגיל שיקל עליהם להשתלב בחברה רגילה ללא סטיגמות מיותרות (הוא גם ניסה לשכנע את משרד הפנים לשנות גם את גילם אולם נכשל). בדרכו הנועזת הוא מצא מומחה בבית החולים הדסה עין כרם אשר בצע את הניתוחים.

צוות חוקרים בצע הערכה של הניתוחים בדרך הבאה: נלקחו תמונות של המנותחים לפני הניתוח ואחרי הניתוח ואנשים רבים דרגו את "מידת הנורמליות" של תווי הפנים בסולם מאחד (מאוד לא נורמלי) ועד 5 (מאוד נורמלי). הפער בין הציונים למיטב זכרוני היה 2.7 לפני הניתוח  3.3 לאחר הניתוח. הניתוח הסטטיסטי (מבחן T) הראה הבדל מובהק. כלומר אם נחליט שאכן היה שינוי במידת הנורמליות של תווי הפנים עקב הניתוח, ההסתברות שאנחנו טועים בהחלטה קטנה מחמישה אחוזים. אולם שימו לב שהפער של חצי נקודה בתווי הפנים נראית מעט מדי מכדי להכניס מתבגר לניתוח קוסמטי עם הרדמה וכל הכרוך בכך.  ההבדל הוא מובהק אבל לא משמעותי והניתוחים נעצרו.

ספור מחקרי נוסף

בבית חולים אחד מתים בממוצע 80 חולים מסרטן המעי הגס (נתון דמיוני שלי). נניח שחוקר אחד עושה מחקר על תרופה חדשה לסרטן מעי הגס ומוצא שבבית חולים דומה ירדה התמותה ל 75 חולים. בניתוח סטטיסטי מתברר כי ההבדל בין בתי החולים אינו מובהק אולם ההבדל הא מספיק משמעותי וחשוב כדי שמשרד הבריאות ייתן לו מענקי מחקר להמשך הבדיקה עקב הסיכוי להצלת בני אדם.

המסקנה מסיפורים המחקריים האלה הוא שלאלה הרוצים להתבסס על מחקרים חשוב לתרגם את תוצאות הניתוח הסטטיסטי (מובהקות- מידת הביטחון) לרמה המעשית והיישומית שלהם. מדגמים גדולים משפיעים על רמת מובהקות בניתוח מתאמים. כאשר גודל המדגם הוא 1000 מקרים ומעלה, גם מתאם בין שני משתנים של 0.10 הוא מובהק. עצמתו של מתאם כזה היא 0.01 (יש להכפיל את המתאם בעצמו כדי לקבל את עצמתו). כלומר, משתנה אחד מנבא רק אחוז אחד מהשונות של המשתנה השני. המובהקות פירושה שיש קשר בין המשתנים, וההסתברות לטעות בהחלטה זו קטנה מחמישה אחוז. אולם המשמעות היישומית של הקשר היא זניחה ואיננה מוסיפה מאומה.

מובהקות סטטיסטית הינה מושג אובייקטיבי שלא קשור כלל בנושא הנחקר, אולם המשמעות היא החלטה סובייקטיבית המבטאת את החשיבות שבה המשתמש במחקר מתייחס לתוצאות המחקר. מכיוון שרמת המובהקות (חמישה אחוזים, או אחוז אחד) ומטה היא שרירותית, התייחסות רק למובהקות עלולה לגרום לכך שתוצאות חשובות ומשמעותיות לא תקבלנה ביטוי נכון בניתוח ממצאי המחקר. לכן ניתן בהחלט להציג תוצאות משמעותיות ברמות מובהקות גדולות מחמישה אחוז, אם יש להן משמעות תיאורטית או יישומית. המסקנה המרכזית מהדוגמאות לעיל היא כי את הפירוש הסופי לתוצאות נותנת המסגרת התיאורטית-יישומית של החוקר, ולא הניתוח הסטטיסטי המספק רק חלק ממערכת הנתונים לצורך קבלת החלטות.