עד תחילת 2007 האלגוריתם של גוגל לקביעת הדירוג בתוצאות החיפוש התבסס במידה רבה על PageRank שנגזר מכמות ואיכות הקישורים הנכנסים אל האתר וכמעט שלא התייחסה לתוכן הדף. הסיבה לכך היתה מעשית: לבעל האתר יש שליטה מלאה על תוכן הדף והחופש לשנות אותו כדי להוליך שולל את האלגוריתם בעוד שהשליטה שלו על הקישורים הנכנסים לאתר נמוכה יותר ולכן הם מספקים מדד טוב יותר לסמכות של האתר (משקל הקישורים) ולרלבנטיות שלו (הטקסט של הקישור).
בראשית 2007, גוגל הציגה דרך חדשה להערכת הרלבנטיות של דף בהתבסס על התוכן שלו שנראית חסינה בפני נסיונות מניפולציה כגון שימוש בצפיפות גבוהה של מילת המפתח ויצירה אוטומאטית של דפים עשירים במילת מפתח. שיטה זו מהווה פתרון כנגד אתרי MFA (Made for AdSense) שמציגים תוכן חסר משמעות עשיר במילת מפתח שמועתק מאתרים אחרים ביחד עם מודעות ממומנות.
השיטה מבוססת על התייחסות לצירופי מילים. מנקודת המבט של הגולש, בדרך כלל שאילתות החיפוש נעשות על צירופי מילים או רעיונות ולא על מילה בודדת או קבוצת מילים. למרות זאת, מערכות מפתוח (Indexing) עדיין בנויות על מונחים נפרדים. המערכות נמנעות ממפתוח על פי צירופי מילים כי הזיהוי של כל הצירופים האפשריים של מילים דורש כח מחשוב ונפח זכרון אדירים. למשל, לקיסקון של 200,000 מילים ייחודיות עשוי לייצר מספר עצום של צירופי מילים אשר אין מערכת שמסוגלת לאגור כמות כזו של נתונים בזכרון ולהשתמש בהם בצורה יעילה.
בעייה זו נפתרת ע”י המערכת החדשה שמזהה צירופי מילים שחוזרים בתדירות מספקת שניתן לזהות אותם בדפים שנסרקים. זה מבטל את הצורך לשמור את כל הצירופים האפשריים.
תכונה חשובה נוספת עליה מתבסס הרעיון החדש הוא היכולת של צירופי מילים לחזות את הקיום של צירופי מילים אחרים באותו דף. למשל, הביטוי “נשיא ארה”ב” מעיד על כך שסביר להניח שגם הביטוי “הבית הלבן” יופיע באותו דף. לכל צירוף מילים, המערכת יוצרת רשימה תואמת של צירופי מילים שקשורים לו, מסודרים על פי החשיבות שלהם. זה מאפשר למערכת לזהות דפי ספאם בהתבסס על ההופעה המוגזמת של צירופי מילים קרובים.
אז איך זה עובד?
תהליך המפתוח
תהליך זה כולל זיהוי של צרופי מילים וביטויים שקשורים אליהם.
המערכת מנתחת את רצף המילים ומסמנת אותן כצירופים “טובים” או “רעים”.
צירוף טוב הוא כזה שחוזר לעיתים קרובות למדי בין דפים מאונדקסים או שיש לו הופעה מכובדת, לדוגמה, צירוף מילים המופרד באמצעות תגי פורמט, סימני פיסוק או צורות הדגשה אחרות. תכונה נוספת של נכבדות היא היכולת של צירוף טוב לחזות את הקיום של צירוף שקשור אליו. צירופים מסוימים כמו, ניבים (צץ משום מקום, ברווזים במטווח וכד’) מופיעים בסמוך לצירופים שונים ושאינם קשורים זה לזה ולא יכולים לחזות דבר. לכן, ניבים וביטויי דיבור אינם נחשבים צירופים “טובים”.
בתהליך המפתוח, המערכת מייצרת רשימה של צירופי מילים תקינים עם מטריצה של ביטויים נלווים כאמצעי חיזוי. כל רשימה כזו מוערכת ב650,000 ביטויים.
בתהליך המפתוח, המערכת מייצרת עבור כל צירוף מילים טוב, רשימות של דפים המכילים את צירוף המילים כשעבור כל מסמך נשמר מספר המופעים של הביטויים שקשורים לצירוף המילים ומידע על הביטויים הקרובים לאותם ביטויים.
בתהליך המפתוח, עבור כל צירוף מילים טוב, מערכת המפתוח מייצרת גם רשימות של דפים שצירוף המילים הזה מופיע בהם בטקסט של קישורים יוצאים ובטקסט של קישורים שנכנסים אליהם.
חיפוש
מערכת החיפוש מקבלת שאילתא ומזהה בתוכה את צירופי המילים. לאחר שנוצרה קבוצה של ביטויי שאילתא, המערכת מקבלת רשימות של דפים (posting lists) עבור כל אחד מן הביטויים שזוהו. נעשית הצלבה בין הרשימות כדי לקבוע אילו מהדפים מופיעים ביותר מרשימה אחת.
דירוג הדפים על פי צירופי המילים (PhraseRank)
ככל שהדף מכיל יותר ביטויים רלבנטיים הוא מקבל ציון רמת גוף הדף (body hit) גבוה יותר תוך שימוש במידע על ביטויים שקשורים לביטויים שבשאילתת החיפוש, כך שגם דף שביטוי החיפוש מופיע בו בתדירות נמוכה יכול לקבל דירוג גבוה יותר אם יש בו תדירות גבוהה מספיק של ביטויים קרובים.
ציון רמת הטקסים בקישורים הנכנסים (anchor hit) לדף מחושב כפונקציה של המידע השמור במערכת על הדפים מהם מגיע קישור נכנס לדף תוך שימוש בביטוי מאלה שזוהו בשאילתא ואיכותם של דפים אלה בהקשר של אותו ביטוי.
לחישוב ציון הדירוג הסופי, PhraseRank, ציון רמת גוף הדף משוכלל עם ציון רמת הטקסטים בקישורים הנכנסים.
לסיכום
השיטה החדשה למפתוח ודירוג משתמשת בתוכן הדף (צירופי מילים) לדירוג תוצאות חיפוש בדרך שחסינה לנסיונות מניפולציה. התכונות של הדף בהן משתמשים לדירוג הדפים, כלומר, ביטויים והיחסים ביניהם, מושפעות מהתכונות של כל הדפים המאונדקסים ולכן אינן ניתנות לשליטה ע”י בעלי האתרים.
הגישה מבוססת הביטויים משפרת גם את היכולת של של מנוע החיפוש תבניות לא טבעיות בתוכן טקסטואלי כגון צפיפות מילות מפתח מוגזמת או תוכן מועתק. היא מאפשרת גם לספק תוצאות ממוקדות יותר ע”י פסילת מסמכים שמכסים מספר נושאים.
הגישה החדשה משמשת כתוספת לדירוג המבוסס על פופולאריות בקישורים כפרמטר נוסף בנוסחה הסופית. נעשה שימוש בדירוג הPR כדי ליצור דירוג ראשוני של הדפים ברשימות הדפים (posting lists) כדי לשפר את הביצועים במערכת החיפוש.