ראשית נעשה סדר קצר. מי שסורק את דפי האתר ומעביר את הנתונים לניתוח במנועי החיפוש הם העכבישים. העכבישים “גולשים” באינטרנט ותרים אחר מידע חדש שאותו הם יוכלו להעביר לניתוח במנועי החיפוש. המעבר בין דפי האינטרנט השונים מתבצע תוך שימוש בקישורים השונים המופיעים בדפי המידע.
כאשר אנחנו גולשים באינטרנט אנו קולטים מידע שאינו זמין לעכבישים, לדוגמה אנו מסוגלים לראות ולנתח תמונות, דבר שנמנע מהעכבישים של מנועי החיפוש. דוגמה אחרת היא אנימציות פלאש. אנחנו מתרשמים מיופיים וקולטים גם את המסרים המועברים אלינו, אולם העכביש אינו יכול להתרשם מהיופי וקולט את המסרים (נכון להיום…) בצורה מעוותת. העכביש סורק את הדף ו “מבין” שיש תמונה או אנימציית פלאש אולם הוא אינו מצליח להבין מה יש בהם.
בכדי לראות את דפי האינטרנט בעיניהם של מנועי החיפוש, אנו יכולים להיעזר בכלים רבים המצויים באינטרנט אולם אני רוצה להציג בפניכם את הכלי הפשוט ביותר ו -“המדויק ביותר” – המטמון של גוגל.
היתרון הגדול של הכלי הנ”ל הוא בכך, שהוא מאפשר לדעת אם הדף מוכר כבר לגוגל. אם הדף נמצא כבר כמה ימים או יותר באתר וגוגל עדין לא קרא אותו, יתכן שהדבר מעיד שיש בעיה באתר. היתרון השני של הכלי הוא בפשטות הפעלתו.
לפני שנראה כיצד מפעילים את הכלי, נכיר פקודה בגוגל: site:www.domain.com. הפקודה מאפשרת לשלוף מתוך מנוע החיפוש את רשימת הדפים השונים השייכים לאתר אינטרנט מסוים ושהוכנסו למאגר הנתונים של מנוע החיפוש. בכדי להריץ את הפקודה, יש לגלוש למנוע החיפוש ובשורת החיפוש יש להקליד את הפקודהsite: ומייד לאחריה את שם הדומיין כפי שניתן לראות בתמונה: