זמן קריאה: 2 דקות

מידע נוסף אודות עדכון big daddy נחשף היום על-ידי מאט קאטס, מהנדס מגוגל. המידע מתייחס לשיפורים שהוכנסו למערכת במטרה לאפשר סריקה יעילה יותר של דפי האינטרנט על ידי הרובוט של גוגל (גוגלבוט).

אחד העדכונים הבולטים ביותר במסגרת עדכון big daddy היה הכנסת רובוט סריקה חדש לפעילות מלאה. הרובוט החדש מזדהה באמצעות user agent שונה מן הרובוט הישן:

  • הרובוט החדש:
    “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
  • הרובוט הישן:
    “Googlebot/2.1 (+http://www.google.com/bot.html)”

עדכון חשוב ראשון ברובוט החדש הוא שיפור היכולת שלו לקרוא קבצים המקווצים בשיטת gzip (שיטה בה המידע מכווץ על השרת, ורק אז נשלח אל הגולש או הרובוט), ובכך לחסוך תעבורת רשת (bandwidth) מיותרת.

העדכון השני כולל יצירה של מעין שרת פרוקסי חדש בגוגל, שמשמש את שירותי גוגל השונים. בצורה זו הרובוטים השונים של גוגל (כמו הרובוט של גוגל אדסנס, הרובוט של חיפוש הבלוגים של גוגל, הרובוט של שירות חדשות גוגל או גוגלבוט הרגיל) עוברים קודם בשרת הפרוקסי בכדי לראות אם הדף אותו הם מעוניינים לסרוק נסרק מייד לפני-כן על ידי רובוט אחר. במידה והם מוצאים סריקה כזו, אז הם ימנעו מלבצע סריקה בעצמם. בצורה זו נחסך רוחב פס רב לאתרים ברשת.

שיטת העבודה החדשה של גוגל היא זו שגרמה לתופעה בה דפים הופיעו במטמון של גוגל לאחר סריקתם על-ידי הרובוט של גוגל אדסנס.

עם זאת מבהיר מאט כי הצטרפות אל שירות מסויים (כמו גוגל אדסנס) לא יגרום להוספת דפים חדשים אל האינדקס, אלא רק ישפר את רמת הטריות של המטמון. בנוסף אומר מאט כי הגבלות שבוצעו באמצעות קובץ robots.txt על רובוט מסויים, לא יפריעו לרובוטים האחרים.

ולסיום מבהיר מאט כי המטמון של גוגל כולל רק דפים הנמצאים באינדקס של גוגל, והפרוקסי החדש יכול לכלול גם דפים שאינם באינדקס. לכן, הכנסת דף חדש אל הפרוקסי כתוצאה מסריקתו על ידי הרובוט של גוגל אדסנס לדוגמא, לא תכניס אותו אוטומטית אל האינדקס הראשי.