זמן קריאה: 2 דקות

גולש עירני הבחין לפני מספר ימים בתוספת מוזרה בעת שבדק את גירסת המטמון של האתר שלו בגוגל.מאז הגילוי גואות הספקולציות בנוגע למשמעות של הטקסט המוזר, ועל חשיבותו למי שמנסה לנתח את אלגוריתם החיפוש של גוגל.

מאט קאטס, מהנדס מגוגל, אישר כי מדובר במשהו אמיתי ולא במתיחה, אך אמר כי הוא לא יגיב על תוכן הטקסט, וכי גוגל נקטו בצעדים בכדי להבטיח כי הטקסט לא יופיע שנית.

התוספת עליה דיווח הגולש נראתה כך:

pacemaker-alarm-delay-in-ms-overall-sum 2341989
pacemaker-alarm-delay-in-ms-total-count 7776761
cpu-utilization 1.28
cpu-speed 2800000000
timedout-queries_total 14227
num-docinfo_total 10680907
avg-latency-ms_total 3545152552
num-docinfo_total 10680907
num-docinfo-disk_total 2200918
queries_total 1229799558
e_supplemental=150000 –pagerank_cutoff_decrease_per_round=100 –pagerank_cutoff_increase_per_round=500 –parents=12,13,14,15,16,17,18,19,20,21,22,23 –pass_country_to_leaves –phil_max_doc_activation=0.5 –port_base=32311 –production –rewrite_noncompositional_compounds –rpc_resolve_unreachable_servers –scale_prvec4_to_prvec –sections_to_retrieve=body+url+compactanchors –servlets=ascorer –supplemental_tier_section=body+url+compactanchors –threaded_logging –nouse_compressed_urls –use_domain_match –nouse_experimental_indyrank –use_experimental_spamscore –use_gwd –use_query_classifier –use_spamscore –using_borg

הנתונים המופיעים אינם מסבירים את עצמם, והניחושים לגבי המשתנים והחלקים השונים בטקסט רבים ושונים. כמה מן הנתונים המופיעים בטקסט מעניינים אותי באופן מיוחד:

  • pass_country_to_leaves – יתכן כי מדובר בכך שלכל דף מסויים מוגדרת מדינה מסויימת, והוא יכול להעביר את המדינה הזו אל הדפים אליהם הוא מקשר. האם מדובר כאן במעין אלגוריתם pagerank, המעביר "מדינה" מדף אל דף?
  • rewrite_noncompositional_compounds – מרמז על כך שגוגל מזהה צירופי מילים היוצרים ביטויים בעלי משמעות שונה מהמשמעות המקורית.
  • sections_to_retrieve=body+url+compactanchors – כנראה שמדובר באלגוריתם לחלוקת הדף בעת קריאתו. המשמעותיות של קיום אלגוריתם כזה הן עצומות!
  • nouse_experimental_indyrank – שם של אלגוריתם חדש – מעניין מאד מהו…
  • use_experimental_spamscore – כנראה שזהו השם אותו גוגל נותנים למדד הסיכוי לכך שעמוד מסויים או אתר מסויים מכילים ספאם.