רובוטי סריקה

מה זה רובוטי סריקה, שימושים נפוצים, טיפים ודגשים חשובים מהמומחים שלנו.

הדרך שבה אוספים מנועי החיפוש מידע על האתר שלכם היא באמצעות רובוטי סריקה (הנקראים גם Spiders, Crawlers וגם Robots), הסורקים את האינטרנט כל הזמן. רובוטים אלו הם בעצם תוכנות (די פרימיטיביות – למרות שהן משופרות כל הזמן) שתפקידן הוא להוריד דפי אינטרנט לתוך מאגר נתונים, לחפש בהם קישורים לדפים חדשים, ולהוריד גם אותם (וכן הלאה). ניתן דעת כמה דפים סרוקים יש לאתר כלשהו במנוע החיפוש שלגוגל למשל, באמצעות שימוש באופרטור החיפוש site ולאחריו נקודותיים בתיבת החיפוש של גוגל, כך: site: www.bonbon.com

אפשר גם להיעזר בכלי seo בשם seoquake המציג בין היתר גם מספר דפים סרוקים במנועי החיפוש הגדולים Google, Bing, Baidu, Yandex.

אתר לא חברותי לרובוטים

מאחר והרובוטים די פרימיטיביים, אז הם אוהבים אתרים פשוטים. אתרים המבוססים על טכנולוגיות מתקדמות יותר מסתכנים בכך שהרובוטים לא יבינו אותם. טכנולוגיות מהם כדאי להימנע כוללות:

  • פלאש – Flash – אף שחלה התקדמות ניכרת בשנים האחרונות, הרובוטים כיום מסוגלים לקרוא מעט מן הדברים המופיעים בתוך הפלאש. אתרים שלמים הבנויים על פלאש אחד יופיעו במנוע החיפוש כדף בודד, ללא רוב התוכן של האתר. קיים שיתוף פעולה חדש יחסית בין חברת אדובי, מפתחת תוכנת הפלאש, לבין ענקית החיפוש גוגל, שנועד להקל על קריאת קבצי פלאש, אולם שיתוף הפעולה עדיין לא נשא פרי והפלאש נשאר בינתיים אויב של רובוטי סריקה.
  • פריימס – Frames – שיטה שכמעט ונעלמה מן העולם. הבעיה בשיטה זו היא כי הכתובת הכללית של הדף נשארת קבועה, והתוכן מתחלף בתוך ה-Frame. לכן, אי אפשר להגיע ישירות לדף מסויים בתוך האתר, ורק הדף הראשי יופיע. אם יופיע דף פנימי, אז הוא יופיע ללא המסגרת החיצונית. בכל מקרה, התוצאה היא לא טובה.
  • איי-פריימס – IFrames – זוהי טכנולוגיה חדישה יותר – משמשת כיום את ענקיות הרשת החברתית יוטיוב (YouTube) ופייסבוק (facebook) להטמעת קבצים) – אך עדיין יוצרת אותה בעיה. התוכן מתחלף בתוך ה-IFrame, ולכן הרובוט לא יכול לראות את התכנים השונים. בהחלט לא מומלץ. אם המטרה היא רק להשיג מסגרת פנימית עם גלילה (בתוכה יש קוד שאיננו מובא מדף נפרד) אז עדיף להשתמש ב-DIV או SPAN שלגביהם מגדירים ב-CSS גלילה.
  • דפים דינמיים עם Session ID – ישנם אתרים שעדיין משתמשים בנתון Session ID בתוך כתובת הדף הדינמי כדי לעקוב אחר משתמשים באתר. מצב זה גורם לרובוט לחשוב כי מדובר בדף חדש שאינו קיים עדיין במאגר שלו (כי ה-Session ID הוא חדש). דפים מסוג זה יעלמו בסופו של דבר מתוצאות החיפוש לחלוטין, כיוון שייחשבו לדפים שונים בעלי תוכן זהה, כלומר לתוכן כפול, ומכאן – מיותר.
  • דרישת איפשור Cookies – אתרים מסוימים דורשים כי המשתמש יפעיל את אופציית ה-Cookies כדי לאפשר לו לראות את האתר. הרובוטים של מנועי החיפוש לא יודעים לייצר Cookies, ולכן לא יוכלו לקרוא דפים הדורשים אותם. זה לא שאסור להשתמש ב-Cookies – פשוט לא לחייב שימוש בהם.
  • שימוש בקישורי JavaScript בלבד – רובוטים יודעים לזהות קישורים מסוג href בלבד, ואינם עוקבים אחר קישורי JavaScript. באתרים שבהם ישנם קישורים מסוג JavaScript לא יופיעו הדפים שאליהם אין קישור רגיל.

רובוט הסריקה של גוגל – גוגלבוט

הנה כמה נקודות אותם כדאי לדעת על רובוט הסריקה של גוגל – גוגלבוט:

  • תכיפות הסריקה – גוגלבוט סורק אתרים שונים ודפים שונים בתכיפות שונה. הפרמטרים המשמשים את גוגלבוט כדי לקבוע אילו דפים לסרוק יותר הם ה-pagerank של הדף, כמו הלינקים לעמוד מסויים, ומספר הפרמטרים ב-url (אם מדובר בדף דינמי – asp או php לדוגמא). כמובן שיש עוד גורמים נוספים, אך קשה לקבוע מהם.

רמות סריקת האתר

הרובוטים המשמשים לסריקת האינטרנט מבצעים זאת בשלוש רמות שונות של ירידה לפרטים. קיימות שלוש רמות סריקה עיקריות:

  • סריקה אחר דפים חדשים – סריקה זו מבוצעת על מנת לאתר דפים חדשים שעדיין לא מופיעים במאגר הדפים של מנוע החיפוש. הרובוט יכול "לגלות" את הדף החדש בעקבות הכנסתו בדף "הוסף אתר" של מנוע החיפוש, או בעקבות כך שהמנוע נתקל בקישור אל הדף החדש באחד הדפים שכבר קיימים אצלו במאגר הדפים.
  • סריקה שיטחית של הדפים החשובים – סריקה זו עוברת על הדפים החשובים ביותר באתר (בדרך כלל דף הבית), ונעשית לעיתים תכופות יותר.
  • סריקת עומק – בסריקה זו נסרקים כל דפי האתר המופיעים במסד הנתונים של מנוע החיפוש כדי לאתר דפים חדשים ושינויים בתוכן הדפים הקיימים. סריקה זו נעשית אחת לזמן ארוך יותר.

מניעת גישת רובוטים לאזורים מסוימים באתר

לעיתים קרובות מבקשים למנוע גישה של רובוטי החיפוש לאיזור מסוים בתוך האתר. דוגמא בסיסית לכך היא ספרייה המכילה חומר חסוי או סודי, או דף שכבר אינו מעודכן.

קיימות שתי דרכים עיקריות למניעת גישת הרובוטים לאיזורים מסויימים באתר:

קובץ robots.txt

לעיתים קרובות תהיו מעוניינים למנוע גישה של רובוט של מנוע חיפוש מסוים לאתר שלכם (או לחלק ממנו), או תהיו מעוניינים לחסום את הגישה של כל הרובוטים לאיזור מסויים. לשם כך נוצר קובץ robots.txt.

שימו לב: איסור גישה של מנוע חיפוש לדף מסוים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו'). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בשיטה השנייה (תג robots).

קובץ robotx.txt צריך להימצא בספרייה הראשית של האתר (בדרך כלל הוא לא קיים באופן טבעי, אלא צריך ליצור אותו). כל חלק בתוך הקובץ כולל את סוג הרובוט והגבלות על אותו רובוט. כמו-כן יהיו בקובץ מגבלות המוטלות על כל הרובוטים.

תג מטה (Robots Meta Tag)

כדי לשלוט על הדרך שבה רובוטי החיפוש מעבדים דפים מסויימים באתר, ניתן להשתמש בתג robots. הנושאים העיקריים שבהם שולט תג זה הם:

  • האם להכניס את הדף למסד הנתונים של מנוע החיפוש או לא.
  • האם לעקוב אחרי קישורים היוצאים מן הדף הזה או לא.
עוד קצת ואתם בדרך לקידום אתרים טוב יותר

מלאו את כל הפרטים ונחזור אליכם בהקדם האפשרי. 
רוצים לדבר איתנו על נושא אחר? צרו קשר מכאן