קידום אתרים במנועי חיפוש
 
 

רובוטי סריקה

 

מאמרים נוספים בנושא:

רובוטי סריקה

הדרך בה אוספים מנועי החיפוש מידע על האתר שלכם היא באמצעות רובוטי סריקה (הנקראים גם Spiders, Crawlers וגם Robots), הסורקים את האינטרנט כל הזמן. רובוטים אלו הם בעצם תוכנות (די פרימיטיביות - למרות שהן משופרות כל הזמן) שתפקידן הוא להוריד דפי אינטרנט לתוך מאגר נתונים, לחפש בהם קישורים לדפים חדשים, ולהוריד גם אותם (וכן הלאה).


כלי לבדיקת מספר הדפים מהאתר המופיעים במנועי חיפוש שונים:
Search Engine Saturation

אתר חברותי לרובוטים

מאחר והרובוטים די פרימיטיביים, אז הם אוהבים אתרים פשוטים. אתרים המבוססים על טכנולוגיות מתקדמות יותר מסתכנים בכך שהרובוטים לא יבינו אותם. טכנולוגיות מהם כדאי להימנע כוללות:

  • פלאש - Flash
    הרובוטים כיום מסוגלים לקרוא מעט מן הדברים המופיעים בתוך הפלאש. אתרים שלמים הבנויים על פלאש אחד יופיעו במנוע החיפוש כדף בודד, ללא רוב התוכן של האתר. פלאש הוא אוייב הרובוטים מספר אחד כיום.
  • פריימס - Frames
    שיטה שלאט לאט נעלמת מן העולם. הבעיה בשיטה זו היא כי הכתובת הכללית של הדף נשארת קבועה, והתוכן מתחלף בתוך ה-Frame. לכן, אי אפשר להגיע ישירות לדף מסויים בתוך האתר, ורק הדף הראשי יופיע. אם יופיע דף פנימי, אז הוא יופיע ללא המסגרת החיצונית. בכל מקרה, התוצאה היא לא טובה.
  • איי-פריימס - IFrames
    זוהי טכנולוגיה חדישה יותר, אך עדיין יוצרת את אותה הבעיה. התוכן מתחלף בתוך ה-IFrame, ולכן הרובוט לא יכול לראות את התכנים השונים. מאד לא מומלץ. אם המטרה היא רק להשיג מסגרת פנימית עם גלילה (בתוכה יש קוד שאיננו מובא מדף נפרד) אז עדיף להשתמש ב-DIV או SPAN לגביהם מגדירים ב-CSS גלילה.
  • דפים דינמיים עם Session ID
    אתרים רבים משתמשים בנתון Session ID בתוך כתובת הדף הדינמי כדי לעקוב אחר משתמשים באתר. מצב זה גורם לרובוט לחשוב כי מדובר בדף חדש שאינו קיים עוד במאגר שלו (כי ה-Session ID הוא חדש). דפים מסוג זה יעלמו בסופו של דבר מתוצאות החיפוש לחלוטין.
  • דרישת איפשור Cookies
    אתרים מסויימים דורשים כי המשתמש יפעיל את אופציית ה-Cookies כדי לאפשר לו לראות את האתר. הרובוטים של מנועי החיפוש לא יודעים לייצר Cookies, ולכן לא יוכלו לקרוא דפים הדורשים אותם. זה לא שאסור להשתמש ב-Cookies - פשוט לא לחייב שימוש בהם.
  • שימוש בקישורי JavaScript בלבד
    רובוטים יודעים לזהות קישורים מסוג בלבד, ואינם עוקבים אחר קישורי JavaScript. באתרים בהם ישנם קישורים מסוג JavaScript לא יופיעו הדפים אליהם אין קישור רגיל.

ושוב נחזור על הבסיס - פשוט זה טוב.

רובוט הסריקה של גוגל - גוגלבוט

הנה כמה נקודות אותם כדאי לדעת על רובוט הסריקה של גוגל - גוגלבוט:

  • תכיפות הסריקה
    גוגלבוט סורק אתרים שונים ודפים שונים בתכיפות שונה. הפרמטרים המשמשים את גוגלבוט כדי לקבוע אילו דפים לסרוק יותר הם ה-pagerank של הדף, כמו הלינקים לעמוד מסויים, ומספר הפרמטרים ב-url (אם מדובר בדף דינמי - asp או php לדוגמא). כמובן שיש עוד גורמים נוספים, אך קשה לקבוע מהם.
  • פרמטר ID
    גוגלבוט עלול לא לסרוק אתרים דינמיים הכוללים משתנה בשם id, מאחר ומשתנה זה משמש פעמים רבות לשם שמירת session id בלבד. יתכן מאד כי עדיף להמנע משימוש בשתי האותיות הללו גם בשם יותר ארוך (catid לדוגמא) - אך על כך אין אישור וודאי.

רמות סריקת האתר

הרובוטים המשמשים לסריקת האינטרנט מבצעים זאת בשלוש רמות שונות של ירידה לפרטים. קיימות שלוש רמות סריקה עיקריות:

  • סריקה אחר דפים חדשים
    סריקה זו מבוצעת על מנת לאתר דפים חדשים שעדיין לא מופיעים במאגר הדפים של מנוע החיפוש. הרובוט יכול "לגלות" את הדף החדש בעקבות הכנסתו בדף "הוסף אתר" של מנוע החיפוש, או בעקבות כך שהמנוע נתקל בקישור אל הדף החדש באחד הדפים שכבר קיימים אצלו במאגר הדפים.
  • סריקה שיטחית של הדפים החשובים
    סריקה זו עוברת על הדפים החשובים ביותר באתר (בדרך כלל דף הבית), ונעשית לעיתים תכופות יותר.
  • סריקת עומק
    בסריקה זו נסרקים כל דפי האתר המופיעים במסד הנתונים של מנוע החיפוש כדי לאתר דפים חדשים ושינויים בתוכן הדפים הקיימים. סריקה זו נעשית אחת לזמן ארוך יותר.

מניעת גישת רובוטים לאיזורים מסוימים באתר

לעיתים קרובות אתם תרצו למנוע גישה של רובוטי החיפוש לאיזור מסויים בתוך האתר שלכם. דוגמא בסיסית לכך היא ספרייה המכילה חומר שאינכם מעוניינים שיחשף בטעות, או דף שכבר אינו מעודכן.

קיימות שתי דרכים עיקריות למניעת גישת הרובוטים לאיזורים מסויימים באתר.

קובץ robots.txt

לעיתים קרובות תהיו מעוניינים למנוע גישה של רובוט של מנוע חיפוש מסויים לאתר שלכם (או לחלק ממנו), או תהיו מעוניינים לחסום את הגישה של כל הרובוטים לאיזור מסויים. לשם כך נוצר קובץ robots.txt.

שימו לב: איסור גישה של מנוע חיפוש לדף מסויים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו'). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בשיטה השנייה (תג robots).

קובץ robotx.txt צריך להימצא בספרייה הראשית של האתר (בדרך כלל הוא לא קיים באופן טבעי, אלא צריך ליצור אותו). כל חלק בתוך הקובץ כולל את סוג הרובוט והגבלות על אותו רובוט. כמו-כן יהיו בקובץ מגבלות המוטלות על כל הרובוטים.

תג מטה (Robots Meta Tag)

כדי לשלוט על הדרך בה רובוטי החיפוש מעבדים דפים מסויימים באתר, ניתן להשתמש בתג robots. הנושאים בהם שולט תג זה הם:

  • האם להכניס את הדף למסד הנתונים של מנוע החיפוש או לא.
  • האם לעקוב אחרי קישורים היוצאים מן הדף הזה או לא.
Pagerank - גוגל משתמשים באתר
מרכז מידע

קידום אתרים ושיווק באינטרנט:

קידום אתרים
בניית קישורים
שיווק באינטרנט
גוגל אדסנס
רשימת מאמרים

חדשות ועדכונים:

בלוג קידום אתרים
פורום קידום אתרים

מנועי חיפוש:

מנועי חיפוש
גוגל

בניית אתרים:

אחסון אתרים
רישום דומיין
בניית אתרים

אודות אס.אי.או ישראל:

מומחה קידום אתרים
לקוחות נבחרים
מחירים
יצירת קשר
שותפים עסקיים
מיקומים של לקוחותינו
מן העיתונות
יצירת קשר
טלפון:073-2240000
פקס:073-2240022
טיפטוף טיפים
הרשמו כאן וקבלו טיפ קידום אתרים חדש כל שלושה ימים אל המייל שלכם:
קישורים

לימודי הנדסה

לימודי הנדסה
במכללה האקדמית ירושלים

www.jce.ac.il


בעלי מקצוע

בעלי מקצוע אמינים
בחלוקה לפי אזורים

www.noproblem.co.il


נושאים בכותרות
דרושים - חיפוש עבודה
דירות למכירה
פרטיות / תנאי שימוש Valid XHTML 1.0