קובץ robots.txt

מה זה קובץ robots.txt?

 

חלק נכבד מרובוטי סריקה שפועלים כיום יחפשו את הקובץ robots.txt בספרייה הראשית של האתר שלכם(https://www.seoisrael.co.il/robots.txt). קובץ זה אמור לסייע להם להחליט לאילו חלקים באתר הם אמורים להימנע מלהיכנס.

שימו לב: איסור גישה של מנוע חיפוש לדף מסוים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו'). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בשיטה השנייה (תג robots).

איך מכינים קובץ robots.txt וממה הוא בנוי?

את הקובץ יש להכין בעורך טקסט רגיל (notepad) ולא בתוכנה אחרת.

על מנת להבין יותר כיצד בנוי קובץ זה, הבה נבדוק דוגמא לקוד:

User-agent: *

Disallow: /cgi-bin/

Disallow: /images/

אם נסתכל על הקוד, נראה כי קיימים בו שני חלקים:

  • User-Agent: חלק זה מגדיר אל מי מופנות ההוראות שיגיעו מיד לאחריו.
  • Disallow: לאילו חלקים באתר אנו מעוניינים למנוע גישה ממי שהוגדר בשדה User-Agent.

במקרה שלמעלה, אנו ביקשנו מכל מנועי החיפוש (הסימון לכל מנועי החיפוש ביחד הוא *) להימנע מגישה לספריית cgi-bin ולספריית images.

הבה נבחן דוגמא נוספת לקוד:

User-agent: *

Disallow: /

דוגמא זו תמנע את הגישה של כל מנועי החיפוש אל כל האתר, כלומר מנועי החיפוש לא יסרקו את האתר כלל.

ולסיום נבחן דוגמא מסובכת יותר:

User-agent: googlebot

Disallow: /bonbons/

Disallow: bonbons.htm

User-agent: bonboncrawler

Disallow: /

בדוגמא זו נתנו הוראות לשני רובוטים שונים. רובוט googlebot קיבל הוראה להימנע מגישה אל ספריית bonbons, ואל הקובץ bonbons.htm. ההוראה השניה מתייחסת לרובוט bonboncrawler, עליו אסרנו את הגישה לאתר כליל.

והדוגמא האחרונה:

User-agent: googlebot

Disallow:

User-agent: *

Disallow: /

שימו לב כי האיסור הראשון (googlebot) הוא ריק! לכן, בעצם המשמעות היא ש-googlebot יכול לסרוק את כל דפי האתר. האיסור השני מונע מכל הרובוטים מלסרוק את האתר. לכאורה סתירה בין שתי ההוראות, אך למעשה כאשר יש סימן *, הנוגד הוראה יותר ספציפית, אז ההוראה היותר ספציפית מנצחת.

המשמעות של הקוד הקודם היא למעשה – גוגלבוט סורק את כל האתר, כל השאר לא.

robots.txt למפעילי פורומים

קובץ robots.txt יכול לסייע לכם למנוע מרובוטים לגלוש לחלקים בפורום שלכם שאינם כוללים מידע שימושי. דוגמא לדפים שכדאי למנוע אליהם גישה הוא דפי פרופיל משתמש, דף חיפוש, דף כתיבת הודעה חדשה ודף ההתחברות למערכת. כדי למנוע גישה לדפים אלו, אפשר לבנות קובץ כזה:

User-agent: *

Disallow: /forum/post.asp

Disallow: /forum/user_profile.asp

Disallow: /forum/search.asp

Disallow: /forum/password.asp

האם ליצור קובץ robots.txt גם אם אין בו צורך?

בסרטון וידאו שפורסם על-ידי מאט קאטס מגוגל, בתאריך ה-19 לאוגוסט 2011, הוא מתייחס לשאלה זו. התשובה הקצרה היא זו: תחשבו על זה בצורה כזו: הרובוטים של מנועי החיפוש בכלל, וגוגל בפרט, ניגשים כל הזמן לנתיב של קובץ ה-Robots.txt באתר שלכם. מה יקרה אם הקובץ לא יהיה שם? האם השרת יחזיר תגובת שגיאת שרת (קוד תגובה 500) או תגובת עמוד לא נמצא (קוד תגובה 404)? כיצד יתייחס הרובוט לתגובה זו? האם הסיכון שווה את המאמץ שכרוך בהעלאת הקובץ לשרת?

נשארים בלופ

הרשמו לניוזלטר שלנו ועדכונים חמים, מדריכים וטיפים מאנשי המקצוע המובילים בארץ אצלכם במייל, ללא ספאם וללא הטרדות.

עוד קצת ואתם בדרך לקידום אתרים טוב יותר

מלאו את כל הפרטים ונחזור אליכם בהקדם האפשרי. 
רוצים לדבר איתנו על נושא אחר? צרו קשר מכאן