Robots.txt הוא קובץ טקסט הממוקם בתיקיית השורש של אתר אינטרנט, המשמש כפרוטוקול תקשורת בין בעלי אתרים לבין זחלני מנועי החיפוש (web crawlers). הקובץ מכיל הוראות והנחיות המגדירות אילו חלקים מהאתר מותרים או אסורים לסריקה ואינדוקס על ידי רובוטים של מנועי חיפוש.
על ידי הגדרה Robots.txt, אפשר לשלוט בגישה של זחלנים לחלקים שונים באתר, לנהל את תקציב הסריקה ביעילות, ולהבטיח שרק התוכן הרצוי יופיע בתוצאות החיפוש. Robots.txt הוא מרכיב חשוב באופטימיזציית SEO (קידום אתרים) ובניהול נכון של נראות האתר.
מה זה Robots.txt?
קובץ Robots.txt הוא המפתח לניהול יעיל של תקציב סריקה של אתרים ומהווה כלי חיוני בארסנל של כל מקדם אתרים מקצועי. הקובץ משמש כמעין "שומר סף" ומנחה את זחלני מנועי החיפוש כיצד לסרוק את האתר. הבנה מעמיקה של Robots.txt יכולה לשפר משמעותית את ביצועי ה-SEO של האתר.
חשיבות ויתרונות הקובץ כוללים שליטה בתקציב הזחילה ומאפשרים ניצול יעיל של משאבי הסריקה של מנועי החיפוש הוא מסייע בהגנה על תוכן רגיש ומונע אינדוקס של דפים פרטיים או לא רלוונטיים כמו כן הוא עוזר במניעת כפילויות ומונע סריקה של גרסאות כפולות של דפים בנוסף הוא משפר ביצועים ומפחית עומס על השרת על ידי הגבלת סריקות מיותרות
איך ניראה Robots.txt?
מבנה הקובץ מורכב מבלוקים המגדירים הוראות לזחלנים שונים התחביר כולל User-agent לציון שם הזחלן Disallow לציון תיקייה או דף לחסימה ו-Allow לציון תיקייה או דף להתרה לדוגמה ניתן להגדיר
User-agent: *
Disallow: /private/
Allow: /public/
הנה ה-Robots.txt שלי, שנגיש לכולם בכתובת: https://www.tropicdigital.co.il/robots.txt
אגב, כל אתר בעל קובץ robots.txt נגיש באותה הכתובת רק בשם האתר.
איך להגדיר נכון את קובץ Robots.txt
אפשר להעתיק מהתמונה את ההגדרה, ולשנות את המאפיינים לאתר שלכם. או להשתמש בקוד הזה:
user-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-content/plugins/ #block access to plugins
Disallow: /wp-login.php #block access to management
Disallow: /feed #block feeds
Disallow: /search/ #block internal search results
Disallow: ?s= #block access to internal search result pages
Disallow: ?p= #block access to pages for which permalinks fails
Disallow: &p= #block access to pages for which permalinks fails
Disallow: &preview= #block preview
Disallow: /tag/ #block tags
Disallow: /author/ #blocking author pages
sitemap: https://www.YOURDOMAIN.co.il/sitemap_index.xml
לאתרי חנות, הקובץ צריך לחסום עוד מרכיבים כמו:
- עגלת קניות
- Checkout
- התחברות ועמודי פרופיל
- ועוד
חשוב לזכור שRobots.txt אינו מבטיח אבטחה מלאה ושימוש לא נכון עלול לפגוע בדירוג האתר כמו כן אין להסתמך עליו להסרת תוכן מאינדקס גוגל אלא להשתמש ב-noindex meta tag לשם כך.
ליישום נכון יש ליצור את הקובץ בעורך טקסט פשוט לשמור אותו כ-"robots.txt" בתיקיית השורש של האתר לוודא שהוא נגיש בכתובת www.yourdomain.com/robots.txt ולבדוק את תקינותו באמצעות כלים מתאימים.
רשימת הזחלנים לשנת 2024
מנוע החיפוש | תחום | שם הזחלן |
כללי | Googlebot | |
תמונות | Googlebot-Image | |
מובייל | Googlebot-Mobile | |
חדשות | Googlebot-News | |
סרטונים | Googlebot-Video | |
AdSense | Mediapartners-Google | |
AdWords | AdsBot-Google | |
Bing | כללי | bingbot |
Bing | כללי | msnbot |
Bing | סרטונים ותמונות | msnbot-media |
Bing | פרסומות | adidxbot |
Yahoo! | כללי | Slurp |
Baidu | כללי | Baiduspider |
Baidu | תמונות | Baiduspider-image |
Baidu | מובייל | Baiduspider-mobile |
Baidu | חדשות | Baiduspider-news |
Baidu | סרטונים | Baiduspider-video |
Yandex | כללי | Yandex |
DuckDuckGo | כללי | DuckDuckBot |
Sogou | כללי | Sogou Spider |
Exalead | כללי | Exabot |
כללי | Facebot | |
כללי | Twitterbot | |
כללי | LinkedInBot | |
Apple | כללי | Applebot |
איך לייצר Robots.TXT עם RankMath
די פשוט להגדיר Robots.txt עם התוסף Rankmath.
שלב א׳: נכנסים ל-General Settings
שלב שני: עוברים לעריכת Robots.txt ומצד שמאל יש חלון שחור בו ניתן לערוך את הקובץ.
הערות
- חשוב לשמור אחרי ביצוע שינויים
- אם אתם ניתקלים בשגיאה, כנראה יש קובץ קיים בתיקיית השורש של האתר
- נדרשת הבנה מעמיקה בעריכת הקובץ
- עריכה לא נכונה יכולה לפגוע בקידום משמעותית