מה זה קובץ Robots.txt ואיך להשתמש בו נכון

Robots.txt הוא קובץ טקסט הממוקם בתיקיית השורש של אתר אינטרנט, המשמש כפרוטוקול תקשורת בין בעלי אתרים לבין זחלני מנועי החיפוש (web crawlers). הקובץ  מכיל הוראות והנחיות המגדירות אילו חלקים מהאתר מותרים או אסורים לסריקה ואינדוקס על ידי רובוטים של מנועי חיפוש. 

על ידי הגדרה Robots.txt, אפשר לשלוט בגישה של זחלנים לחלקים שונים באתר, לנהל את תקציב הסריקה ביעילות, ולהבטיח שרק התוכן הרצוי יופיע בתוצאות החיפוש. Robots.txt הוא מרכיב חשוב באופטימיזציית SEO (קידום אתרים) ובניהול נכון של נראות האתר.

מה זה Robots.txt?

קובץ Robots.txt הוא המפתח לניהול יעיל של תקציב סריקה של אתרים ומהווה כלי חיוני בארסנל של כל מקדם אתרים מקצועי. הקובץ משמש כמעין "שומר סף" ומנחה את זחלני מנועי החיפוש כיצד לסרוק את האתר. הבנה מעמיקה של Robots.txt יכולה לשפר משמעותית את ביצועי ה-SEO של האתר.

חשיבות ויתרונות הקובץ כוללים שליטה בתקציב הזחילה ומאפשרים ניצול יעיל של משאבי הסריקה של מנועי החיפוש הוא מסייע בהגנה על תוכן רגיש ומונע אינדוקס של דפים פרטיים או לא רלוונטיים כמו כן הוא עוזר במניעת כפילויות ומונע סריקה של גרסאות כפולות של דפים בנוסף הוא משפר ביצועים ומפחית עומס על השרת על ידי הגבלת סריקות מיותרות

איך ניראה Robots.txt?

מבנה הקובץ מורכב מבלוקים המגדירים הוראות לזחלנים שונים התחביר כולל User-agent לציון שם הזחלן Disallow לציון תיקייה או דף לחסימה ו-Allow לציון תיקייה או דף להתרה לדוגמה ניתן להגדיר

 User-agent: * 

Disallow: /private/

 Allow: /public/

הנה ה-Robots.txt שלי, שנגיש לכולם בכתובת: https://www.tropicdigital.co.il/robots.txt

אגב, כל אתר בעל קובץ robots.txt נגיש באותה הכתובת רק בשם האתר.

איך להגדיר נכון את קובץ Robots.txt 

אפשר להעתיק מהתמונה את ההגדרה, ולשנות את המאפיינים לאתר שלכם. או להשתמש בקוד הזה:

user-agent: *

Allow: /

Disallow: /wp-admin

Disallow: /wp-content/plugins/ #block access to plugins

Disallow: /wp-login.php #block access to management

Disallow: /feed #block feeds

Disallow: /search/ #block internal search results

Disallow: ?s= #block access to internal search result pages

Disallow: ?p= #block access to pages for which permalinks fails

Disallow: &p= #block access to pages for which permalinks fails

Disallow: &preview= #block preview

Disallow: /tag/ #block tags

Disallow: /author/ #blocking author pages

sitemap: https://www.YOURDOMAIN.co.il/sitemap_index.xml

לאתרי חנות, הקובץ צריך לחסום עוד מרכיבים כמו:

  • עגלת קניות
  • Checkout
  • התחברות ועמודי פרופיל
  • ועוד

חשוב לזכור שRobots.txt אינו מבטיח אבטחה מלאה ושימוש לא נכון עלול לפגוע בדירוג האתר כמו כן אין להסתמך עליו להסרת תוכן מאינדקס גוגל אלא להשתמש ב-noindex meta tag לשם כך.

ליישום נכון יש ליצור את הקובץ בעורך טקסט פשוט לשמור אותו כ-"robots.txt" בתיקיית השורש של האתר לוודא שהוא נגיש בכתובת www.yourdomain.com/robots.txt ולבדוק את תקינותו באמצעות כלים מתאימים.

רשימת הזחלנים לשנת 2024 

מנוע החיפושתחוםשם הזחלן
GoogleכלליGooglebot
GoogleתמונותGooglebot-Image
GoogleמוביילGooglebot-Mobile
GoogleחדשותGooglebot-News
GoogleסרטוניםGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Bingכלליbingbot
Bingכלליmsnbot
Bingסרטונים ותמונותmsnbot-media
Bingפרסומותadidxbot
Yahoo!כלליSlurp
BaiduכלליBaiduspider
BaiduתמונותBaiduspider-image
BaiduמוביילBaiduspider-mobile
BaiduחדשותBaiduspider-news
BaiduסרטוניםBaiduspider-video
YandexכלליYandex
DuckDuckGoכלליDuckDuckBot
SogouכלליSogou Spider
ExaleadכלליExabot
FacebookכלליFacebot
TwitterכלליTwitterbot
LinkedinכלליLinkedInBot
AppleכלליApplebot

איך לייצר Robots.TXT עם RankMath

די פשוט להגדיר Robots.txt עם התוסף Rankmath.

שלב א׳: נכנסים ל-General Settings

שלב שני: עוברים לעריכת Robots.txt ומצד שמאל יש חלון שחור בו ניתן לערוך את הקובץ.

הערות

  • חשוב לשמור אחרי ביצוע שינויים
  • אם אתם ניתקלים בשגיאה, כנראה יש קובץ קיים בתיקיית השורש של האתר
  • נדרשת הבנה מעמיקה בעריכת הקובץ
  • עריכה לא נכונה יכולה לפגוע בקידום משמעותית

לאן תירצו לחזור במאמר?

אהבתם? שתפו לחבר!
לבדיקת פוטנציאל ושיחת ייעוץ חינם, השאירו פרטים

מאמרים מומלצים