فایل Robots.txt چیست؟

این عالی هست که موتورهای جستجو به طور مکرر برای index کردن محتویات سایت شما، از آن بازدید می کنند، اما خیلی اوقات مطالب index شده چیزی نیست که شما خواسته باشید.

بعنوان مثال، اگر شما دو نسخه از یک صفحه داشته باشید (یک نسخه برای نمایش در مرورگر و یک نسخه برای پرینت) شما ترجیح می دهید که نسخه پرینت شما در موتور جستجو index نشده و از دید Crawler نیز مخفی بماند، در غیر اینصورت شما بابت ایجاد محتوای تکراری جریمه خواهید شد.

گذشته از این، اگر شما اطلاعات حساسی را داشته باشید که نخواهید افراد دیگر آنرا ببینند، شما ترجیح خواهید داد که صفحه یا صفحات مورد نظرتان در موتور جستجو index نشوند (اگرچه در این مورد تنها راه مطمئن برای فهرست نشدن اطلاعات حساس نگهداری اطلاعات به صورت offline است). بعلاوه، اگر شما بخواهید که پهنای باند بیشتری را از طریق مستثنی کردن عکس ها، فایل های CSS و JavaScript در عملیات index حفظ کنید، به راهی نیاز خواهید داشت تا به موتور جستجو بگوئید که از آنها دوری نماید.

یک راه برای اعلام به موتورهای جستجو که چه فایل ها و فولدرهایی نیاز به index شدن ندارند استفاده از متاتگ robots است. اما از آنجائیکه همه موتورهای جستجو متاتگ ها را نمی خوانند، متاتگ robots ممکن است که توسط موتور جستجو خوانده نشود. بنابراین، راه بهتر برای اطلاع رسانی به موتورهای جستجو استفاده از فایل robots.txt است.

Robots.txt چیست؟

Robots.txt یک فایل متنی با پسوند .txt است که شما آنرا در داخل root اصلی سایت خود قرار می دهید تا به موتور جستجو بگوئید که چه صفحاتی را بازدید کند و چه صفحاتی را بازدید نکند. Robots.txt هیچ اجباری را برای موتور جستجو ایجاد نمی کنید، اما به طور معمول موتور جستجو از اطلاعات این فایل پیروی می کند.

توضیح این مطلب بسیار مهم است که Robots.txt یک راه جلوگیری از ورود Crawler موتورهای جستجو به سایت شما نیست. یعنی Robots.txt یک Firewall یا یک کلمه عبور حفاظتی نیست. در حقیقت شما Robots.txt را قرار می دهید که به موتور جستجو بگوئید به کدام قسمت از سایت برود و به کدام قسمت از سایت نرود، اما این مسئله در مورد هکرها صدق نمی کند. به همین دلیل است که ما می گوئیم اگر شما اطلاعات حساسی را دارید به دستوراتی که در فایل Robots.txt وارد کرده اید، اعتماد نکنید.

محل قرارگیری فایل Robots.txt بسیار مهم است. این فایل حتما باید در root یا پوشه اصلی قرار بگیرد، وگرنه برای موتور جستجو قابل قبول نیست. بعلاوه موتور جستجو تمام سایت را برای فایلی با نام Robots.txt جستجو نخواهد کرد. در عوض، موتورهای جستجو اول پوشه اصلی (root) را جستجو می کنند (به عنوان مثال http://www.yourdomain.com/robots.txt) و اگر در آنجا چیزی پیدا نکنند وانمود خواهند کرد که این سایت فایل Robots.txt ندارد و سپس آنها هرچیزی را که مشاهده می کنند index می کنند. بنابراین، اگر شما فایل Robots.txt را در جای صحیح آن قرار ندهید، تعجب نکنید اگر موتورهای جستجو تمام سایت شما را index کنند.

تعداد 3 نظر برای این مطلب ثبت شده است.
حمید جزایری
حمید جزایری
2012-12-14

مطلب جالب و مفیدی بود. اما یک سوال در ذهن من پیش آمد و آن این است که اگر فایل را به گونه نا صحیح در هاست آپلود کنیم بازهم موتور جستجو نمیتواند آنرا بخواند.

مهدی فرقانی
مهدی فرقانی
2012-12-15

بله دوست عزیز، همانطور که بیان شد عدم استفاده از فایل و آدرس صحیح در روند کار موتور جستجو اختلال ایجاد می کند.

میثم سلیمی
میثم سلیمی
2012-12-15

لطفا در مورد این مبحث مطالب بیشتری را ارائه دهید.


لطفا دیدگاه خود را درباره این مطلب بیان بفرمائید:
نام و نام خانوادگی
نام و نام خانوادگی وارد نشده است.
پست الکترونیکی
آدرس ایمیل وارد نشده است. (yourname@example.com) آدرس ایمیل وارد شده معتبر نمی باشد. (yourname@example.com)
دیدگاه
 دیدگاهتان وارد نشده است.