2013-02-25 مهدی فرقانی نیا 3 نظر تبلیغات گوگل، طراحی سایت
این عالی هست که موتورهای جستجو به طور مکرر برای index کردن محتویات سایت شما، از آن بازدید می کنند، اما خیلی اوقات مطالب index شده چیزی نیست که شما خواسته باشید.
بعنوان مثال، اگر شما دو نسخه از یک صفحه داشته باشید (یک نسخه برای نمایش در مرورگر و یک نسخه برای پرینت) شما ترجیح می دهید که نسخه پرینت شما در موتور جستجو index نشده و از دید Crawler نیز مخفی بماند، در غیر اینصورت شما بابت ایجاد محتوای تکراری جریمه خواهید شد.
گذشته از این، اگر شما اطلاعات حساسی را داشته باشید که نخواهید افراد دیگر آنرا ببینند، شما ترجیح خواهید داد که صفحه یا صفحات مورد نظرتان در موتور جستجو index نشوند (اگرچه در این مورد تنها راه مطمئن برای فهرست نشدن اطلاعات حساس نگهداری اطلاعات به صورت offline است). بعلاوه، اگر شما بخواهید که پهنای باند بیشتری را از طریق مستثنی کردن عکس ها، فایل های CSS و JavaScript در عملیات index حفظ کنید، به راهی نیاز خواهید داشت تا به موتور جستجو بگوئید که از آنها دوری نماید.
یک راه برای اعلام به موتورهای جستجو که چه فایل ها و فولدرهایی نیاز به index شدن ندارند استفاده از متاتگ robots است. اما از آنجائیکه همه موتورهای جستجو متاتگ ها را نمی خوانند، متاتگ robots ممکن است که توسط موتور جستجو خوانده نشود. بنابراین، راه بهتر برای اطلاع رسانی به موتورهای جستجو استفاده از فایل robots.txt است.
Robots.txt یک فایل متنی با پسوند .txt است که شما آنرا در داخل root اصلی سایت خود قرار می دهید تا به موتور جستجو بگوئید که چه صفحاتی را بازدید کند و چه صفحاتی را بازدید نکند. Robots.txt هیچ اجباری را برای موتور جستجو ایجاد نمی کنید، اما به طور معمول موتور جستجو از اطلاعات این فایل پیروی می کند.
توضیح این مطلب بسیار مهم است که Robots.txt یک راه جلوگیری از ورود Crawler موتورهای جستجو به سایت شما نیست. یعنی Robots.txt یک Firewall یا یک کلمه عبور حفاظتی نیست. در حقیقت شما Robots.txt را قرار می دهید که به موتور جستجو بگوئید به کدام قسمت از سایت برود و به کدام قسمت از سایت نرود، اما این مسئله در مورد هکرها صدق نمی کند. به همین دلیل است که ما می گوئیم اگر شما اطلاعات حساسی را دارید به دستوراتی که در فایل Robots.txt وارد کرده اید، اعتماد نکنید.
محل قرارگیری فایل Robots.txt بسیار مهم است. این فایل حتما باید در root یا پوشه اصلی قرار بگیرد، وگرنه برای موتور جستجو قابل قبول نیست. بعلاوه موتور جستجو تمام سایت را برای فایلی با نام Robots.txt جستجو نخواهد کرد. در عوض، موتورهای جستجو اول پوشه اصلی (root) را جستجو می کنند (به عنوان مثال http://www.yourdomain.com/robots.txt) و اگر در آنجا چیزی پیدا نکنند وانمود خواهند کرد که این سایت فایل Robots.txt ندارد و سپس آنها هرچیزی را که مشاهده می کنند index می کنند. بنابراین، اگر شما فایل Robots.txt را در جای صحیح آن قرار ندهید، تعجب نکنید اگر موتورهای جستجو تمام سایت شما را index کنند.
مطلب جالب و مفیدی بود. اما یک سوال در ذهن من پیش آمد و آن این است که اگر فایل را به گونه نا صحیح در هاست آپلود کنیم بازهم موتور جستجو نمیتواند آنرا بخواند.
بله دوست عزیز، همانطور که بیان شد عدم استفاده از فایل و آدرس صحیح در روند کار موتور جستجو اختلال ایجاد می کند.
لطفا در مورد این مبحث مطالب بیشتری را ارائه دهید.