Semalt نکاتی درباره نحوه برخورد با رباتها ، عنکبوتها و خزندگان ارائه می دهد

جدا از ایجاد URL های دوستانه برای موتورهای جستجو ، پرونده .htaccess به مدیران وب اجازه می دهد تا ربات های خاصی را برای دسترسی به وب سایت خود مسدود کنند. یکی از راه های مسدود کردن این روبات ها از طریق فایل robots.txt است. با این حال ، راس باربر ، مدیر موفقیت مشتری سامسونگ ، اظهار می دارد که وی مشاهده کرده است که برخی از خزندگان این درخواست را نادیده گرفته اند. یکی از بهترین راهها استفاده از پرونده .htaccess است تا آنها را از فهرست بندی مطالب خود متوقف کنید.

این رباتها چیست؟

آنها نوعی نرم افزاری هستند که توسط موتورهای جستجو برای حذف محتوای جدید از اینترنت برای اهداف فهرست بندی استفاده می شوند.

آنها کارهای زیر را انجام می دهند:

  • از صفحات وب که به آنها پیوند داده اید بازدید کنید
  • کد HTML خود را برای خطاها بررسی کنید
  • آنها صفحات وب را که به آنها پیوند می دهید ذخیره می کنند و می بینند که صفحات وب به محتوای شما پیوند دارند
  • آنها محتوای شما را فهرست می کنند

با این حال ، برخی از ربات ها بدخواه هستند و سایت شما را برای آدرس های ایمیل و فرم هایی جستجو می کنند که معمولاً برای ارسال پیام های ناخواسته یا اسپم مورد استفاده قرار می گیرند. برخی دیگر حتی به دنبال ایجاد نقاط ضعف امنیتی در کد شما هستند.

برای مسدود کردن خزنده وب چه چیزی لازم است؟

قبل از استفاده از پرونده .htaccess ، باید موارد زیر را بررسی کنید:

1. سایت شما باید روی سرور Apache نصب شود. امروزه حتی آن شرکت های میزبان وب نیمی از شغل خود نیز مناسب هستند و به پرونده مورد نیاز دسترسی می دهند.

2. شما باید به پرونده های سرور خام وب سایت خود دسترسی داشته باشید تا بتوانید آنچه را که در صفحات وب خود بازدید کرده اید ، پیدا کنید.

توجه داشته باشید هیچ راهی وجود ندارد که بتوانید همه رباتهای مضر را مسدود کنید ، مگر اینکه همه آنها را مسدود کنید ، حتی مواردی که فکر می کنید مفید باشد. ربات های جدید هر روز ظاهر می شوند ، و موارد قدیمی تر اصلاح می شوند. کارآمدترین روش ، ایمن کردن کد شما و سخت کردن هرزنامه در ربات ها است.

شناسایی رباتها

رباتها را می توان با آدرس IP یا از طریق "کاربر عامل عامل" ، که آنها را در هدرهای HTTP ارسال می کنند ، شناسایی کرد. به عنوان مثال ، Google از "Googlebot" استفاده می کند.

اگر در حال حاضر اسم ربات را دارید که می خواهید با استفاده از .htaccess از آن دور شوید ، ممکن است به این لیست نیاز داشته باشید.

روش دیگر این است که تمام فایلهای log را از سرور بارگیری کرده و آنها را با استفاده از ویرایشگر متن باز کنید. ممکن است مکان آنها روی سرور بسته به پیکربندی سرور شما تغییر کند. اگر نمی توانید آنها را پیدا کنید ، از میزبان وب خود کمک بگیرید.

اگر می دانید از کدام صفحه بازدید شده است یا زمان بازدید ، راحت تر می توانید با یک ربات ناخواسته همراه شوید. می توانید فایل log را با این پارامترها جستجو کنید.

یک بار ، شما توجه کرده اید که چه مواردی را برای مسدود کردن نیاز دارید؛ سپس می توانید آنها را در پرونده .htaccess بگنجانید. لطفا توجه داشته باشید که مسدود کردن ربات برای متوقف کردن آن کافی نیست. ممکن است با یک IP یا نام جدید برگردد.

چگونه آنها را مسدود کنیم

نسخه ای از پرونده .htaccess را بارگیری کنید. در صورت لزوم از نسخه پشتیبان تهیه کنید.

روش 1: مسدود کردن توسط IP

این قطعه کد با استفاده از آدرس IP 197.0.0.1 ربات را مسدود می کند

سفارش را رد کنید ، اجازه دهید

از 197.0.0.1 انکار کنید

خط اول بدان معنی است که سرور تمام درخواست های مطابق با الگوی شما را مشخص کرده و سایر موارد را مجاز می سازد.

خط دوم به سرور می گوید صفحه 403: ممنوع را صادر کند

روش 2: مسدود کردن توسط عوامل کاربر

ساده ترین راه استفاده از موتور بازنویسی آپاچی است

بازنویسی Engine On

بازنویسی٪٪ {HTTP_USER_AGENT} BotUserAgent

بازنویسی Rule. - [F ، L]

خط اول تضمین می کند که ماژول بازنویسی فعال شده است. خط دوم شرطی است که قاعده در مورد آن اعمال می شود. "F" در خط 4 به سرور می گوید 403: Forbidden را بازگرداند در حالی که "L" به معنای آخرین قانون است.

سپس پرونده .htaccess را روی سرور خود بارگذاری کرده و پرونده موجود را رونویسی می کنید. با گذشت زمان ، شما نیاز به به روزرسانی IP ربات دارید. در صورت بروز خطا ، فقط نسخه پشتیبان تهیه شده خود را بارگذاری کنید.

mass gmail