ملف robots.txt ما لك وما عليك

Spread the love
 ملف robots.txt ما لك وما عليك  أضيف في: 23-2-1431هـ
ملف robots.txt ما لك وما عليك إخفاء صفحاتك المهمة عن جوجل Google و محركات البحث الأخرى

مع تقدم خدمات الأرشفة index و البحث أصبح جوجل أكثر دقة و قدرة على أرشفة و فهرسة الصفحات و بالتالي أصبح قادرا على الوصول إلى معلومات مهمة قد لا ترده الوصول إليها مثل أرقام الهواتف و أرقام بطاقات الائتمان. و بالتالي تقدم للها كرز المعلومات على طبق من ذهب . و بهذه الطريقة هي لا تحتاج إلى مخترق خبير فمن الممكن أن يصل إليها حتى الشخص العادي المبتدأ بواسطة جوجل فقط .

بالرغم من أن معظم حالات سرقات بطاقات الائتمان تتم عن طريقة سرقة قواعد البيانات إلا أننا لا نستطيع إغفال خطورة الوضع .

هل يجب أن نلوم جوجل؟

وجل أو ما يسمى Google spider يقوم بعمله فقط . جوجل لا يفهرس الصفحات عنوه لكنه يفهرس صفحات الإنترنت ووضعك للمعلومات الحساسة و المهمة على شبكة الإنترنت بدون حماية خطأك وحدك .و حماية هذه المعلومات مسئوليتك .

استخدم ملفات robots.txt

هذه بالتأكيد أحد أهم الأدوات و هو ملف صغير نصي ترفعه إلى مستضيفك يحوي على الملفات و المجلدات التي يستطيع أو لا يستطيع إلى محرك بحث و ليس جوجل فقط فهرستها .في الخطوة التالية سنستعرض محتويات الملف .

حذف ملفاتك المهمة من جوجل

لو وقع الفأس في الرأس و فهرس جوجل صفحات مهمة و حساسة في موقعك يمكنك إزالتها عن طريق عدد من الخطوات مذكورة هنا http://www.google.com/webmasters/remove.html
سأحاول ترجمتها على عجالة ( أو استخلاص المفيد منها )

حذف موقعك بالكامل من جوجل أو محركات البحث الأخرى

لمنع كل محركات البحث من أرشفة موقعك ضع الكود التالي في ملف robots.txt
كود:

User-agent: *
Disallow: /

لمنع جوجل فقط من أرشفة صفحات موقعك .
كود:

User-agent: Googlebot
Disallow: /

كل بورت port يحتاج لملف robots.txt خاص له مثلا http تحتاج لملف و https يحتاج لملف و ftp يحتاج ملف و هكذا .

إزالة صفحة واحدة من جوجل .

هناك طريقتان :
أولا : ملف robots.txt

بعد جملة user-agent يمكنك ان تحدد محرك بحث بعينه مثلا googlebot أو يمكنك أن تضع * لمنع جميع محركات البحث .

الأمثلة التالية على تمنع جميع محركات البحث لكن يمكنك استبدال googlebot بـــ * لمنع جميع محركات البحث .
لمنع فهرسة مجلد
كود:

User-agent: Googlebot
Disallow: /lemurs

لمنع فهرسة نوع معين من الملفات مثلا الصور من نوع gif
كود:

User-agent: Googlebot
Disallow: /*.gif$

لمنع فهرسة الصفحات الديناميكية مثل index.php?task=anything
كود:

User-agent: Googlebot
Disallow: /*?

ثانيا : الميتاتاج met tag

لمنع فهرسة صفحة معينه نضع التالي في منطقة الرأس بين <head> و </head>
كود:

لمنع جوجل فقط من فهرسة هذه الصفحة نضع
كود:

للسماح بفهرسة الصفحة و لكن عدم فهرسة الصفحات المربوطة بها
كود:

حذف الوصف snippets

عند إظهار جوجل للنتائج فإنها تظهر وصف snippets تحت كل موقع لحذفه
كود:

حذف النسخ المخزنة cached pages

جوجل تحتفظ بنسخة من صفحات موقعك في قواعدها لمنع ذلك
كود:

[code]

[size=large]حذف صورة من محرك بحث جوجل للصور .[/size]

جميع الأمر تطبق عليها لكن اسم الروبوت هنا Googlebot-Image و ليس googlebot
لحذف صورة معينة أضف في ملف robots.txt
[code]
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

لمنعه من فهرسة جميع صور موقعك
كود:

User-agent: Googlebot-Image
Disallow: /

ما مدى درجة الأمان لهذه الملفات ؟

ملف robots.txt ليس وسيلة حماية يمكن الاعتماد عليها لحماية موقعك . في الحقيقة هي أقرب لوحة ممنوع الدخول على الباب و ليست قفلا عليها.لذلك عليك تأمين موقعك جيدا و حماية مجلداتك بكلمات مرور أو منع الدخول بواسطة ملفات htaccess .

ملاحظة أخيرة

هناك عدد من السبايدر spiders الخاصة بشركات تجمع البريد الإلكتروني من المواقع لترسل لك و لغيرك رسائل غير مرغوب بها spam يمكنك أيضا إيقافها مثل
EmailCollector و EmailSiphon و EmailWolf و ExtractorPro و Titan

الكاتب geek4arab

geek4arab

مواضيع متعلقة

التعليقات مغلقة