Crawling and Indexes الزحف والفهرسه

Home |Crawling and Indexes الزحف والفهرسه
Crawling

طرق الحصول على فهرسة

تستخدم محركات البحث الرائدة ، مثل Google و Bing و Yahoo ، برامج الزحف Crawling للعثور على صفحات لنتائج البحث الخوارزمية الخاصة بهم.

لا يلزم تقديم الصفحات المرتبطة من صفحات أخرى مفهرسة بمحرك البحث لأنه يتم العثور عليها تلقائيًا.

Yahoo! Directory and DMOZ ، هما دليلين رئيسيين تم إغلاقهما في 2014 و 2017 على التوالي ، وكلاهما يتطلب تقديمًا يدويًا ومراجعة تحريرية بشرية.

تقدم Google Search Console ، والتي من أجلها يمكن إنشاء موجز Sitemap بتنسيق XML وتقديمه مجانًا لضمان العثور على جميع الصفحات. خاصة الصفحات التي لا يمكن اكتشافها عن طريق اتباع الروابط تلقائيًا ، بالإضافة إلى وحدة التحكم في إرسال عناوين URL

كانت تدير Yahoo سابقًا خدمة إرسال مدفوعة تضمن الزحف مقابل تكلفة النقرة ؛ ومع ذلك ، تم إيقاف هذه الممارسة في عام 2009.

برامج الزحف Crawling

قد تنظر برامج زحف محركات البحث Crawling  في عدد من العوامل المختلفة عند الزحف إلى أحد المواقع. لا تتم فهرسة كل صفحة بواسطة محركات البحث. قد تكون مسافة الصفحات من الدليل الرئيسي للموقع عاملاً في تحديد ما إذا كان يتم الزحف إلى الصفحات أم لا.

اليوم ، يبحث معظم الأشخاص على Google باستخدام جهاز محمول.

  • في تشرين الثاني (نوفمبر) 2016 ، أعلنت Google عن تغيير كبير في طريقة الزحف إلى مواقع الويب وبدأت في جعل فهرسها للجوال أولاً . مما يعني أن إصدار الجوال من موقع ويب معين يصبح نقطة البداية لما يدرجه Google في فهرسهم.
  • مايو 2019 ، قامت Google بتحديث محرك العرض الخاص بالزاحف الخاص بها ليكون أحدث إصدار من ( Chromium 74 وقت الإعلان) . حيث أشارت Google إلى أنها ستقوم بتحديث محرك عرض Chromium بانتظام إلى أحدث إصدار.
  • في ديسمبر 2019 ، بدأت Google في تحديث سلسلة User-Agent الخاصة بالزاحف الخاص بها لتعكس أحدث إصدار من Chrome تستخدمه خدمة العرض الخاصة بهم.

كان التأخير هو السماح لمشرفي المواقع بالوقت لتحديث التعليمات البرمجية الخاصة بهم والتي استجابت لسلاسل وكيل مستخدم bot معينة. أجرت Google التقييمات وشعرت بالثقة في أن التأثير سيكون طفيفًا.

منع الزحف Crawling

المقال الرئيسي: معيار استبعاد الروبوتات

لتجنب المحتوى غير المرغوب فيه في فهارس البحث ، يمكن لمشرفي المواقع توجيه العناكب بعدم الزحف إلى ملفات أو أدلة معينة من خلال الملف القياسي robots.txt في الدليل الرئيسي للدومين.
عن طريق الخطوات الأتية:-

  •  يمكن استبعاد إحدى الصفحات صراحةً من قاعدة بيانات محرك البحث باستخدام علامة وصفية خاصة بالروبوتات . (عادة <meta name = “robots” content = “noindex”> ) ، بحيث عندما يزور محرك بحث أحد المواقع ، يكون ملف robots.txt الموجود في الدليل الرئيسي هو أول ملف يتم الزحف إليه.
  •  يتم بعد ذلك تحليل ملف robots.txt وسيوجه الروبوت إلى الصفحات التي لن يتم الزحف إليها. نظرًا لأن زاحف محرك البحث قد يحتفظ بنسخة مخبأة من هذا الملف.
  • قد يقوم في بعض الأحيان بالزحف إلى صفحات لا يرغب مشرف الموقع في الزحف إليها. تتضمن الصفحات التي يتم منع الزحف إليها عادةً صفحات معينة لتسجيل الدخول مثل: عربات التسوق والمحتوى الخاص بالمستخدم مثل نتائج البحث من عمليات البحث الداخلية.

في مارس 2007 ، حذرت Google مشرفي المواقع من أنه يجب عليهم منع فهرسة نتائج البحث الداخلية. لأن هذه الصفحات تعتبر بحثًا غير مرغوب فيه.

زيادة الظهور

يمكن لمجموعة متنوعة من الأساليب أن تزيد من ظهور صفحة الويب ضمن نتائج البحث ، مثل :-

  • يؤدي الارتباط المتقاطع بين صفحات نفس الموقع لتوفير المزيد من الروابط إلى الصفحات المهمة إلى تحسين ظهوره.
  • تميل كتابة المحتوى الذي يشتمل على عبارة كلمات رئيسية يتم البحث عنها بشكل متكرر . بحيث تكون ذات صلة بمجموعة متنوعة من استعلامات البحث ، إلى زيادة حركة المرور.
  • يمكن أن يؤدي تحديث المحتوى للحفاظ على عودة محركات البحث إلى الزحف بشكل متكرر إلى زيادة أهمية الموقع.
  • تؤدي إضافة كلمات رئيسية ذات صلة إلى البيانات الوصفية لصفحة الويب . بما في ذلك علامة العنوان ووصف التعريف إلى تحسين ملاءمة قوائم البحث الخاصة بالموقع ، وبالتالي زيادة حركة المرور.
  • يمكن أن يساعد تحديد عنوان URL الأساسي لصفحات الويب التي يمكن الوصول إليها عبر عناوين URL متعددة . باستخدام عنصر الارتباط الأساسي أو عبر عمليات إعادة التوجيه 301 ، في التأكد من احتساب الروابط المؤدية إلى إصدارات مختلفة من عنوان URL ضمن درجة شعبية رابط الصفحة.

 

Next Blog

Instagram          Twitter         Facebook        Linkedin

Leave A Comment

Crawling

طرق الحصول على فهرسة

تستخدم محركات البحث الرائدة ، مثل Google و Bing و Yahoo ، برامج الزحف Crawling للعثور على صفحات لنتائج البحث الخوارزمية الخاصة بهم.

لا يلزم تقديم الصفحات المرتبطة من صفحات أخرى مفهرسة بمحرك البحث لأنه يتم العثور عليها تلقائيًا.

Yahoo! Directory and DMOZ ، هما دليلين رئيسيين تم إغلاقهما في 2014 و 2017 على التوالي ، وكلاهما يتطلب تقديمًا يدويًا ومراجعة تحريرية بشرية.

تقدم Google Search Console ، والتي من أجلها يمكن إنشاء موجز Sitemap بتنسيق XML وتقديمه مجانًا لضمان العثور على جميع الصفحات. خاصة الصفحات التي لا يمكن اكتشافها عن طريق اتباع الروابط تلقائيًا ، بالإضافة إلى وحدة التحكم في إرسال عناوين URL

كانت تدير Yahoo سابقًا خدمة إرسال مدفوعة تضمن الزحف مقابل تكلفة النقرة ؛ ومع ذلك ، تم إيقاف هذه الممارسة في عام 2009.

برامج الزحف Crawling

قد تنظر برامج زحف محركات البحث Crawling  في عدد من العوامل المختلفة عند الزحف إلى أحد المواقع. لا تتم فهرسة كل صفحة بواسطة محركات البحث. قد تكون مسافة الصفحات من الدليل الرئيسي للموقع عاملاً في تحديد ما إذا كان يتم الزحف إلى الصفحات أم لا.

اليوم ، يبحث معظم الأشخاص على Google باستخدام جهاز محمول.

  • في تشرين الثاني (نوفمبر) 2016 ، أعلنت Google عن تغيير كبير في طريقة الزحف إلى مواقع الويب وبدأت في جعل فهرسها للجوال أولاً . مما يعني أن إصدار الجوال من موقع ويب معين يصبح نقطة البداية لما يدرجه Google في فهرسهم.
  • مايو 2019 ، قامت Google بتحديث محرك العرض الخاص بالزاحف الخاص بها ليكون أحدث إصدار من ( Chromium 74 وقت الإعلان) . حيث أشارت Google إلى أنها ستقوم بتحديث محرك عرض Chromium بانتظام إلى أحدث إصدار.
  • في ديسمبر 2019 ، بدأت Google في تحديث سلسلة User-Agent الخاصة بالزاحف الخاص بها لتعكس أحدث إصدار من Chrome تستخدمه خدمة العرض الخاصة بهم.

كان التأخير هو السماح لمشرفي المواقع بالوقت لتحديث التعليمات البرمجية الخاصة بهم والتي استجابت لسلاسل وكيل مستخدم bot معينة. أجرت Google التقييمات وشعرت بالثقة في أن التأثير سيكون طفيفًا.

منع الزحف Crawling

المقال الرئيسي: معيار استبعاد الروبوتات

لتجنب المحتوى غير المرغوب فيه في فهارس البحث ، يمكن لمشرفي المواقع توجيه العناكب بعدم الزحف إلى ملفات أو أدلة معينة من خلال الملف القياسي robots.txt في الدليل الرئيسي للدومين.
عن طريق الخطوات الأتية:-

  •  يمكن استبعاد إحدى الصفحات صراحةً من قاعدة بيانات محرك البحث باستخدام علامة وصفية خاصة بالروبوتات . (عادة <meta name = “robots” content = “noindex”> ) ، بحيث عندما يزور محرك بحث أحد المواقع ، يكون ملف robots.txt الموجود في الدليل الرئيسي هو أول ملف يتم الزحف إليه.
  •  يتم بعد ذلك تحليل ملف robots.txt وسيوجه الروبوت إلى الصفحات التي لن يتم الزحف إليها. نظرًا لأن زاحف محرك البحث قد يحتفظ بنسخة مخبأة من هذا الملف.
  • قد يقوم في بعض الأحيان بالزحف إلى صفحات لا يرغب مشرف الموقع في الزحف إليها. تتضمن الصفحات التي يتم منع الزحف إليها عادةً صفحات معينة لتسجيل الدخول مثل: عربات التسوق والمحتوى الخاص بالمستخدم مثل نتائج البحث من عمليات البحث الداخلية.

في مارس 2007 ، حذرت Google مشرفي المواقع من أنه يجب عليهم منع فهرسة نتائج البحث الداخلية. لأن هذه الصفحات تعتبر بحثًا غير مرغوب فيه.

زيادة الظهور

يمكن لمجموعة متنوعة من الأساليب أن تزيد من ظهور صفحة الويب ضمن نتائج البحث ، مثل :-

  • يؤدي الارتباط المتقاطع بين صفحات نفس الموقع لتوفير المزيد من الروابط إلى الصفحات المهمة إلى تحسين ظهوره.
  • تميل كتابة المحتوى الذي يشتمل على عبارة كلمات رئيسية يتم البحث عنها بشكل متكرر . بحيث تكون ذات صلة بمجموعة متنوعة من استعلامات البحث ، إلى زيادة حركة المرور.
  • يمكن أن يؤدي تحديث المحتوى للحفاظ على عودة محركات البحث إلى الزحف بشكل متكرر إلى زيادة أهمية الموقع.
  • تؤدي إضافة كلمات رئيسية ذات صلة إلى البيانات الوصفية لصفحة الويب . بما في ذلك علامة العنوان ووصف التعريف إلى تحسين ملاءمة قوائم البحث الخاصة بالموقع ، وبالتالي زيادة حركة المرور.
  • يمكن أن يساعد تحديد عنوان URL الأساسي لصفحات الويب التي يمكن الوصول إليها عبر عناوين URL متعددة . باستخدام عنصر الارتباط الأساسي أو عبر عمليات إعادة التوجيه 301 ، في التأكد من احتساب الروابط المؤدية إلى إصدارات مختلفة من عنوان URL ضمن درجة شعبية رابط الصفحة.

 

Next Blog

Instagram          Twitter         Facebook        Linkedin

Leave A Comment

Go to Top