किसी साइट को robots.txt में इंडेक्स करने से कैसे रोकें: निर्देश और सिफारिशें

विषयसूची:

2024 लेखक: Trinity Chesterton | [email protected]. अंतिम बार संशोधित: 2023-12-16 08:17

एक SEO-optimizer का काम बहुत बड़े पैमाने का होता है। शुरुआती लोगों को सलाह दी जाती है कि वे ऑप्टिमाइज़ेशन एल्गोरिथम को लिख लें ताकि कोई भी कदम छूट न जाए। अन्यथा, प्रचार को शायद ही सफल कहा जाएगा, क्योंकि साइट लगातार विफलताओं और त्रुटियों का अनुभव करेगी जिन्हें लंबे समय तक ठीक करना होगा।

ऑप्टिमाइज़ेशन चरणों में से एक robots.txt फ़ाइल के साथ काम कर रहा है। प्रत्येक संसाधन में यह दस्तावेज़ होना चाहिए, क्योंकि इसके बिना अनुकूलन का सामना करना अधिक कठिन होगा। यह कई कार्य करता है जिसे आपको समझना होगा।

रोबोट सहायक

robots.txt फ़ाइल एक सादा पाठ दस्तावेज़ है जिसे सिस्टम के मानक नोटपैड में देखा जा सकता है। इसे बनाते समय, आपको एन्कोडिंग को UTF-8 पर सेट करना होगा ताकि इसे सही ढंग से पढ़ा जा सके। फ़ाइल http, https और FTP प्रोटोकॉल के साथ काम करती है।

यह दस्तावेज़ रोबोट खोजने के लिए एक सहायक है। यदि आप नहीं जानते हैं, तो प्रत्येक सिस्टम "स्पाइडर" का उपयोग करता है जो क्वेरी के लिए प्रासंगिक साइटों को वापस करने के लिए वर्ल्ड वाइड वेब को जल्दी से क्रॉल करता है।उपयोगकर्ता। इन रोबोटों के पास संसाधन डेटा तक पहुंच होनी चाहिए, इसके लिए robots.txt काम करता है।

मकड़ियों को अपना रास्ता खोजने के लिए, आपको robots.txt दस्तावेज़ को रूट निर्देशिका में भेजने की आवश्यकता है। यह जांचने के लिए कि साइट में यह फ़ाइल है या नहीं, ब्राउज़र के एड्रेस बार में "https://site.com.ua/robots.txt" दर्ज करें। "site.com.ua" के बजाय आपको आवश्यक संसाधन दर्ज करना होगा।

दस्तावेज़ कार्य

robots.txt फ़ाइल क्रॉलर को कई तरह की जानकारी देती है. यह आंशिक पहुंच दे सकता है ताकि "मकड़ी" संसाधन के विशिष्ट तत्वों को स्कैन कर सके। पूर्ण पहुंच आपको सभी उपलब्ध पृष्ठों की जांच करने की अनुमति देती है। एक पूर्ण प्रतिबंध रोबोट को जांचना शुरू करने से रोकता है, और वे साइट छोड़ देते हैं।

संसाधन पर जाने के बाद, "मकड़ियों" को अनुरोध पर उचित प्रतिक्रिया मिलती है। उनमें से कई हो सकते हैं, यह सब robots.txt में दी गई जानकारी पर निर्भर करता है। उदाहरण के लिए, यदि स्कैन सफल रहा, तो रोबोट को 2xx कोड प्राप्त होगा।

शायद साइट को एक पेज से दूसरे पेज पर रीडायरेक्ट किया गया है। इस मामले में, रोबोट को कोड 3xx प्राप्त होता है। यदि यह कोड कई बार आता है, तो मकड़ी इसका अनुसरण तब तक करेगी जब तक कि उसे कोई अन्य प्रतिक्रिया प्राप्त न हो जाए। हालांकि, एक नियम के रूप में, वह केवल 5 प्रयासों का उपयोग करता है। अन्यथा, लोकप्रिय 404 त्रुटि प्रकट होती है।

यदि उत्तर 4xx है, तो रोबोट को साइट की संपूर्ण सामग्री को क्रॉल करने की अनुमति है। लेकिन 5xx कोड के मामले में, चेक पूरी तरह से बंद हो सकता है, क्योंकि यह अक्सर अस्थायी सर्वर त्रुटियों को इंगित करता है।

किस लिएrobots.txt चाहिए?

जैसा कि आपने अनुमान लगाया होगा, यह फ़ाइल साइट के मूल के लिए रोबोट की मार्गदर्शिका है। अब इसका उपयोग अनुपयुक्त सामग्री तक पहुंच को आंशिक रूप से प्रतिबंधित करने के लिए किया जाता है:

उपयोगकर्ताओं की व्यक्तिगत जानकारी वाले पृष्ठ;
दर्पण साइटें;
खोज परिणाम;
डेटा सबमिशन फॉर्म, आदि

यदि साइट रूट में कोई robots.txt फ़ाइल नहीं है, तो रोबोट पूरी तरह से सभी सामग्री को क्रॉल करेगा। तदनुसार, खोज परिणामों में अवांछित डेटा दिखाई दे सकता है, जिसका अर्थ है कि आप और साइट दोनों को नुकसान होगा। यदि robots.txt दस्तावेज़ में विशेष निर्देश हैं, तो "मकड़ी" उनका अनुसरण करेगी और संसाधन के मालिक द्वारा वांछित जानकारी देगी।

फ़ाइल के साथ काम करना

साइट को अनुक्रमण से अवरुद्ध करने के लिए robots.txt का उपयोग करने के लिए, आपको यह पता लगाना होगा कि यह फ़ाइल कैसे बनाई जाए। ऐसा करने के लिए, निर्देशों का पालन करें:

नोटपैड या नोटपैड++ में एक दस्तावेज़ बनाएं।
फ़ाइल एक्सटेंशन ".txt" सेट करें।
आवश्यक डेटा और कमांड दर्ज करें।
दस्तावेज़ को सहेजें और इसे साइट रूट पर अपलोड करें।

जैसा कि आप देख सकते हैं, एक चरण में रोबोट के लिए कमांड सेट करना आवश्यक है। वे दो प्रकार के होते हैं: अनुमति देना (अनुमति देना) और निषेध करना (अस्वीकार करना)। साथ ही, कुछ अनुकूलक क्रॉल गति, होस्ट और संसाधन के पृष्ठ मानचित्र के लिंक को निर्दिष्ट कर सकते हैं।

robots.txt के साथ काम करना शुरू करने और साइट को इंडेक्सिंग से पूरी तरह से ब्लॉक करने के लिए, आपको इस्तेमाल किए गए प्रतीकों को भी समझना होगा। उदाहरण के लिए, एक दस्तावेज़ में"/" का उपयोग करें, जो इंगित करता है कि पूरी साइट चयनित है। यदि "" का उपयोग किया जाता है, तो वर्णों के अनुक्रम की आवश्यकता होती है। इस तरह, एक विशिष्ट फ़ोल्डर निर्दिष्ट करना संभव होगा जिसे स्कैन किया जा सकता है या नहीं।

बॉट्स की सुविधा

सर्च इंजन के लिए "स्पाइडर" अलग हैं, इसलिए यदि आप एक साथ कई सर्च इंजन के लिए काम करते हैं, तो आपको इस पल को ध्यान में रखना होगा। उनके नाम अलग हैं, जिसका अर्थ है कि यदि आप किसी विशिष्ट रोबोट से संपर्क करना चाहते हैं, तो आपको उसका नाम निर्दिष्ट करना होगा: "उपयोगकर्ता एजेंट: यांडेक्स" (उद्धरण के बिना)।

यदि आप सभी खोज इंजनों के लिए निर्देश सेट करना चाहते हैं, तो आपको कमांड का उपयोग करने की आवश्यकता है: "उपयोगकर्ता एजेंट: " (बिना उद्धरण के)। robots.txt का उपयोग करके साइट को अनुक्रमण से ठीक से अवरुद्ध करने के लिए, आपको लोकप्रिय खोज इंजनों की बारीकियों को जानना होगा।

तथ्य यह है कि सबसे लोकप्रिय सर्च इंजन यांडेक्स और गूगल में कई बॉट हैं। उनमें से प्रत्येक के अपने कार्य हैं। उदाहरण के लिए, यांडेक्स बॉट और Googlebot मुख्य "मकड़ियों" हैं जो साइट को क्रॉल करते हैं। सभी बॉट्स को जानने से, आपके संसाधन के अनुक्रमण को ठीक करना आसान हो जाएगा।

उदाहरण

तो, robots.txt की मदद से, आप सरल कमांड के साथ साइट को इंडेक्सिंग से बंद कर सकते हैं, मुख्य बात यह समझना है कि आपको विशेष रूप से क्या चाहिए। उदाहरण के लिए, यदि आप चाहते हैं कि Googlebot आपके संसाधन तक न पहुंचे, तो आपको इसे उपयुक्त आदेश देना होगा। यह ऐसा दिखेगा: "उपयोगकर्ता-एजेंट: Googlebot अस्वीकृत: /" (उद्धरण के बिना)।

अब हमें यह समझने की जरूरत है कि इस कमांड में क्या है और यह कैसे काम करता है। तो "उपयोगकर्ता-एजेंट"बॉट में से किसी एक को सीधे कॉल का उपयोग करने के लिए उपयोग किया जाता है। अगला, हम इंगित करते हैं कि कौन सा है, हमारे मामले में यह Google है। "अस्वीकार करें" कमांड को एक नई लाइन पर शुरू होना चाहिए और रोबोट को साइट में प्रवेश करने से रोकना चाहिए। इस मामले में स्लैश प्रतीक इंगित करता है कि संसाधन के सभी पृष्ठ कमांड निष्पादन के लिए चुने गए हैं।

robots.txt में, आप एक साधारण कमांड के साथ सभी खोज इंजनों के लिए अनुक्रमण को अक्षम कर सकते हैं: "उपयोगकर्ता-एजेंट:अस्वीकार करें: /" (उद्धरण के बिना)। इस मामले में तारांकन चिह्न सभी खोज रोबोटों को दर्शाता है। आमतौर पर, साइट के अनुक्रमण को रोकने और उस पर मुख्य कार्य शुरू करने के लिए इस तरह के आदेश की आवश्यकता होती है, जो अन्यथा अनुकूलन को प्रभावित कर सकता है।

यदि संसाधन बड़ा है और इसमें कई पृष्ठ हैं, तो इसमें अक्सर स्वामित्व वाली जानकारी होती है जो या तो खुलासा करने के लिए अवांछनीय है, या यह प्रचार को नकारात्मक रूप से प्रभावित कर सकती है। इस मामले में, आपको यह समझने की आवश्यकता है कि robots.txt में अनुक्रमण से पृष्ठ को कैसे बंद किया जाए।

आप किसी फ़ोल्डर या फ़ाइल को छुपा सकते हैं। पहले मामले में, आपको एक विशिष्ट बॉट या सभी से संपर्क करके फिर से शुरू करने की आवश्यकता है, इसलिए हम "उपयोगकर्ता-एजेंट" कमांड का उपयोग करते हैं, और नीचे हम एक विशिष्ट फ़ोल्डर के लिए "अस्वीकार करें" कमांड निर्दिष्ट करते हैं। यह इस तरह दिखेगा: "अस्वीकार करें: / फ़ोल्डर /" (उद्धरण के बिना)। इस तरह आप पूरे फोल्डर को छुपा देते हैं। यदि इसमें कुछ महत्वपूर्ण फ़ाइल है जिसे आप दिखाना चाहते हैं, तो आपको नीचे कमांड लिखना होगा: "अनुमति दें: /folder/file.php" (उद्धरण के बिना)।

फ़ाइल जांचें

यदि साइट को बंद करने के लिए robots.txt का उपयोग कर रहे हैंआप अनुक्रमण में सफल हुए, लेकिन आप नहीं जानते कि आपके सभी निर्देश सही ढंग से काम करते हैं, आप कार्य की शुद्धता की जांच कर सकते हैं।

सबसे पहले, आपको दस्तावेज़ के प्लेसमेंट को फिर से जांचना होगा। याद रखें कि यह विशेष रूप से रूट फ़ोल्डर में होना चाहिए। यदि यह रूट फ़ोल्डर में है, तो यह काम नहीं करेगा। इसके बाद, ब्राउज़र खोलें और वहां निम्न पता दर्ज करें: “https://yoursite. com/robots.txt (बिना उद्धरण के)। यदि आपको अपने वेब ब्राउज़र में कोई त्रुटि मिलती है, तो फ़ाइल वह नहीं है जहाँ उसे होनी चाहिए।

निर्देशों की जांच उन विशेष टूल में की जा सकती है जिनका उपयोग लगभग सभी वेबमास्टर करते हैं। हम बात कर रहे हैं Google और Yandex उत्पादों की। उदाहरण के लिए, Google खोज कंसोल में एक टूलबार है जहां आपको "क्रॉल" खोलने की आवश्यकता है, और फिर "Robots.txt फ़ाइल निरीक्षण उपकरण" चलाएं। आपको दस्तावेज़ से सभी डेटा को विंडो में कॉपी करने और स्कैनिंग शुरू करने की आवश्यकता है। ठीक यही जांच यांडेक्स.वेबमास्टर में भी की जा सकती है।

सिफारिश की:

साइट को सर्च इंजन में इंडेक्स करना। साइट को "यांडेक्स" और "गूगल" में कैसे अनुक्रमित किया जाता है

क्या आप चाहते हैं कि आपकी साइट खोज इंजन परिणाम क्वेरी में दिखाई दे? फिर इसे सर्च इंजन Rambler, Yandex, Google, Yahoo, इत्यादि द्वारा प्रोसेस किया जाना चाहिए। आपको अपनी वेबसाइट के अस्तित्व के बारे में खोज इंजनों (मकड़ियों, प्रणालियों) को सूचित करना होगा, और फिर वे इसे संपूर्ण या आंशिक रूप से क्रॉल करेंगे

साइट को इंडेक्स करने के बारे में थोड़ा सा

कई लोगों को यह नहीं पता होता है कि साइट बनने के बाद उसे सर्च इंजन में कैसे इंडेक्स किया जाए, लेकिन वास्तव में इंडेक्सिंग के कई तरीके हैं।

"यांडेक्स" में किसी साइट को इंडेक्स करना: किसी साइट को सर्च इंजन के लिए "स्वादिष्ट" कैसे बनाया जाए?

यांडेक्स रोबोट का ध्यान कैसे आकर्षित करें, कितना इंतजार करना है और किन उपकरणों का उपयोग करना है? आपके प्रोजेक्ट को सफलतापूर्वक शुरू होने से कौन रोक रहा है? 10 मिनट में अनुक्रमण के बारे में सब कुछ जानें। एक बोनस के रूप में - उन लोगों के लिए एक सार्वभौमिक चेकलिस्ट जिन्हें अनुक्रमण को 2-3 गुना तेज करने की आवश्यकता है

व्हाट्सएप पर किसी कॉन्टैक्ट को कैसे ब्लॉक करें? किसी संपर्क को ब्लॉक और अनब्लॉक करने के लिए विस्तृत निर्देश

वास्तविक रुझानों में से एक को व्हाट्सएप एप्लिकेशन माना जा सकता है। यह इंस्टालेशन है जो आपको उसी एप्लिकेशन के साथ फोन पर दुनिया में कहीं भी मुफ्त में कॉल करने की अनुमति देता है। आज, यह एप्लिकेशन हर जगह और हर जगह, ग्रह के हर कोने में स्थापित है। लेकिन इस एप्लिकेशन के बारे में क्या खास है? क्या इसमें व्हाट्सएप पर किसी संपर्क को ब्लॉक करने का विकल्प है? यह कैसे करना है?