Robots.txt को सही तरीके से कैसे सेट करें?

2024 लेखक: Trinity Chesterton | [email protected]. अंतिम बार संशोधित: 2023-12-16 08:17

एचटीएमएल साइट के लिए सही रोबोट्स txt सर्च इंजन बॉट्स के लिए एक्शन मॉकअप बनाता है, उन्हें बताता है कि वे क्या जांच सकते हैं। इस फ़ाइल को अक्सर रोबोट अपवर्जन प्रोटोकॉल के रूप में संदर्भित किया जाता है। किसी वेबसाइट को क्रॉल करने से पहले बॉट्स सबसे पहले जिस चीज की तलाश करते हैं, वह है robots.txt। यह साइटमैप को इंगित या बता सकता है कि कुछ उप डोमेन की जाँच न करें। जब आप चाहते हैं कि सर्च इंजन वह खोजे जो सबसे अधिक बार पाया जाता है, तो robots.txt की आवश्यकता नहीं है। इस प्रक्रिया में यह बहुत महत्वपूर्ण है कि फ़ाइल सही ढंग से स्वरूपित हो और उपयोगकर्ता पृष्ठ को उपयोगकर्ता के व्यक्तिगत डेटा के साथ अनुक्रमित न करे।

रोबोट स्कैनिंग सिद्धांत

जब कोई सर्च इंजन किसी फाइल का सामना करता है और एक प्रतिबंधित यूआरएल देखता है, तो वह उसे क्रॉल नहीं करता है, लेकिन वह इसे इंडेक्स कर सकता है। ऐसा इसलिए है क्योंकि भले ही रोबोट को सामग्री देखने की अनुमति न हो, लेकिन वे निषिद्ध URL की ओर इशारा करते हुए बैकलिंक्स को याद रख सकते हैं। लिंक तक पहुंच अवरुद्ध होने के कारण, URL खोज इंजन में दिखाई देगा, लेकिन बिना अंशों के। यदि एकआने वाली मार्केटिंग रणनीति के लिए, बिट्रिक्स (बिट्रिक्स) के लिए सही रोबोट टीएक्सटी की आवश्यकता होती है, वे स्कैनर द्वारा उपयोगकर्ता के अनुरोध पर साइट सत्यापन प्रदान करते हैं।

दूसरी ओर, यदि फ़ाइल ठीक से स्वरूपित नहीं है, तो इसके परिणामस्वरूप साइट खोज परिणामों में दिखाई नहीं दे रही है और नहीं मिल रही है। सर्च इंजन इस फाइल को बायपास नहीं कर सकते। एक प्रोग्रामर किसी भी साइट के robots.txt को उसके डोमेन पर जाकर और robots.txt के साथ उसका अनुसरण करके देख सकता है, उदाहरण के लिए, www.domain.com/robots.txt। Unamo के SEO ऑप्टिमाइज़ेशन सेक्शन जैसे टूल का उपयोग करना, जहाँ आप किसी भी डोमेन में प्रवेश कर सकते हैं, और सेवा फ़ाइल के अस्तित्व के बारे में जानकारी दिखाएगी।

स्कैनिंग पर प्रतिबंध:

उपयोगकर्ता के पास पुरानी या संवेदनशील सामग्री है।
साइट पर छवियों को छवि खोज परिणामों में शामिल नहीं किया जाएगा।
साइट अभी तक रोबोट द्वारा अनुक्रमित किए जाने वाले डेमो के लिए तैयार नहीं है।

ध्यान रखें कि एक उपयोगकर्ता खोज इंजन से जो जानकारी प्राप्त करना चाहता है वह URL दर्ज करने वाले किसी भी व्यक्ति के लिए उपलब्ध है। संवेदनशील डेटा छिपाने के लिए इस टेक्स्ट फ़ाइल का उपयोग न करें। यदि डोमेन में 404 (नहीं मिला) या 410 (उत्तीर्ण) त्रुटि है, तो खोज इंजन robots.txt की उपस्थिति के बावजूद साइट की जांच करता है, इस स्थिति में यह मानता है कि फ़ाइल गुम है। अन्य त्रुटियां जैसे 500 (आंतरिक सर्वर त्रुटि), 403 (निषिद्ध), समय समाप्त, या "उपलब्ध नहीं" robots.txt निर्देशों का सम्मान करते हैं, हालांकि फ़ाइल उपलब्ध होने तक बाईपास में देरी हो सकती है।

खोज फ़ाइल बनाना

अनेकवर्डप्रेस जैसे सीएमएस प्रोग्राम में पहले से ही एक robots.txt फ़ाइल है। रोबोट्स txt वर्डप्रेस को ठीक से कॉन्फ़िगर करने से पहले, उपयोगकर्ता को इसकी क्षमताओं से परिचित होने की आवश्यकता है ताकि यह पता लगाया जा सके कि इसे कैसे एक्सेस किया जाए। यदि प्रोग्रामर स्वयं फ़ाइल बनाता है, तो उसे निम्नलिखित शर्तों को पूरा करना होगा:

लोअर केस में होना चाहिए।
UTF-8 एन्कोडिंग का उपयोग करें।
टेक्स्ट एडिटर में फाइल (.txt) के रूप में सेव करें।

जब किसी उपयोगकर्ता को यह नहीं पता होता है कि उसे कहां रखा जाए, तो वे वेब सर्वर सॉफ़्टवेयर विक्रेता से संपर्क करके पता लगाते हैं कि किसी डोमेन के रूट तक कैसे पहुंचा जाए या Google कंसोल पर जाकर उसे डाउनलोड करें। इस फ़ंक्शन के साथ, Google यह भी जांच सकता है कि बॉट सही ढंग से काम कर रहा है या नहीं और उन साइटों की सूची जिन्हें फ़ाइल का उपयोग करके अवरुद्ध किया गया है।

बिट्रिक्स (बिट्रिक्स) के लिए सही रोबोट txt का मुख्य प्रारूप:

लीजेंड robots.txt.
, टिप्पणियों को जोड़ता है जो केवल नोट्स के रूप में उपयोग की जाती हैं।
इन टिप्पणियों को किसी भी उपयोगकर्ता टाइपो के साथ स्कैनर द्वारा अनदेखा कर दिया जाएगा।
उपयोगकर्ता-एजेंट - इंगित करता है कि फ़ाइल के लिए निर्देश किस खोज इंजन पर सूचीबद्ध हैं।
तारांकन () जोड़ना स्कैनर को बताता है कि निर्देश सभी के लिए हैं।

एक विशिष्ट बॉट का संकेत देना, उदाहरण के लिए, Googlebot, Baiduspider, Applebot। अस्वीकृत करें क्रॉलर को बताता है कि वेबसाइट के किन हिस्सों को क्रॉल नहीं किया जाना चाहिए। यह इस तरह दिखता है: उपयोगकर्ता-एजेंट:. तारांकन का अर्थ है "सभी बॉट"। हालाँकि, आप विशिष्ट के लिए पृष्ठ निर्दिष्ट कर सकते हैंबॉट्स ऐसा करने के लिए, आपको उस बॉट का नाम जानना होगा जिसके लिए अनुशंसाएँ निर्धारित की गई हैं।

यांडेक्स के लिए सही रोबोट txt कुछ इस तरह दिख सकता है:

यदि बॉट को साइट को क्रॉल नहीं करना चाहिए, तो आप इसे निर्दिष्ट कर सकते हैं, और उपयोगकर्ता एजेंटों के नाम खोजने के लिए, यह अनुशंसा की जाती है कि आप useragentstring.com की ऑनलाइन क्षमताओं से परिचित हों।

पेज ऑप्टिमाइजेशन

निम्नलिखित दो पंक्तियों को एक पूर्ण robots.txt फ़ाइल माना जाता है, और एक एकल रोबोट फ़ाइल में उपयोगकर्ता एजेंटों और निर्देशों की कई पंक्तियाँ हो सकती हैं जो क्रॉलिंग को अक्षम या सक्षम करती हैं। सही रोबोट का मुख्य प्रारूप txt:

उपयोगकर्ता एजेंट: [एजेंट उपयोगकर्ता नाम]।
अस्वीकार करें: ।

फ़ाइल में, निर्देशों के प्रत्येक ब्लॉक को असतत के रूप में प्रदर्शित किया जाता है, एक पंक्ति द्वारा अलग किया जाता है। एजेंट उपयोगकर्ता निर्देशिका के आगे की फ़ाइल में, प्रत्येक नियम अनुभाग-पृथक पंक्तियों के एक विशिष्ट सेट पर लागू होता है। यदि किसी फ़ाइल में बहु-एजेंट नियम है, तो रोबोट केवल निर्देशों के सबसे विशिष्ट समूह पर विचार करेगा।

तकनीकी सिंटैक्स

इसे robots.txt फाइलों की "भाषा" माना जा सकता है। इस प्रारूप में पाँच शब्द मौजूद हो सकते हैं, जिनमें मुख्य शामिल हैं:

उपयोगकर्ता-एजेंट - क्रॉल निर्देशों के साथ वेब क्रॉलर, आमतौर पर एक खोज इंजन।
अस्वीकृति एक कमांड है जिसका उपयोग उपयोगकर्ता एजेंट को बायपास करने के लिए करने के लिए किया जाता है(चूक) एक विशिष्ट URL का। प्रत्येक के लिए केवल एक वर्जित शर्त है।
अनुमति दें। उस Googlebot के लिए जिसे पहुँच मिलती है, यहाँ तक कि उपयोगकर्ता पृष्ठ को भी अस्वीकार कर दिया जाता है।
क्रॉल-देरी - निर्दिष्ट करता है कि क्रॉलर को क्रॉल करने से पहले कितने सेकंड की आवश्यकता होगी। जब बॉट इसकी पुष्टि नहीं करता है, तो गति Google कंसोल में सेट हो जाती है।
साइटमैप - यूआरएल से जुड़े किसी भी एक्सएमएल मैप का पता लगाने के लिए इस्तेमाल किया जाता है।

पैटर्न मिलान

जब वास्तव में URL को ब्लॉक करने या वैध रोबोट txt को अनुमति देने की बात आती है, तो संचालन काफी मुश्किल हो सकता है क्योंकि वे आपको कई संभावित URL मापदंडों को कवर करने के लिए पैटर्न मिलान का उपयोग करने की अनुमति देते हैं। Google और बिंग दोनों दो वर्णों का उपयोग करते हैं जो उन पृष्ठों या सबफ़ोल्डर की पहचान करते हैं जिन्हें SEO बाहर करना चाहता है। दो अक्षर तारक () और डॉलर चिह्न ($) हैं, जहां:एक वाइल्डकार्ड है जो वर्णों के किसी भी क्रम का प्रतिनिधित्व करता है। $ - URL के अंत से मेल खाता है।

Google संभावित टेम्प्लेट सिंटैक्स की एक बड़ी सूची प्रदान करता है जो उपयोगकर्ता को समझाता है कि रोबोट txt फ़ाइल को ठीक से कैसे सेट किया जाए। कुछ सामान्य उपयोग के मामलों में शामिल हैं:

डुप्लिकेट सामग्री को खोज परिणामों में प्रदर्शित होने से रोकें।
वेबसाइट के सभी अनुभागों को निजी रखें।
खुले बयान के आधार पर खोज परिणामों के आंतरिक पृष्ठों को सहेजें।
स्थान बताएं।
खोज इंजन को निश्चित अनुक्रमण से रोकेंफ़ाइलें.
एक ही समय में कई सामग्री क्षेत्रों को स्कैन करते समय पुनः लोड होने से रोकने के लिए क्रॉल विलंब निर्दिष्ट करना।

रोबोट फ़ाइल की उपस्थिति की जांच कर रहा है

अगर साइट पर ऐसे कोई क्षेत्र नहीं हैं जिन्हें क्रॉल करने की आवश्यकता है, तो robots.txt की बिल्कुल भी आवश्यकता नहीं है। यदि उपयोगकर्ता सुनिश्चित नहीं है कि यह फ़ाइल मौजूद है, तो उसे रूट डोमेन दर्ज करना होगा और URL के अंत में इसे टाइप करना होगा, कुछ इस तरह: moz.com/robots.txt। कई सर्च बॉट इन फाइलों को नजरअंदाज कर देते हैं। हालांकि, एक नियम के रूप में, ये क्रॉलर प्रतिष्ठित खोज इंजनों से संबंधित नहीं हैं। वे स्पैमर, मेल एग्रीगेटर और अन्य प्रकार के स्वचालित बॉट हैं जो इंटरनेट पर बहुतायत में पाए जाते हैं।

यह याद रखना बहुत महत्वपूर्ण है कि रोबोट अपवर्जन मानक का उपयोग करना एक प्रभावी सुरक्षा उपाय नहीं है। वास्तव में, कुछ बॉट उन पृष्ठों से शुरू हो सकते हैं जहां उपयोगकर्ता उन्हें स्कैन मोड में सेट करता है। ऐसे कई भाग हैं जो मानक अपवाद फ़ाइल में जाते हैं। इससे पहले कि आप रोबोट को बताएं कि उसे किन पृष्ठों पर काम नहीं करना चाहिए, आपको यह निर्दिष्ट करना होगा कि किस रोबोट से बात करनी है। ज्यादातर मामलों में, उपयोगकर्ता एक साधारण घोषणा का उपयोग करेगा जिसका अर्थ है "सभी बॉट्स"।

एसईओ अनुकूलन

अनुकूलित करने से पहले, उपयोगकर्ता को यह सुनिश्चित करना चाहिए कि वह साइट के किसी भी सामग्री या अनुभागों को अवरुद्ध नहीं करता है, जिसे बायपास करने की आवश्यकता है। सही रोबोट txt द्वारा अवरोधित किए गए पृष्ठों के लिंक का सम्मान नहीं किया जाएगा। इसका मतलब है:

यदि वे खोज इंजन के लिए उपलब्ध अन्य पृष्ठों से लिंक नहीं हैं अर्थात। पन्ने,robots.txt या मेटा रोबोट द्वारा अवरुद्ध नहीं है, और संबंधित संसाधनों को क्रॉल नहीं किया जाएगा और इसलिए उन्हें अनुक्रमित नहीं किया जा सकता है।
ब्लॉक किए गए पेज से लिंक डेस्टिनेशन तक कोई लिंक पास नहीं किया जा सकता है। अगर ऐसा कोई पेज है, तो robots.txt से अलग ब्लॉकिंग मैकेनिज्म का इस्तेमाल करना बेहतर है।

चूंकि अन्य पृष्ठ व्यक्तिगत जानकारी वाले पृष्ठ से सीधे लिंक हो सकते हैं और आप इस पृष्ठ को खोज परिणामों से ब्लॉक करना चाहते हैं, एक अलग विधि का उपयोग करें, जैसे पासवर्ड सुरक्षा या नोइंडेक्स मेटा डेटा। कुछ खोज इंजनों में एकाधिक उपयोगकर्ता एजेंट होते हैं। उदाहरण के लिए, Google ऑर्गेनिक खोजों के लिए Googlebot और छवि खोजों के लिए Googlebot-Image का उपयोग करता है।

एक ही खोज इंजन के अधिकांश उपयोगकर्ता एजेंट समान नियमों का पालन करते हैं, इसलिए कई क्रॉलर में से प्रत्येक के लिए निर्देश निर्दिष्ट करने की कोई आवश्यकता नहीं है, लेकिन ऐसा करने में सक्षम होने से साइट सामग्री के क्रॉलिंग को ठीक किया जा सकता है। खोज इंजन फ़ाइल की सामग्री को कैश करता है, और आम तौर पर दिन में कम से कम एक बार कैश की गई सामग्री को अपडेट करता है। यदि उपयोगकर्ता फ़ाइल को बदलता है और इसे सामान्य से अधिक तेज़ी से अपडेट करना चाहता है, तो वे robots.txt URL को Google को सबमिट कर सकते हैं।

खोज इंजन

यह समझने के लिए कि रोबोट txt कैसे सही तरीके से काम करता है, आपको सर्च इंजन की क्षमताओं के बारे में जानना होगा। संक्षेप में, उनकी क्षमता इस तथ्य में निहित है कि वे "स्कैनर" भेजते हैं, जो कि प्रोग्राम हैंजानकारी के लिए इंटरनेट ब्राउज़ करना। फिर वे इस जानकारी में से कुछ को बाद में उपयोगकर्ता को देने के लिए संग्रहीत करते हैं।

कई लोगों के लिए, Google पहले से ही इंटरनेट है। वास्तव में, वे सही हैं, क्योंकि यह शायद उनका सबसे महत्वपूर्ण आविष्कार है। और यद्यपि खोज इंजन अपनी स्थापना के बाद से बहुत बदल गए हैं, अंतर्निहित सिद्धांत अभी भी वही हैं। क्रॉलर, जिन्हें "बॉट्स" या "स्पाइडर" के रूप में भी जाना जाता है, अरबों वेबसाइटों के पृष्ठ ढूंढते हैं। खोज इंजन उन्हें दिशा-निर्देश देते हैं कि उन्हें कहाँ जाना है, जबकि अलग-अलग साइटें बॉट्स के साथ संचार भी कर सकती हैं और उन्हें बता सकती हैं कि उन्हें किन विशिष्ट पृष्ठों को देखना चाहिए।

आम तौर पर, साइट के मालिक सर्च इंजन में नहीं दिखना चाहते: एडमिन पेज, बैकएंड पोर्टल, कैटेगरी और टैग, और अन्य जानकारी वाले पेज। robots.txt फ़ाइल का उपयोग खोज इंजनों को पृष्ठों की जाँच करने से रोकने के लिए भी किया जा सकता है। संक्षेप में, robots.txt वेब क्रॉलर को बताता है कि क्या करना है।

बैन पेज

यह रोबोट बहिष्करण फ़ाइल का मुख्य भाग है। एक साधारण घोषणा के साथ, उपयोगकर्ता किसी बॉट या बॉट्स के समूह को कुछ पृष्ठों को क्रॉल न करने के लिए कहता है। सिंटैक्स सरल है, उदाहरण के लिए, साइट की "व्यवस्थापक" निर्देशिका में सब कुछ तक पहुंच से इनकार करने के लिए, लिखें: अस्वीकृत करें: /व्यवस्थापक। यह लाइन बॉट्स को yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html, और व्यवस्थापक निर्देशिका के अंतर्गत कुछ भी क्रॉल करने से रोकेगी।

एक पृष्ठ को अस्वीकार करने के लिए, इसे केवल अस्वीकृत पंक्ति में निर्दिष्ट करें: अस्वीकृत करें: /public/exception.html। अब "अपवाद" पृष्ठमाइग्रेट नहीं होगा, लेकिन "सार्वजनिक" फ़ोल्डर में बाकी सब कुछ होगा।

कई पृष्ठों को शामिल करने के लिए, बस उन्हें सूचीबद्ध करें:

सिम्फनी के लिए सही रोबोट txt की ये चार पंक्तियाँ https://www.symphonyspace.org/. के लिएrobots.txt अनुभाग के शीर्ष पर सूचीबद्ध किसी भी उपयोगकर्ता एजेंट पर लागू होंगी।

साइटमैप:

अन्य कमांड:लाइव - वेब क्रॉलर को cpresources/ या प्रदाता/ को इंडेक्स करने की अनुमति न दें।

उपयोगकर्ता एजेंट: अस्वीकार करें: /cpresources/.

अस्वीकार करें: / विक्रेता / अस्वीकृत: /.env.

मानक निर्धारित करना

उपयोगकर्ता पिछले दो तत्वों को मिलाकर विभिन्न बॉट्स के लिए विशिष्ट पृष्ठ निर्दिष्ट कर सकता है, यह ऐसा दिखता है। सभी खोज इंजनों के लिए सही रोबोट txt का एक उदाहरण नीचे प्रस्तुत किया गया है।

"व्यवस्थापक" और "निजी" अनुभाग Google और बिंग के लिए अदृश्य होंगे, लेकिन Google अभी भी "गुप्त" निर्देशिका देखेगा, जबकि बिंग नहीं करेगा। आप तारांकन चिह्न उपयोगकर्ता एजेंट का उपयोग करके सभी बॉट के लिए सामान्य नियम निर्दिष्ट कर सकते हैं, और फिर निम्न अनुभागों में बॉट्स को विशिष्ट निर्देश दे सकते हैं। उपरोक्त ज्ञान के साथ, उपयोगकर्ता सभी खोज इंजनों के लिए सही रोबोट txt का एक उदाहरण लिख सकता है। बस अपने पसंदीदा टेक्स्ट एडिटर को सक्रिय करें और बॉट्स को बताएं कि साइट के कुछ हिस्सों में उनका स्वागत नहीं है।

सर्वर के प्रदर्शन में सुधार के लिए टिप्स

SublimeText isएक बहुमुखी पाठ संपादक और कई प्रोग्रामर के लिए स्वर्ण मानक। इसके अलावा, उनकी प्रोग्रामिंग युक्तियाँ कुशल कोडिंग पर आधारित हैं। उपयोगकर्ता कार्यक्रम में शॉर्टकट की उपस्थिति की सराहना करते हैं। यदि उपयोगकर्ता robots.txt फ़ाइल का उदाहरण देखना चाहता है, तो उन्हें किसी भी साइट पर जाना चाहिए और अंत में "/robots.txt" जोड़ना चाहिए। यहाँ robots.txt फ़ाइल का हिस्सा है GiantBicycles.

कार्यक्रम उन पृष्ठों का निर्माण प्रदान करता है जिन्हें उपयोगकर्ता खोज इंजन में नहीं दिखाना चाहते हैं। और कुछ खास बातें भी हैं जिनके बारे में कम ही लोग जानते हैं। उदाहरण के लिए, जबकि robots.txt फ़ाइल बॉट्स को बताती है कि कहाँ नहीं जाना है, साइटमैप फ़ाइल इसके विपरीत करती है और उन्हें जो खोज रही है उसे खोजने में मदद करती है, और जबकि खोज इंजन शायद पहले से ही जानते हैं कि साइटमैप कहाँ स्थित है, यह नहीं मिलता है रास्ते में।

फ़ाइलें दो प्रकार की होती हैं: HTML पृष्ठ या XML फ़ाइल। एक HTML पृष्ठ वह है जो आगंतुकों को वेबसाइट पर सभी उपलब्ध पृष्ठ दिखाता है। अपने स्वयं के robots.txt में, यह इस तरह दिखता है: Sitemap://www.makeuseof.com/sitemap_index.xml। यदि साइट को खोज इंजन द्वारा अनुक्रमित नहीं किया गया है, हालांकि इसे वेब रोबोट द्वारा कई बार क्रॉल किया गया है, तो आपको यह सुनिश्चित करने की आवश्यकता है कि फ़ाइल मौजूद है और इसकी अनुमति सही ढंग से सेट की गई है।

डिफ़ॉल्ट रूप से, यह सभी SeoToaster इंस्टॉलेशन के साथ होगा, लेकिन यदि आवश्यक हो, तो आप इसे इस तरह से रीसेट कर सकते हैं: File robots.txt - 644. PHP सर्वर के आधार पर, यदि यह उपयोगकर्ता के लिए काम नहीं करता है, तो यह निम्न प्रयास करने की अनुशंसा की जाती है: फ़ाइल robots.txt - 666.

स्कैन विलंब सेट करना

बाईपास विलंब निर्देश निश्चित रूप से सूचित करता हैखोज इंजन वे कितनी बार साइट पर किसी पृष्ठ को अनुक्रमित कर सकते हैं। इसे सेकंडों में मापा जाता है, हालांकि कुछ सर्च इंजन इसकी थोड़ी अलग व्याख्या करते हैं। कुछ लोगों को क्रॉल विलंब 5 दिखाई देता है जब उन्हें कहा जाता है कि अगले स्कैन को शुरू करने के लिए प्रत्येक स्कैन के बाद पांच सेकंड प्रतीक्षा करें।

अन्य लोग इसे हर पांच सेकंड में केवल एक पृष्ठ को स्कैन करने के निर्देश के रूप में समझते हैं। सर्वर बैंडविड्थ को संरक्षित करने के लिए रोबोट तेजी से स्कैन नहीं कर सकता है। यदि सर्वर को ट्रैफ़िक से मेल खाना है, तो वह बाईपास विलंब सेट कर सकता है। सामान्य तौर पर, ज्यादातर मामलों में, उपयोगकर्ताओं को इसके बारे में चिंता करने की आवश्यकता नहीं होती है। आठ सेकंड का क्रॉल विलंब इस प्रकार सेट किया जाता है - क्रॉल-विलंब: 8.

लेकिन सभी खोज इंजन इस निर्देश का पालन नहीं करेंगे, इसलिए पृष्ठों को अस्वीकार करते समय, आप कुछ खोज इंजनों के लिए अलग-अलग क्रॉल विलंब सेट कर सकते हैं। फ़ाइल में सभी निर्देश सेट होने के बाद, आप इसे साइट पर अपलोड कर सकते हैं, पहले सुनिश्चित करें कि यह एक साधारण टेक्स्ट फ़ाइल है और इसका नाम robots.txt है और इसे yoursite.com/robots.txt. पर पाया जा सकता है।

सर्वश्रेष्ठ वर्डप्रेस बॉट

WordPress साइट पर कुछ फ़ाइलें और निर्देशिकाएं होती हैं जिन्हें हर बार लॉक करने की आवश्यकता होती है। जिन निर्देशिकाओं को उपयोगकर्ताओं को अस्वीकार करना चाहिए वे cgi-bin निर्देशिका और मानक WP निर्देशिकाएँ हैं। कुछ सर्वर सीजीआई-बिन निर्देशिका तक पहुंच की अनुमति नहीं देते हैं, लेकिन उपयोगकर्ताओं को रोबोट txt वर्डप्रेस को ठीक से कॉन्फ़िगर करने से पहले इसे अस्वीकार करने के निर्देश में शामिल करना चाहिए

मानक वर्डप्रेस निर्देशिका,जिसे ब्लॉक करना चाहिए वो हैं wp-admin, wp-content, wp-include. इन निर्देशिकाओं में डेटा नहीं होता है जो प्रारंभ में खोज इंजनों के लिए उपयोगी होता है, लेकिन एक अपवाद है, यानी wp-content निर्देशिका में अपलोड नामक एक उपनिर्देशिका है। इस उपनिर्देशिका को robot.txt फ़ाइल में अनुमति दी जानी चाहिए क्योंकि इसमें वह सब कुछ शामिल है जो WP मीडिया अपलोड सुविधा का उपयोग करके लोड किया गया है। वर्डप्रेस सामग्री की संरचना के लिए टैग या श्रेणियों का उपयोग करता है।

यदि श्रेणियों का उपयोग किया जाता है, तो Wordpress के लिए सही Robots txt बनाने के लिए, जैसा कि प्रोग्राम निर्माता द्वारा निर्दिष्ट किया गया है, टैग अभिलेखागार को खोज से ब्लॉक करना आवश्यक है। सबसे पहले, वे "व्यवस्थापन" पैनल> "सेटिंग्स"> "पर्मालिंक" पर जाकर डेटाबेस की जांच करते हैं।

डिफ़ॉल्ट रूप से, आधार टैग है, यदि फ़ील्ड खाली है: अस्वीकृत करें: / टैग /। यदि किसी श्रेणी का उपयोग किया जाता है, तो आपको robot.txt फ़ाइल में श्रेणी को अक्षम करना होगा: अस्वीकृत करें: /category/. डिफ़ॉल्ट रूप से, आधार टैग है, यदि फ़ील्ड खाली है: अस्वीकृत करें: / टैग /। यदि किसी श्रेणी का उपयोग किया जाता है, तो आपको robot.txt फ़ाइल में श्रेणी को अक्षम करना होगा: अस्वीकृत करें: / श्रेणी /.

मुख्य रूप से सामग्री प्रदर्शित करने के लिए उपयोग की जाने वाली फ़ाइलें, उन्हें Wordpress के लिए सही रोबोट txt फ़ाइल द्वारा अवरुद्ध कर दिया जाएगा:

जूमला बेसिक सेटअप

एक बार जब उपयोगकर्ता ने जूमला स्थापित कर लिया है, तो आपको वैश्विक कॉन्फ़िगरेशन में सही जूमला रोबोट्स txt सेटिंग देखने की आवश्यकता है, जो नियंत्रण कक्ष में स्थित है। यहां कुछ सेटिंग्स SEO के लिए बहुत जरूरी हैं। सबसे पहले साइट का नाम ढूंढें और सुनिश्चित करें किसाइट के संक्षिप्त नाम का उपयोग किया जाता है। फिर उन्हें उसी स्क्रीन के दाईं ओर सेटिंग्स का एक समूह मिलता है, जिसे SEO सेटिंग्स कहा जाता है। जिसे निश्चित रूप से बदलना होगा वह दूसरा है: एक पुनर्लेखन URL का उपयोग करें।

यह जटिल लगता है, लेकिन यह मूल रूप से जूमला को क्लीनर यूआरएल बनाने में मदद करता है। यदि आप URL से index.php लाइन हटाते हैं तो सबसे अधिक ध्यान देने योग्य है। यदि आप इसे बाद में बदलते हैं, तो URL बदल जाएंगे और Google इसे पसंद नहीं करेगा। हालांकि, इस सेटिंग को बदलते समय, जूमला के लिए सही रोबोट txt बनाने के लिए एक ही समय में कई कदम उठाए जाने चाहिए:

जूमला रूट फ़ोल्डर में htaccess.txt फ़ाइल खोजें।
इसे.htaccess (कोई एक्सटेंशन नहीं) के रूप में चिह्नित करें।
पृष्ठ शीर्षक में साइट का नाम शामिल करें।
वैश्विक कॉन्फ़िगरेशन स्क्रीन के नीचे मेटाडेटा सेटिंग ढूंढें।

क्लाउड में रोबोट MODX

पहले, MODX क्लाउड ने उपयोगकर्ताओं को डैशबोर्ड में टॉगल के आधार पर robots.txt फ़ाइल को प्रस्तुत करने की अनुमति देने के व्यवहार को नियंत्रित करने की क्षमता प्रदान की थी। हालांकि यह उपयोगी था, लेकिन डैशबोर्ड में एक विकल्प को टॉगल करके स्टेजिंग/देव साइटों पर गलती से अनुक्रमण की अनुमति देना संभव था। इसी तरह, प्रोडक्शन साइट पर इंडेक्सिंग को निष्क्रिय करना आसान था।

आज सेवा निम्नलिखित अपवाद के साथ फाइल सिस्टम में robots.txt फाइलों की उपस्थिति मानती है: कोई भी डोमेन जो modxcloud.com के साथ समाप्त होता है, सभी उपयोगकर्ता एजेंटों के लिए एक अस्वीकृत: /निर्देश के रूप में कार्य करेगा, उपस्थिति की परवाह किए बिना या फ़ाइल की अनुपस्थिति।यदि उपयोगकर्ता अपनी साइट को अनुक्रमित करना चाहता है, तो वास्तविक विज़िटर ट्रैफ़िक प्राप्त करने वाली उत्पादन साइटों को अपने स्वयं के डोमेन का उपयोग करने की आवश्यकता होगी।

कुछ संगठन संदर्भों का उपयोग करके एक ही इंस्टॉलेशन से कई वेबसाइट चलाने के लिए modx के लिए सही Robots txt का उपयोग करते हैं। ऐसा मामला जिसमें इसे लागू किया जा सकता है, एक सार्वजनिक विपणन साइट होगी जो लैंडिंग पृष्ठ माइक्रो साइट्स और संभवतः एक गैर-सार्वजनिक इंट्रानेट के साथ संयुक्त होगी।

परंपरागत रूप से बहु-उपयोगकर्ता संस्थापन के लिए ऐसा करना कठिन रहा है क्योंकि वे समान नेटवर्क रूट साझा करते हैं। MODX क्लाउड के साथ, यह आसान है। निम्नलिखित सामग्री के साथ robots-intranet.example.com.txt नामक वेबसाइट पर बस एक अतिरिक्त फ़ाइल अपलोड करें और यह अच्छी तरह से काम करने वाले रोबोट के साथ अनुक्रमण को अवरुद्ध कर देगा और अन्य सभी होस्टनाम मानक फ़ाइलों में वापस आ जाएंगे जब तक कि अन्य विशिष्ट नाम नोड न हों।

Robots.txt एक महत्वपूर्ण फ़ाइल है जो उपयोगकर्ता को Google, प्रमुख खोज इंजन और अन्य वेबसाइटों पर साइट से लिंक करने में मदद करती है। वेब सर्वर के मूल में स्थित, फ़ाइल वेब रोबोट को किसी साइट को क्रॉल करने का निर्देश देती है, यह निर्धारित करती है कि बॉट एक्सक्लूज़न प्रोटोकॉल नामक निर्देशों के एक सेट का उपयोग करके इसे कौन से फ़ोल्डरों को अनुक्रमित करना चाहिए या नहीं। सभी खोज इंजनों के लिए सही रोबोट txt का एक उदाहरण obots.txt विशेष रूप से SeoToaster के साथ करना आसान है। कंट्रोल पैनल में इसके लिए एक विशेष मेनू बनाया गया है, इसलिए एक्सेस हासिल करने के लिए बॉट को कभी भी अधिक काम नहीं करना पड़ेगा।