वेबसाइट अनुक्रमण क्या है? यह कैसे होता है? आप लेख में इन और अन्य सवालों के जवाब पा सकते हैं। वेब अनुक्रमण (खोज इंजन में अनुक्रमण) एक खोज इंजन रोबोट द्वारा डेटाबेस में किसी साइट के बारे में जानकारी जोड़ने की प्रक्रिया है, जिसका उपयोग बाद में ऐसी प्रक्रिया से गुजरने वाली वेब परियोजनाओं पर जानकारी खोजने के लिए किया जाता है।
वेब संसाधनों के बारे में डेटा में अक्सर कीवर्ड, लेख, लिंक, दस्तावेज़ होते हैं। ऑडियो, चित्र आदि को भी अनुक्रमित किया जा सकता है। यह ज्ञात है कि खोजशब्द खोज एल्गोरिथ्म खोज इंजन पर निर्भर है।
अनुक्रमित जानकारी के प्रकार (फ़्लैश फ़ाइलें, जावास्क्रिप्ट) पर कुछ सीमाएँ हैं।
दीक्षा प्रबंधन
साइट को इंडेक्स करना एक जटिल प्रक्रिया है। इसे प्रबंधित करने के लिए (उदाहरण के लिए, किसी विशेष पृष्ठ के अनुलग्नक को प्रतिबंधित करने के लिए), आपको robots.txt फ़ाइल और ऐसे निर्देशों का उपयोग करने की आवश्यकता है जैसे अनुमति दें, अस्वीकार करें, क्रॉल-देरी, उपयोगकर्ता-एजेंट और अन्य।
साथ ही, टैग और प्रॉप्स का उपयोग अनुक्रमण के लिए किया जाता है, Google और यांडेक्स रोबोट से संसाधन की सामग्री को छुपाता है (याहू टैग का उपयोग करता है)।
गोगल सर्च इंजन में, नई साइटों को कुछ दिनों से एक सप्ताह तक और यांडेक्स में - एक से चार सप्ताह तक अनुक्रमित किया जाता है।
क्या आप चाहते हैं कि आपकी साइट खोज इंजन परिणाम क्वेरी में दिखाई दे? फिर इसे Rambler, Yandex, Google, Yahoo, इत्यादि द्वारा संसाधित किया जाना चाहिए। आपको अपनी वेबसाइट के अस्तित्व के बारे में सर्च इंजन (मकड़ियों, सिस्टम) को सूचित करना होगा, और फिर वे इसे पूरे या आंशिक रूप से क्रॉल करेंगे।
कई साइटों को वर्षों से अनुक्रमित नहीं किया गया है। उन पर जो जानकारी है, वह उनके मालिकों के अलावा और कोई नहीं देखता।
प्रसंस्करण के तरीके
किसी साइट का अनुक्रमण कई तरीकों से किया जा सकता है:
- पहला विकल्प मैनुअल जोड़ है। आपको खोज इंजन द्वारा पेश किए गए विशेष प्रपत्रों के माध्यम से अपना साइट डेटा दर्ज करना होगा।
- दूसरे मामले में, सर्च इंजन रोबोट खुद ही आपकी वेब साइट को लिंक से ढूंढता है और उसे अनुक्रमित करता है। वह आपकी साइट को अन्य संसाधनों के लिंक द्वारा ढूंढ सकता है जो आपकी परियोजना तक ले जाते हैं। यह विधि सबसे कुशल है। अगर किसी सर्च इंजन को इस तरह से कोई साइट मिलती है, तो वह इसे महत्वपूर्ण मानता है।
समय
साइट को इंडेक्स करना बहुत तेज नहीं है। शर्तें अलग-अलग हैं, 1-2 सप्ताह से। आधिकारिक संसाधनों (उत्कृष्ट पीआर और टिट्ज़ के साथ) से लिंक खोज इंजन डेटाबेस में साइट की नियुक्ति को काफी तेज करते हैं। आज गूगल को सबसे धीमा माना जाता है, हालांकि 2012 तक यह इस काम को एक हफ्ते में कर सकता था। प्रतिदुर्भाग्य से, चीजें बहुत जल्दी बदलती हैं। ज्ञात हो कि Mail.ru इस क्षेत्र में लगभग छह महीने से वेबसाइटों के साथ काम कर रहा है।
किसी साइट को सर्च इंजन में इंडेक्स करना हर विशेषज्ञ के लिए संभव नहीं है। खोज इंजन द्वारा पहले से संसाधित साइट के डेटाबेस में नए पृष्ठ जोड़ने का समय इसकी सामग्री को अद्यतन करने की आवृत्ति से प्रभावित होता है। यदि किसी संसाधन पर ताजा जानकारी लगातार दिखाई देती है, तो सिस्टम इसे अक्सर अद्यतन और लोगों के लिए उपयोगी मानता है। ऐसे में उसके काम में तेजी आती है।
आप वेबमास्टरों के लिए या खोज इंजन पर विशेष अनुभागों पर किसी वेब साइट की अनुक्रमण प्रगति का अनुसरण कर सकते हैं।
परिवर्तन
इसलिए, हमने पहले ही पता लगा लिया है कि साइट को कैसे अनुक्रमित किया जाता है। यह ध्यान दिया जाना चाहिए कि खोज इंजन डेटाबेस अक्सर अपडेट किए जाते हैं। इसलिए, आपके प्रोजेक्ट में जोड़े गए पृष्ठों की संख्या निम्नलिखित कारणों से बदल सकती है (घटती और बढ़ सकती है):
- वेबसाइट के खिलाफ सर्च इंजन प्रतिबंध;
- साइट पर त्रुटियों की उपस्थिति;
- खोज इंजन एल्गोरिदम बदलना;
- घृणित होस्टिंग (सर्वर की अनुपलब्धता जहां परियोजना स्थित है) और इसी तरह।
यांडेक्स आम सवालों के जवाब
"यांडेक्स" कई उपयोगकर्ताओं द्वारा उपयोग किया जाने वाला एक खोज इंजन है। संसाधित शोध अनुरोधों की संख्या के मामले में यह दुनिया की खोज प्रणालियों में पांचवें स्थान पर है। यदि आपने इसमें कोई साइट जोड़ी है, तो डेटाबेस में जोड़ने में बहुत अधिक समय लग सकता है।
URL जोड़ना उसके अनुक्रमण की गारंटी नहीं देता है। यह सिर्फ एक तरीका है जिसके द्वारा सिस्टम रोबोट को बताया जाता हैएक नए संसाधन के बारे में। यदि अन्य वेबसाइटों से किसी साइट के लिंक कम हैं या नहीं हैं, तो इसे जोड़ने से आपको इसे तेजी से खोजने में मदद मिलेगी।
यदि अनुक्रमण नहीं हुआ है, तो आपको यह जांचना होगा कि यैंडेक्स रोबोट से इसके लिए एक एप्लिकेशन बनाते समय सर्वर पर कोई खराबी तो नहीं थी। यदि सर्वर किसी त्रुटि की रिपोर्ट करता है, तो रोबोट अपना कार्य समाप्त कर देगा और इसे एक राउंड ट्रिप क्रम में पूरा करने का प्रयास करेगा। यांडेक्स के कर्मचारी सर्च इंजन डेटाबेस में पेज जोड़ने की गति नहीं बढ़ा सकते।
यांडेक्स में किसी साइट को इंडेक्स करना काफी मुश्किल काम है। आप नहीं जानते कि खोज इंजन में संसाधन कैसे जोड़ें? यदि अन्य वेबसाइटों से इसके लिंक हैं, तो आपको एक विशेष साइट जोड़ने की आवश्यकता नहीं है - रोबोट स्वचालित रूप से इसे ढूंढेगा और इसे अनुक्रमित करेगा। यदि आपके पास ऐसे लिंक नहीं हैं, तो आप खोज इंजन को यह बताने के लिए "URL जोड़ें" फ़ॉर्म का उपयोग कर सकते हैं कि साइट मौजूद है।
ध्यान रखें कि URL जोड़ने से यह गारंटी नहीं है कि आपकी रचना को अनुक्रमित (या अनुक्रमित) किया जाएगा।
बहुत से लोग आश्चर्य करते हैं कि यांडेक्स में किसी साइट को इंडेक्स करने में कितना समय लगता है। इस कंपनी के कर्मचारी गारंटी नहीं देते हैं और शर्तों की भविष्यवाणी नहीं करते हैं। एक नियम के रूप में, चूंकि रोबोट को साइट के बारे में पता चला है, खोज में इसके पृष्ठ दो दिनों में दिखाई देते हैं, कभी-कभी कुछ हफ़्ते में।
प्रक्रिया
"यांडेक्स" एक खोज इंजन है जिसे सटीकता और ध्यान देने की आवश्यकता है। साइट अनुक्रमण में तीन भाग होते हैं:
- खोज रोबोट संसाधन पृष्ठों को क्रॉल करता है।
- सामग्री(सामग्री) साइट की खोज प्रणाली के डेटाबेस (सूचकांक) में दर्ज की जाती है।
- 2-4 सप्ताह में, डेटाबेस को अपडेट करने के बाद, आप परिणाम देख सकते हैं। आपकी साइट खोज परिणामों में दिखाई देगी (या नहीं) दिखाई देगी।
इंडेक्सिंग जांच
वेबसाइट इंडेक्सिंग कैसे चेक करें? ऐसा करने के तीन तरीके हैं:
- खोज बार में अपने व्यवसाय का नाम दर्ज करें (उदाहरण के लिए, "यांडेक्स") और पहले और दूसरे पेज पर हर लिंक की जांच करें। अगर आपको वहां अपने दिमाग की उपज का यूआरएल मिलता है, तो रोबोट ने अपना काम पूरा कर लिया है।
- आप सर्च बार में अपनी वेबसाइट का यूआरएल डाल सकते हैं। आप देख पाएंगे कि कितनी इंटरनेट शीट दिखाई गई हैं, यानी अनुक्रमित।
- Mail.ru, Google, Yandex में वेबमास्टर्स के पेज पर रजिस्टर करें। साइट सत्यापन पास करने के बाद, आप अपने संसाधन के प्रदर्शन को बेहतर बनाने के लिए बनाए गए अनुक्रमण परिणाम और अन्य खोज इंजन सेवाओं को देख पाएंगे।
यांडेक्स विफल क्यों होता है?
Google में किसी साइट का अनुक्रमण इस प्रकार किया जाता है: रोबोट डेटाबेस में साइट के सभी पृष्ठों, निम्न-गुणवत्ता और उच्च-गुणवत्ता का चयन किए बिना प्रवेश करता है। लेकिन रैंकिंग में केवल उपयोगी दस्तावेज ही शामिल हैं। और "यांडेक्स" तुरंत सभी वेब ट्रैश को बाहर कर देता है। यह किसी भी पेज को इंडेक्स कर सकता है, लेकिन सर्च इंजन अंततः सभी कचरे को खत्म कर देगा।
दोनों प्रणालियों में एक वृद्धिशील सूचकांक है। दोनों निम्न गुणवत्ता वाले पृष्ठ समग्र रूप से वेब साइट की रैंकिंग को प्रभावित करते हैं। यहां काम पर एक साधारण दर्शन है। किसी विशेष के पसंदीदा संसाधनउपयोगकर्ता अपने जारी करने में उच्च पदों पर काबिज होगा। लेकिन उसी व्यक्ति को ऐसी साइट खोजने में मुश्किल होगी जो उसे पिछली बार पसंद नहीं आई थी।
इसलिए, सबसे पहले, अनुक्रमण से वेब दस्तावेज़ों की प्रतियों को कवर करना, खाली पृष्ठों की जांच करना और निम्न-गुणवत्ता वाली सामग्री को अनुक्रमित होने से रोकना आवश्यक है।
यांडेक्स को गति दें
मैं यांडेक्स में साइट इंडेक्सिंग को कैसे तेज कर सकता हूं? इन चरणों का पालन करें:
- अपने कंप्यूटर पर यांडेक्स ब्राउज़र स्थापित करें और साइट के पृष्ठों को ब्राउज़ करने के लिए इसका उपयोग करें।
- यांडेक्स.वेबमास्टर में संसाधन के प्रबंधन के अधिकारों की पुष्टि करें।
- ट्विटर पर लेख का लिंक पोस्ट करें। यह ज्ञात है कि यांडेक्स 2012 से इस कंपनी के साथ सहयोग कर रहा है।
- साइट के लिए यांडेक्स से खोज जोड़ें। "अनुक्रमण" अनुभाग में, आप अपने स्वयं के URL दर्ज कर सकते हैं।
- बिना टिक किए "Yandex. Metrica" कोड दर्ज करें "अनुक्रमण के लिए पृष्ठ सबमिट करना निषिद्ध है"।
- एक ऐसा साइटमैप तैयार करें जो केवल रोबोट के लिए मौजूद हो और दर्शकों को दिखाई न दे। उसके साथ सत्यापन शुरू होगा। साइटमैप पता robots.txt में या "वेबमास्टर" - "इंडेक्सिंग सेटिंग्स" - "साइटमैप फ़ाइलें" में उपयुक्त रूप में दर्ज किया गया है।
मध्यवर्ती कार्रवाइयां
यांडेक्स द्वारा वेब पेज को इंडेक्स किए जाने तक क्या करने की आवश्यकता है? घरेलू खोज इंजन को साइट को प्राथमिक स्रोत मानना चाहिए। इसीलिए लेख के प्रकाशन से पहले ही इसकी सामग्री को "विशिष्ट ग्रंथों" के रूप में जोड़ना अनिवार्य है। अन्यथासाहित्यिक चोरी करने वाले रिकॉर्ड को अपने संसाधन में कॉपी करेंगे और डेटाबेस में पहले स्थान पर होंगे। परिणामस्वरूप, उन्हें लेखकों के रूप में पहचाना जाएगा।
गूगल डाटाबेस
Google के लिए, ऊपर वर्णित वही सिफारिशें उपयुक्त हैं, केवल सेवाएं अलग होंगी:
- गूगल+ (ट्विटर की जगह);
- गूगल क्रोम;
- प्रोग्रामर के लिए Google टूल - "स्कैन" - "Googlebot की तरह दिखें" - विकल्प "स्कैन" - विकल्प "इंडेक्स";
- Google से किसी संसाधन में खोजें;
- गूगल एनालिटिक्स (यांडेक्स.मेट्रिक्स के बजाय)।
निषेध
साइट इंडेक्सिंग बैन क्या है? आप इसे पूरे पृष्ठ पर और इसके एक अलग हिस्से (लिंक या टेक्स्ट का टुकड़ा) दोनों पर ओवरले कर सकते हैं। वास्तव में, वैश्विक अनुक्रमण प्रतिबंध और स्थानीय प्रतिबंध दोनों हैं। इसे कैसे लागू किया जाता है?
आइए, robots.txt में खोज इंजन डेटाबेस में वेब साइट जोड़ने के निषेध पर विचार करें। robots.txt फ़ाइल का उपयोग करके, आप इस तरह से एक पृष्ठ या संपूर्ण संसाधन शीर्षक की अनुक्रमणिका को बहिष्कृत कर सकते हैं:
- उपयोगकर्ता-एजेंट:
- अस्वीकार करें: /kolobok.html
- अस्वीकार करें: /foto/
पहला बिंदु कहता है कि निर्देश सभी पीएस के लिए परिभाषित हैं, दूसरा इंगित करता है कि kolobok.html फ़ाइल का अनुक्रमण निषिद्ध है, और तीसरा एक फोटो फ़ोल्डर की संपूर्ण स्टफिंग को जोड़ने की अनुमति नहीं देता है। डेटाबेस। यदि आपको एकाधिक पृष्ठों या फ़ोल्डरों को बाहर करने की आवश्यकता है, तो कृपया उन सभी को रोबोट में निर्दिष्ट करें।
किसी विशेष इंटरनेट शीट के अनुक्रमण को रोकने के लिए, आप रोबोट मेटा टैग का उपयोग कर सकते हैं। यह robots.txt से अलग हैतथ्य यह है कि यह सभी पीएस को एक ही बार में निर्देश देता है। यह मेटा टैग एचटीएमएल प्रारूप के सामान्य सिद्धांतों का पालन करता है। इसे टैग के बीच पृष्ठ के शीर्षक में रखा जाना चाहिए। उदाहरण के लिए, प्रतिबंध के लिए एक प्रविष्टि इस तरह लिखी जा सकती है:.
अजाक्स
यांडेक्स अजाक्स साइटों को कैसे अनुक्रमित करता है? आज, कई वेब साइट डेवलपर्स द्वारा अजाक्स तकनीक का उपयोग किया जाता है। बेशक, उसके पास काफी संभावनाएं हैं। इसके साथ, आप तेज़ और उत्पादक इंटरैक्टिव वेब पेज बना सकते हैं।
हालांकि, सर्च इंजन रोबोट वेब सूची को उपयोगकर्ता और ब्राउज़र से अलग तरीके से "देखता है"। उदाहरण के लिए, एक व्यक्ति चल लोडेड इंटरनेट शीट के साथ एक आरामदायक इंटरफ़ेस को देखता है। क्रॉलर के लिए, उसी पृष्ठ की सामग्री खाली हो सकती है या शेष स्थिर HTML सामग्री के रूप में प्रस्तुत की जा सकती है, जिसके लिए स्क्रिप्ट काम पर नहीं जाती हैं।
Ajax साइट बनाने के लिए आपवाले URL का उपयोग कर सकते हैं, लेकिन खोज इंजन इसका उपयोग नहीं करता है। आमतौर परके बाद URL का हिस्सा अलग हो जाता है। इसे ध्यान में रखा जाना चाहिए। इसलिए, https://site.ru/example जैसे URL के बजाय, वह https://site.ru पर स्थित संसाधन के मुख्य पृष्ठ पर एक आवेदन करता है। इसका मतलब है कि इंटरनेट शीट की सामग्री डेटाबेस में नहीं आ सकती है। परिणामस्वरूप, यह खोज परिणामों में दिखाई नहीं देगा।
Ajax साइटों के अनुक्रमण में सुधार करने के लिए, Yandex ने खोज रोबोट में परिवर्तन और ऐसी वेब साइटों के URL को संसाधित करने के नियमों का समर्थन किया। आज, वेबमास्टर संसाधन संरचना में एक उपयुक्त योजना बनाकर यांडेक्स खोज इंजन को अनुक्रमण की आवश्यकता का संकेत दे सकते हैं। इसके लिए आपको चाहिए:
- पृष्ठों के URL मेंचिह्न बदलेंपर !। अब रोबोट समझ जाएगा कि वह इस इंटरनेट शीट की सामग्री के HTML संस्करण के लिए आवेदन कर सकता है।
- ऐसे पृष्ठ की सामग्री का HTML संस्करण एक ऐसे URL पर रखा जाना चाहिए जहां ! ?_escaped_fragment_=. से बदला गया