खोज इंजन के सिद्धांत। इंटरनेट सर्च इंजन

विषयसूची:

खोज इंजन के सिद्धांत। इंटरनेट सर्च इंजन
खोज इंजन के सिद्धांत। इंटरनेट सर्च इंजन
Anonim

इंटरनेट पर, विभिन्न साइटों पर, उपयोगकर्ता को बड़ी मात्रा में विभिन्न जानकारी की पेशकश की जाती है। आवश्यक जानकारी प्राप्त करने, प्रश्नों के उत्तर खोजने के लिए खोज इंजन बनाए गए हैं। इस मुहावरे को सुनकर बहुत से लोग Google, Yandex के बारे में सोचते हैं। हालाँकि, इंटरनेट पर और भी कई सर्च इंजन हैं।

खोज इंजन क्या है

एक सर्च इंजन को सॉफ्टवेयर माना जाता है जिसमें दस्तावेजों का एक डेटाबेस होता है। उपयोगकर्ताओं को एक विशेष इंटरफ़ेस प्रदान किया जाता है जो उन्हें आवश्यक प्रश्नों को दर्ज करने और प्रासंगिक जानकारी के साथ लिंक प्राप्त करने की अनुमति देता है। किसी विशेष व्यक्ति द्वारा खोजी जा रही सामग्री से सबसे अधिक मेल खाने वाले दस्तावेज़ हमेशा खोज परिणामों में सबसे ऊपर होते हैं।

खोज परिणाम, जो दर्ज की गई क्वेरी के अनुसार उत्पन्न होते हैं, आमतौर पर विभिन्न प्रकार के परिणाम होते हैं। इसमें वेब पेज, वीडियो और ऑडियो फाइलें, चित्र, पीडीएफ फाइलें, विशिष्ट उत्पाद शामिल हो सकते हैं (यदि खोज किसी ऑनलाइन स्टोर में की जाती है)।

दुनिया में सर्च इंजन रैंकिंग
दुनिया में सर्च इंजन रैंकिंग

खोज इंजनों का वर्गीकरण

मौजूदा सर्च इंजन को कई प्रकारों में वर्गीकृत किया गया है। सबसे पहले, यह पारंपरिक खोज इंजनों का उल्लेख करने योग्य है। ऐसे खोज इंजनों के लिए, काम के सिद्धांत बड़ी संख्या में मौजूदा साइटों पर जानकारी खोजने पर केंद्रित हैं। खोज इंजन अभी भी अलग इंटरनेट संसाधनों पर उपलब्ध हैं:

  • ऑनलाइन स्टोर में (सही उत्पादों की खोज के लिए);
  • मंचों और ब्लॉगों पर (पोस्ट खोजने के लिए);
  • सूचना साइटों पर (वांछित विषय या समाचार पर लेख खोजने के लिए), आदि।

खोज इंजनों को भी भौगोलिक विशेषताओं के आधार पर उप-विभाजित किया जाता है। इस वर्गीकरण में, खोज इंजनों के 3 समूह हैं:

  1. वैश्विक। खोज पूरी दुनिया में की जाती है। इस ग्रुप में लीडर गूगल सर्च इंजन है। पहले, Inktomi, AltaVista आदि जैसे सर्च इंजन थे।
  2. क्षेत्रीय। खोज देश या देशों के समूह द्वारा की जाती है, जो एक भाषा से एकजुट होते हैं। क्षेत्रीय खोज इंजन व्यापक हैं। रूस में उनका उदाहरण यांडेक्स, रैम्बलर है।
  3. स्थानीय। खोज एक विशिष्ट शहर में की जाती है। ऐसे खोज इंजन का एक उदाहरण है Tomsk.ru.

खोज इंजन के अवयव

किसी भी सर्च इंजन में 3 घटक होते हैं जो सर्च इंजन के सिद्धांतों को निर्धारित करते हैं:

  • रोबोट (इंडेक्सर, स्पाइडर, क्रॉलर);
  • डेटाबेस;
  • अनुरोध हैंडलर।

रोबोट एक विशेष प्रोग्राम है जिसका उद्देश्य डेटाबेस बनाना है। डेटाबेस स्टोर और सॉर्ट करता हैसभी जानकारी एकत्र की। अनुरोध हैंडलर, जिसे क्लाइंट भी कहा जाता है, उपयोगकर्ता अनुरोधों के साथ काम करता है। इसकी डेटाबेस तक पहुंच है। क्लाइंट हमेशा एक ही कंप्यूटर पर स्थित नहीं होता है। अनुरोध हैंडलर कई शारीरिक रूप से असंबंधित इलेक्ट्रॉनिक कंप्यूटरों में फैलाया जा सकता है।

सर्च इंजन का काम
सर्च इंजन का काम

खोज इंजन के सिद्धांत

सभी मौजूदा सिस्टम एक ही सिद्धांत पर काम करते हैं। उदाहरण के लिए, इंटरनेट के लिए डिज़ाइन किए गए पारंपरिक खोज इंजनों की कार्यप्रणाली पर विचार करें। रोबोट की कार्यप्रणाली सामान्य उपयोगकर्ता के कार्यों के समान है। यह प्रोग्राम समय-समय पर सभी साइटों को बायपास करता है, डेटाबेस में नए पेज और इंटरनेट संसाधन जोड़ता है। इस प्रक्रिया को अनुक्रमण कहा जाता है।

जब इंटरनेट पर कोई उपयोगकर्ता खोज बॉक्स में एक निश्चित क्वेरी दर्ज करता है, तो क्लाइंट काम करना शुरू कर देता है। कार्यक्रम मौजूदा डेटाबेस तक पहुँचता है और खोजशब्दों के आधार पर परिणाम उत्पन्न करता है। सर्च इंजन यूजर को एक निश्चित क्रम में लिंक प्रदान करता है। जैसे ही वे क्वेरी से मेल खाते हैं, उन्हें क्रमबद्ध किया जाता है, यानी प्रासंगिकता को ध्यान में रखा जाता है।

प्रत्येक खोज इंजन की प्रासंगिकता निर्धारित करने का अपना तरीका होता है। यदि उपयोगकर्ता विभिन्न प्रणालियों के लिए एक विशिष्ट अनुरोध भेजता है, तो उसे बिल्कुल समान परिणाम प्राप्त नहीं होंगे। प्रासंगिकता निर्धारित करने के लिए एल्गोरिथम को गुप्त रखा जाता है।

रूस में लोकप्रिय खोज इंजन
रूस में लोकप्रिय खोज इंजन

प्रासंगिक विवरण

सरल शब्दों में, प्रासंगिकता खोज में दर्ज किए गए शब्द या शब्दों के संयोजन का मेल हैSERP में विशिष्ट लिंक। कई बारीकियां सूची में दस्तावेजों की स्थिति को प्रभावित करती हैं:

  1. दस्तावेजों में खोज शब्दों की उपस्थिति। यह बारीकियां स्पष्ट हैं। यदि दस्तावेज़ में उपयोगकर्ता द्वारा दर्ज की गई क्वेरी के शब्द हैं, तो इसका मतलब है कि यह दस्तावेज़ खोज शर्तों से मेल खाता है।
  2. शब्दों के आने की आवृत्ति। किसी दस्तावेज़ में जितनी बार कीवर्ड का उपयोग किया जाएगा, वह SERP सूची में उतना ही अधिक होगा। हालांकि, सब इतना आसान नहीं है। शब्दों का बहुत अधिक उपयोग खोज इंजन के लिए निम्न-गुणवत्ता वाली सामग्री का संकेत हो सकता है।

प्रासंगिकता निर्धारित करने के लिए एल्गोरिथ्म बल्कि जटिल है। कुछ साल पहले, आवश्यक कीवर्ड वाले लिंक, लेकिन सामग्री में उनके अनुरूप नहीं थे, खोज परिणामों में शामिल हो सकते थे। वर्तमान में, खोज इंजन के संचालन के सिद्धांत जटिल हैं। अब रोबोट पूरे टेक्स्ट का विश्लेषण कर सकते हैं। खोज इंजन विभिन्न कारकों की एक बड़ी संख्या को ध्यान में रखते हैं। इसके लिए धन्यवाद, मुद्दा उच्चतम गुणवत्ता, प्रासंगिक लिंक से बनता है।

अनुरोधों को सही तरीके से कैसे तैयार करें

स्कूल में भी हमें सही तरीके से सवाल पूछना सिखाया जाता था। यह इस बात पर निर्भर करता है कि हमें किस प्रकार के उत्तर प्राप्त होंगे। हालाँकि, खोज इंजन का उपयोग करते समय इस नियम का पालन करने की आवश्यकता नहीं है। आधुनिक खोज इंजनों के लिए, कोई फर्क नहीं पड़ता कि कोई व्यक्ति अपना अनुरोध किस संख्या या मामले में लिखता है। किसी भी तरह से, आउटपुट में वही परिणाम शामिल होंगे।

खोज इंजन को प्रश्न के स्पष्ट शब्दों की आवश्यकता नहीं है। उपयोगकर्ता को केवल सही कीवर्ड चुनने की आवश्यकता है। एक उदाहरण पर विचार करें। हमें खोजने की जरूरत है"ए डे विदाउट यू" गीत का पाठ, जो प्रसिद्ध महिला पॉप समूह "वाया-ग्रा" द्वारा किया जाता है। किसी खोज इंजन से संपर्क करते समय, समूह का नाम देना आवश्यक नहीं है, इंगित करें कि यह एक गीत है। यह "आपके बिना एक दिन" लिखने के लिए पर्याप्त है। मामला रखें, विराम चिह्न की आवश्यकता नहीं है। इन बारीकियों को खोज इंजन द्वारा ध्यान में नहीं रखा जाता है।

प्रश्नों का सही शब्दांकन
प्रश्नों का सही शब्दांकन

दुनिया में सर्च इंजन की रैंकिंग

दुनिया का प्रमुख सर्च इंजन गूगल है। इसकी स्थापना 1998 में हुई थी। प्रणाली बहुत लोकप्रिय है, जिसकी पुष्टि विश्लेषणात्मक जानकारी से होती है। इंटरनेट पर आने वाले लगभग 70% अनुरोधों को Google द्वारा नियंत्रित किया जाता है। सर्च इंजन डेटाबेस बहुत बड़ा है। 60 ट्रिलियन से अधिक विभिन्न दस्तावेजों को अनुक्रमित किया गया है। Google सरल इंटरफ़ेस के साथ उपयोगकर्ताओं को आकर्षित करता है। मुख्य पृष्ठ में एक लोगो और एक खोज बार है। यह सुविधा हमें Google को सबसे न्यूनतर खोज इंजनों में से एक कहने की अनुमति देती है।

बिंग दूसरा सबसे लोकप्रिय सर्च इंजन है। यह उसी वर्ष Google के रूप में दिखाई दिया। इस सर्च इंजन के निर्माता प्रसिद्ध अंतरराष्ट्रीय निगम माइक्रोसॉफ्ट हैं। रैंकिंग में निचले स्थान पर Baidu, Yahoo!, AOL, Excite, Ask. का कब्जा है।

खोज इंजन सिद्धांत
खोज इंजन सिद्धांत

रूस में क्या लोकप्रिय है

यांडेक्स रूस में सबसे लोकप्रिय सर्च इंजन है। यह सेवा 1997 में दिखाई दी। सबसे पहले, रूसी कंपनी कॉम्पटेक इंटरनेशनल इसमें लगी हुई थी। थोड़ी देर बाद, यांडेक्स कंपनी दिखाई दी, जो एक खोज इंजन में संलग्न रही। के लिए खोज इंजनअस्तित्व के वर्षों ने अपार लोकप्रियता हासिल की है। इसे कई भाषाओं में खोजा जा सकता है - रूसी, बेलारूसी, यूक्रेनियाई, तातार, कज़ाख, अंग्रेज़ी, जर्मन, फ़्रेंच, तुर्की।

सांख्यिकीय आंकड़ों से यह ज्ञात होता है कि "यांडेक्स" 50% से अधिक रनेट उपयोगकर्ताओं के लिए रुचिकर है। 40% से अधिक लोग Google को पसंद करते हैं। लगभग 3% उपयोगकर्ताओं ने रूसी भाषा के इंटरनेट पोर्टल Mail.ru को चुना।

गूगल सर्च इंजन
गूगल सर्च इंजन

संरक्षित खोज इंजन

सामान्य खोज इंजन जो हमसे परिचित हैं वे बच्चों के लिए बिल्कुल उपयुक्त नहीं हैं। युवा इंटरनेट उपयोगकर्ताओं को गलती से वयस्कों के लिए कुछ सामग्री मिल सकती है, ऐसी जानकारी जो मानस को नुकसान पहुंचा सकती है। इस कारण से, विशेष सुरक्षित खोज इंजन बनाए गए हैं। उनके डेटाबेस में बच्चों के लिए केवल सुरक्षित सामग्री है।

ऐसे ही एक सर्च इंजन का उदाहरण है स्पुतनिक।बच्चे। यह सेवा काफी युवा है। इसे रोस्टेलकॉम ने 2014 में बनाया था। खोज इंजन का मुख्य पृष्ठ उज्ज्वल और रोचक ढंग से डिज़ाइन किया गया है। यह विभिन्न उम्र के बच्चों के लिए घरेलू और विदेशी कार्टून की एक विस्तृत श्रृंखला प्रस्तुत करता है। इसके अतिरिक्त, मुख्य पृष्ठ पर कई शीर्षकों से संबंधित सूचनात्मक लिंक हैं - "खेल", "मैं सब कुछ जानना चाहता हूं", "इसे स्वयं करें", "खेल", "प्रौद्योगिकी", "विद्यालय", "प्रकृति"।

बच्चों के सुरक्षित खोज इंजन का एक और उदाहरण है Agakids.ru। यह बिल्कुल सुरक्षित संसाधन है। सर्च इंजन कैसे काम करता है? रोबोट को इस तरह से कॉन्फ़िगर किया गया है कि यह केवल उन साइटों को बायपास करता है जो बच्चों के विषयों से संबंधित हैं यामाता-पिता के लिए सहायक हैं। सर्च इंजन के डेटाबेस में कार्टून, किताबें, शैक्षिक साहित्य, खेल, रंग भरने वाली किताबें शामिल हैं। माता-पिता, Agakids.ru का उपयोग करके, बच्चों के पालन-पोषण और स्वास्थ्य पर अपने लिए साइटें खोज सकते हैं।

बच्चों के लिए संरक्षित खोज इंजन
बच्चों के लिए संरक्षित खोज इंजन

निष्कर्ष में, यह ध्यान देने योग्य है कि सर्च इंजन जटिल सिस्टम हैं। उन्हें बहुत सारी समस्याओं का सामना करना पड़ता है - स्पैम की समस्या, दस्तावेजों की प्रासंगिकता का निर्धारण, निम्न-गुणवत्ता वाली सामग्री की जांच करना, उन दस्तावेजों का विश्लेषण करना जिनमें पाठ्य जानकारी नहीं है। इस कारण से, डेवलपर्स नए दृष्टिकोण और एल्गोरिदम पेश कर रहे हैं जो इंटरनेट सर्च इंजन के काम में व्यापार रहस्य हैं।

सिफारिश की: