Menu

Robots.txt:- क्या है , काम और सेटिंग

Robots.txt:- क्या है , काम और सेटिंग

Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे। 

Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे।

Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे। 



नमस्कार 

   आपका स्वागत है हमारे ब्लॉग kuchmilgya.com पर आज हम आपको बताने जा रहे है, Robots.txt क्या है ? Robots.txt कैसे काम करता है , और Robots.txt की सेटिंग कैसे करे।  जब भी हम ब्लॉगिंग या वेबसाइट निर्मल कार्य शुरू करते है तो हमारे लिए सबसे जरूरी है की हमारी साइट सर्च इंजन में जरूर दिखे और उसमे ये Robots.txt महत्वपूर्ण भूमिका अदा करता है , अगर Robots.txt में कोई गड़बड़ हो तो आपको गूगल सर्च कंसोल पर आपका पेज/पोस्ट  सही से index  नहीं हो पाएगी मतलब सर्च में कही पर भी नजर नहीं आएगी।  कई ब्लॉगर क्या करते है की ये नहीं पता करते Robots.txt है क्या ? बस गूगल बाबा की मदद लेके किसी और की सेटिंग अपने पेज पर चिपका देते है जिस से उनके ब्लॉग /वेबसाइट में बहुत सारे क्रॉलिंग इशू   आ जाता है। तो आईये Robots.txt की पूरी जानकारी हमारे इस आर्टिकल के जरिये लीजिये और बनाये अपने हिसाब से अपने ब्लॉग/वेबसाइट के लिए Robots.txt तो आईये शुरू करते है। 


Robots.txt क्या  है?


Robots.txt वेब पर रोबोट (आमतौर पर खोज इंजन रोबोट) को निर्देश देने के लिए बनाई गई एक टेक्स्ट फ़ाइल  है जो अपनी वेबसाइट पर Pages  को क्रॉल करने के लिए है। Robots.txt फ़ाइल वेब अपवर्जन प्रोटोकॉल (robots exclusion protocol) (REP) का एक हिस्सा है, Robots.txt  यह नियंत्रित करता है कि रोबोट वेब, एक्सेस और इंडेक्स सामग्री को कैसे क्रॉल करते हैं, और उपयोगकर्ताओं को वह सामग्री प्रदान करते हैं। हुह। robots exclusion protocol में मेटा रोबोट के साथ-साथ पेज-, सब-डिक्लेयर- या साइट-वाइड निर्देश भी शामिल हैं कि कैसे खोज इंजन को लिंक का इलाज करना चाहिए (जैसे "follow" करें" या "nofollow")।

व्यवहार में, robots.txt फाइलें यह निर्धारित करती हैं कि क्या कुछ उपयोगकर्ता एजेंट (वेब-क्रॉलिंग सॉफ़्टवेयर) किसी वेबसाइट के कुछ हिस्सों को क्रॉल कर सकते हैं। ये क्रॉल निर्देश "अनुमति न दे " या "अनुमति" द्वारा कुछ (या सभी) उपयोगकर्ता एजेंटों के व्यवहार को निर्दिष्ट करते हैं।


आपको robots.txt की आवश्यकता क्यों है?


Robots.txt फाइलें आपकी साइट के कुछ क्षेत्रों में क्रॉलर पहुंच को नियंत्रित करती हैं। हालांकि यह बहुत खतरनाक हो सकता है यदि आप Googlebot को गलती से अपनी पूरी साइट (!) को क्रॉल करने से रोक देते हैं, तो कुछ स्थितियाँ हैं जिनमें robots.txt फ़ाइल बहुत काम की हो सकती है।

कुछ सामान्य उपयोग के मामलों में शामिल हैं:

SERPs में दिखने वाली डुप्लिकेट सामग्री को रोकना (ध्यान दें कि मेटा रोबोट अक्सर इसके लिए एक बेहतर विकल्प होता है)
किसी वेबसाइट के संपूर्ण खंडों को निजी रखना (उदाहरण के लिए, आपकी इंजीनियरिंग टीम का मंचन)
आंतरिक खोज परिणाम पृष्ठों को सार्वजनिक SERP पर दिखाने से रोकना
साइटमैप का स्थान निर्दिष्ट करना
खोज इंजन को आपकी वेबसाइट पर कुछ फ़ाइलों को अनुक्रमित करने से रोकना (चित्र, PDF, आदि)

अपने सर्व को रोकने के लिए क्रॉल विलंब निर्दिष्ट करना


Kuch Mil Gya, पर आप पढ़ रहे है :Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे। 

Robots.txt का मूल प्रारूप:

Basic format of robots.txt:


User-agent: [user-agent name]Disallow: [URL string not to be crawled]
एक साथ, इन दो पंक्तियों को एक पूर्ण robots.txt फ़ाइल माना जाता है - हालांकि एक रोबोट फ़ाइल में उपयोगकर्ता एजेंटों और निर्देशों की कई पंक्तियाँ हो सकती हैं (यानी, अनुमति(allow), क्रॉल-देरी(crawl-delay), आदि)।

Robots.txt फ़ाइल के भीतर, उपयोगकर्ता-एजेंट के निर्देशों का प्रत्येक सेट एक असतत सेट के रूप में दिखाई देता है, जिसे लाइन ब्रेक द्वारा अलग किया जाता है:

कई उपयोगकर्ता-एजेंट निर्देशों के साथ एक robots.txt फ़ाइल में, प्रत्येक अस्वीकृत या नियम केवल उस विशेष लाइन ब्रेक-पृथक सेट में निर्दिष्ट उपयोगकर्ता (ओं) पर लागू होता है। यदि फ़ाइल में एक नियम है जो एक से अधिक उपयोगकर्ता-एजेंट पर लागू होता है, तो एक क्रॉलर निर्देशों के सबसे विशिष्ट समूह पर केवल (और निर्देशों का पालन करेगा) पर ध्यान देगा।


ये भी जरूर देखें :-





Robots.txt की सेटिंग (रचना )


Robots.txt setting (creation)




Robots.txt सेटिंग (रचना ) को robots.txt फ़ाइलों की "भाषा" माना जा सकता है। पांच सामान्य शब्द हैं जिनकी संभावना है कि आप एक रोबोट फ़ाइल में आते हैं। उनमे शामिल है: और ये जिस तरतीब में लिखे है अपनी Robots.txt फाइल की रचना के समय उसी तरतीब में लिखने है।  जैसे की नंबर एक पर है User-agent:



1 .  User-agent: वह विशिष्ट वेब क्रॉलर जिसे आप क्रॉल निर्देश (आमतौर पर एक खोज जन) दे रहे हैं। अधिकांश उपयोगकर्ता एजेंटों की एक सूची यहां पाई जा सकती है।

2.  Disallow: कमांड एक यूजर-एजेंट को किसी विशेष URL को क्रॉल नहीं करने के लिए कहता था। प्रत्येक URL के लिए केवल एक "अस्वीकृत:" लाइन की अनुमति है।
3. Allow (केवल Googlebot के लिए लागू): Googlebot को यह बताने का आदेश कि वह किसी पृष्ठ या सबफ़ोल्डर तक पहुँच सकता है, भले ही उसका मूल पृष्ठ या सबफ़ोल्डर अस्वीकृत हो सकता है।

4. Crawl-Delay: पृष्ठ सामग्री लोड करने और क्रॉल करने से पहले कितने सेकंड तक क्रॉलर का इंतजार करना चाहिए। ध्यान दें कि Googlebot इस आदेश को स्वीकार नहीं करता है, लेकिन क्रॉल दर Google खोज कंसोल में सेट की जा सकती है।

Sitemap: इस URL से संबद्ध किसी भी XML साइटमैप (s) के स्थान को कॉल करने के लिए उपयोग किया जाता है। ध्यान दें कि यह कमांड केवल Google, आस्क, बिंग और याहू द्वारा समर्थित है। और अगर आपको साइट मैप चेक करना है तो अपने साइट के नाम के आगे /sitemap.xml लिख के चेक कर सकते है।


Kuch Mil Gya, पर आप पढ़ रहे है :Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे। 

कैसे Robots.txt फ़ाइल बनाएँhow to Create a Robots.txt file


 साइट www.example.com के लिए, robots.txt फ़ाइल www.example.com/robots.txt पर रहती है। robots.txt आसान सी टेक्स्ट फाइल है जो की आप खुद टाइप करके भी बना सकते है।  जो आपकी ब्लॉग/वेबपेज के बिलकुल अनुरूप हो। ये आप के ऊपर निर्भर करता है आप ने  Robots Exclusion Standard. (RIP ) को क्या दिशा निर्देश देना चाहते है जैसे की कौन से पेज/पोस्ट को अनुमति देनी है और किस किस को सर्च इंजन से बहार करना है। ये दिशा निर्देश एक भी हो सकता है और अनेक भी 

एक सादा पाठ फ़ाइल है जो रोबोट बहिष्करण मानक का अनुसरण करती है। Robots.txt फ़ाइल में एक या अधिक नियम होते हैं। उस वेबसाइट में निर्दिष्ट फ़ाइल पथ पर दिए गए क्रॉलर के लिए प्रत्येक नियम ब्लॉक (या अनुमति देता है) का उपयोग करता है। सबकुछ ऊपर से गया क्या या समझ आया  समझते है इसको। 

यहाँ दो नियमों के साथ एक सरल robots.txt फ़ाइल दी गई है, जिसे नीचे समझाया गया है:


# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /


Sitemap: http://www.example.com/sitemap.xml



स्पष्टीकरण:

the explanation:


Group 1:-  User-agent: Googlebot नाम के क्रॉल एजेंट को http://example.com/nogooglebot/  नाम के किसी भी पेज लिंक को  क्रॉल नहीं करना चाहिए। 
Group 2 :- अन्य सभी उपयोगकर्ता एजेंट पूरी साइट तक पहुंच सकते हैं। (यह छोड़ा जा सकता था और परिणाम समान होगा, क्योंकि पूर्ण पहुंच धारणा है।)
तो यहाँ पे हमारे आगे सवाल ये आता है की हम अपने वेब पेज के लिए ROBOT.TXT फाइल कैसे बनाये. 



User-agent: *
Disallow: /search
Allow: /




ये एक छोटा मगर बढ़िया एक्संपले example है इसमें User-agent: के आगे सिर्फ एक * का निशान है मतलब  जिसका मतलब है हमारे ब्लॉग./वेबसाइट से जानकारी निकलने वाले सभी रोबोट्स  सब पर ये RULE लागु होता है अगर इसकी जगह पे आप गूगलेबोट या किसी और सर्च इंजन को रोकना चाहते है तो उस का नाम लिख दे  तो ये RULE सिर्फ उसी पे लागु होगा। 
 आगे हमने Disallow: /search किया है जिसका मतलब है ब्लॉग या वेबपेज पर जितनी भी सामग्री SEARCH के आगे है उसको देखने का किसी को परमिशन नहीं है।  जैसे की 
www.example.com/search/Label/ या फिर कुछ और पर ये कमांड किसी को भी search tab  से आगे देखने की इज्जाजत नहीं देगी। 
और आप इसको भी अपने ब्लॉग में सेट कर सकते है ये यूनिवर्सल कमांड है जो सब  सेट हो जाती है  

User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.yoursitename .com/sitemap.xml 


या फिर आप निचे दिए लिंक पर क्लिक करके ऑनलाइन भी robots.txt फाइल बना सकते है।  



XML Sitemap for blogger



ऊपर दिए लिंक पर क्लिक कीजिये अपनी साइट का ब्लॉग/वेबपेज का अड्रेस डालिये genrate करे बस हो गया सरे कोड को कॉपी करे।  अपने ब्लॉग पे जाकर robot.txt में पेस्ट करदे बस हो गया।  आपका robot.txt ready 


हम उमीद करते है कि  "Robots.txt:- क्या है , कैसे काम करता है , कैसे सेटिंग करे।  ,  "आर्टिकल में आपके सभी सवालों के जवाब मिल गए होगें तो अगर आपकों हमारा यह आर्टिकल पसंद आता हैं और आपकों इसे मदत मिलती हैं तो इसे अपने दोस्तों के साथ जरूर Share करें और अगर आपका कोई सवाल या जवाब इस आर्टिकल में नही मिलता है तो आप हमने कमेंट बॉक्स के माध्यम से पूछ सकते है हम जल्द से जल्द आपके सवालों का जवाब देने का प्रयास करेगें।

Ads middle content1

Ads middle content2