हडूप और मॅपरेड्यूस के बीच अंतर
हडूप बनाम मॅपरेड्यूस, हडूप की जड़ें वर्ष 2002 में वापस आ गईं जब आटा कटिंग नच नामक खुला स्त्रोत प्रोजेक्ट पर काम कर रही थी (जिसे वेब पेजों को अनुक्रमणित करने के लिए इस्तेमाल किया गया था और खोज के लिए अनुक्रमित वेब पेजों का उपयोग किया गया था, वही काम जो गूगल करता है)। वह भंडारण और कंप्यूटिंग के मामले में स्केलेबिलिटी मुद्दों का सामना कर रहा था। 2003 में गूगल ने जीएफएस (गूगल फाइल सिस्टम) प्रकाशित किया और 2004 में नच ने एनडीएफएस (नच वितरित फाइल सिस्टम) बनाया। गूगल अपने छँटाई एल्गोरिदम पीछे उनके कम्प्यूटेशनल मस्तिष्क के रूप में मॅपरेड्यूस की घोषणा के बाद, आटा एनडीएफएस पर नच चलाने के लिए सक्षम था और इस्तेमाल किया मॅपरेड्यूस वर्ष 2005 में और वर्ष 2006 हडूप पैदा हुआ था में।
हडूप और मॅपरेड्यूस! हडूप खुला स्त्रोत प्रोजेक्ट्स की इको-सिस्टम है जैसे हडूप कॉमन, हडूप वितरित फाइल सिस्टम (एचडीएफएस), हडूप यार्न, हडूप मॅपरेड्यूस। हडूप इस तरह के विशाल डेटासेट को संग्रहीत करने और प्रसंस्करण के लिए एक खुला स्त्रोत फ्रेमवर्क है। भंडारण एचडीएफएस द्वारा किया जाता है और प्रोसेसिंग को मॅपरेड्यूस द्वारा ख्याल रखा जाता है । दूसरी ओर, मॅपरेड्यूस , एक प्रोग्रामिंग मॉडल है जो आपको हडूप में संग्रहीत विशाल डेटा को संसाधित करने की अनुमति देता है। हम इस पोस्ट में विस्तार से हडूप और मॅपरेड्यूस को समझते हैं।
हडूप बनाम मॅपरेड्यूस (इन्फोग्राफिक्स) के बीच हेड टू हेड तुलना
नीचे हडूप बनाम मॅपरेड्यूस के बीच शीर्ष 5 तुलना है
हडूप बनाम मॅपरेड्यूस के बीच महत्वपूर्ण अंतर
हडूप और मॅपरेड्यूस के बीच अंतर निम्नलिखित है
- अगर हम हडूप और मॅपरेड्यूस को ले लेते हैं तो हम आदमी के नियमों में अंतर करना चाहते हैं, हम कह सकते हैं कि, हडूप कार की तरह है जिसमें आपके पास दूरी की यात्रा करने के लिए आवश्यक सब कुछ है लेकिन मॅपरेड्यूस कार के इंजन की तरह है, इसलिए कार के बिना एक इंजन ‘ टी मौजूद नहीं है लेकिन कार का बाहरी हिस्सा बदल सकता है (अन्य डीएफएस (वितरित फाइल सिस्टम))।
- हडूप के पीछे मूल विचार यह है कि डेटा विश्वसनीय या स्केलेबल होना चाहिए, आपदा या नेटवर्क विफलता के मामले में विश्वसनीय होना चाहिए, डेटा हर समय उपलब्ध होना चाहिए और यह हडूप के ढांचे द्वारा हासिल किया जाना चाहिए नाम नोड्स और डेटा नोड्स का उपयोग ।
- डेटा नोड्स और नाम नोड्स के कुछ बुनियादी विचार
- डेटा नोड और नाम नोड के वास्तु-कला के पीछे मूल विचार मास्टर / गुलाम वास्तु-कला है जहां कोई डेटा (नाम नोड) का स्थान संग्रहीत करता है और दूसरा डेटा स्वयं डेटा (डेटा नोड) संग्रहीत करता है।डेटा 64 एमबी के हिस्सों में विभाजित है और डेटा ब्लॉक में सहेजा गया है और इनकी रजिस्ट्री नाम नोड पर रखी जाती है। विश्वसनीयता को विश्वसनीयता के लिए डिफ़ॉल्ट रूप से तीन बार दोहराया जाता है। स्केलेबिलिटी के बारे में बात करते हुए, हार्डवेयर को चलने पर बढ़ाया जा सकता है और इससे स्टोरेज को बढ़ाने और सिस्टम को स्केलेबल बनाने में मदद मिलती है।
- अब मॅपरेड्यूस में आने के तीन चरण हैं
- नक्शा चरण
- शफल चरण
- चरण कम करें
आइए इसे बेहतर समझने के लिए एक उदाहरण लें। मॅपरेड्यूस एक प्रोग्रामिंग ढांचे के रूप में भी एक हैलो विश्व कार्यक्रम है, लेकिन यह मॅपरेड्यूस में शब्द गणना कार्यक्रम के रूप में जाना जाता है।
शब्द गणना कार्यक्रम हमें शब्द के अनुच्छेद जोड़े और उसकी आवृत्ति को अनुच्छेद / आलेख या किसी भी डेटा स्रोत में देता है। इसे आसानी से समझने में सक्षम होने के लिए नीचे दिए गए उदाहरण डेटा के रूप में नीचे ले जाएं।
डेटासेट में हम देख सकते हैं कि हमारे पास तीन शब्द बस, कार और ट्रेन हैं। इनपुट नामक कॉलम में डेटासेट होता है जैसा हमारे पास डेटासेट में होता है, कॉलम आउटपुट में मध्यवर्ती चरण में डेटा होता है जिसमें शफल हो जाएगा।
यहां हम शब्दों को विभाजित करने के लिए स्प्लिटर को अल्पविराम (,) के रूप में ले रहे हैं। स्प्लिटर अल्पविराम या अंतरिक्ष या एक नई लाइन आदि हो सकता है।
इनपुट | डेटा का सेट | कार, कार, कार, बस, ट्रेन, बस, ट्रेन, बस, ट्रेन, बस, बस, कार, बस, कार, ट्रेन, कार, बस, कार |
उत्पादन | डेटा के दूसरे सेट में कनवर्ट करें
(मौलिक मूल्य) |
(बस, 1), (कार, 1), (बस, 1), (कार, 1), (ट्रेन, 1),
(कार, 1), (बस, 1), (कार, 1), (ट्रेन, 1), (बस, 1), (ट्रेन, 1), (बस, 1), (बीयूएस, 1), (सीएआर, 1), (सीएआर, 1), (कार, 1), (बस, 1), (ट्रेन, 1) |
और उपर्युक्त मध्यवर्ती चरण का उत्पादन रेड्यूसआर को दिया जाता है और नीचे कार्यक्रम का अंतिम आउटपुट होता है।
इनपुट
(मानचित्र समारोह का उत्पादन) |
टुपल्स का सेट | (बस, 1), (कार, 1), (बस, 1), (कार, 1), (ट्रेन, 1),
(कार, 1), (बस, 1), (कार, 1), (ट्रेन, 1), (बस, 1), (ट्रेन, 1), (बस, 1), (बीयूएस, 1), (सीएआर, 1), (सीएआर, 1), (कार, 1), (बस, 1), (ट्रेन, 1) |
उत्पादन | टुपल्स के एक छोटे से सेट में बदल जाता है | (बस, 7),
(सीएआर, 7), (ट्रेन, 4) |
- अन्य बड़े डेटा प्रोसेसिंग फ्रेमवर्क के साथ हडूप के महत्वपूर्ण अंतरों में से एक यह है कि हडूप क्लस्टर को कोड (मॅपरेड्यूस कोड) भेजता है जहां डेटा को डेटा भेजने के बजाए डेटा संग्रहीत किया जाता है, क्योंकि डेटा सेट टीबी में या कभी-कभी पीबी में होता है यह करने के लिए एक कठिन काम होगा।
हडूप बनाम मॅपरेड्यूस तुलना तालिका
तुलना के लिए आधार | हडूप | मानचित्र छोटा करना |
अर्थ |
“हडूप” नाम डौग कटिंग के बेटे के खिलौने हाथी का नाम था।उन्होंने इस परियोजना को “हडूप” के रूप में नामित किया क्योंकि इसे उच्चारण करना आसान था। | मुख्य रूप से मैपिंग और कुंजी-मूल्य जोड़े में कम करने की कार्यक्षमता के अनुसार “मॅपरेड्यूस” नाम अस्तित्व में आया था। |
संकल्पना |
अपाचे हडूप एक पारिस्थिति की तंत्र है जो एक पर्यावरण जो, विश्वसनीय स्केलेबल और वितरित अभिकलन के लिए तैयार है प्रदान करता है। | मॅपरेड्यूस इस प्रोजेक्ट का एक सबमिशन है जो एक प्रोग्रामिंग मॉडल है और इसका उपयोग एचडीएफएस (हडूप वितरित फाइल सिस्टम) पर बैठे विशाल डेटासेट को संसाधित करने के लिए किया जाता है। |
पूर्व आवश्यक वस्तुएँ |
हडूप एचडीएफएस (हडूप वितरित फाइल सिस्टम) लागू करता है | मॅपरेड्यूस पर चला सकते हैं एचडीएफएस / जीएफएस / एनडीएफएस या उदाहरण मॅपआर-एफएस के लिए किसी भी अन्य वितरित फ़ाइल प्रणाली |
भाषा |
हडूप सभी मॉड्यूल का संग्रह है और इसलिए अन्य प्रोग्रामिंग / स्क्रिप्टिंग भाषाओं को भी शामिल किया जा सकता है | मॅपरेड्यूस मूल रूप से जावा प्रोग्रामिंग भाषा में लिखा गया है |
ढांचा |
हडूप में न केवल स्टोरेज फ्रेमवर्क है जो डेटा स्टोर करता है लेकिन नाम नोड और डेटा नोड बनाने में इसके अन्य ढांचे भी होते हैं जिनमें मॅपरेड्यूस स्वयं शामिल होता है। | मॅपरेड्यूस एक प्रोग्रामिंग ढांचा है जो डेटा को सॉर्ट / प्रोसेस करने के लिए एक कुंजी, वैल्यू मैपिंग का उपयोग करता है |
नीचे दिया गया आंकड़ा हडूप से मॅपरेड्यूस को अलग करने में मदद करेगा।
मॅपरेड्यूस फ्रेमवर्क
- जैसा कि हम उपरोक्त तस्वीर से देख सकते हैं कि मॅपरेड्यूस एक वितरित प्रसंस्करण ढांचा है जबकि हडूप सभी ढांचे का संग्रह है।
निष्कर्ष
हडूप खुला स्त्रोत होने के कारण लोकप्रियता प्राप्त हुई क्योंकि यह उपयोग करने के लिए स्वतंत्र था और प्रोग्रामर अपनी जरूरतों के अनुसार कोड बदल सकते हैं। इको-सिस्टम को यथासंभव बग-मुक्त बनाने के लिए पिछले वर्षों में हडूप इको-सिस्टम विकसित किया गया था।
दुनिया की निरंतर बदलती जरूरतों के साथ, प्रौद्योगिकी तेजी से बदलती है और परिवर्तनों का ट्रैक रखना मुश्किल हो जाता है। एक महीने में उत्पन्न होने वाला डेटा दोगुना / तीन गुना हो रहा है क्योंकि आप इस आलेख को पढ़ते हैं और डेटा सेट की तेज़ी से प्रसंस्करण की आवश्यकता के कारण मॅप रेड्यूस 2, स्पार्क इत्यादि जैसे कई अन्य प्रोग्रामिंग ढांचे का कारण बनता है ।
अनुशंसित लेख
यह हडूप बनाम मॅपरेड्यूस, उनके अर्थ, हेड टू हेड कंपेरिजन, की डिफरेंसेस, कंपेरिजन टेबल और निष्कर्ष के लिए एक गाइड रहा है। अधिक जानने के लिए आप निम्नलिखित लेख भी देख सकते हैं –