स्पार्क एसक्यूएल और प्रेस्टो के बीच मतभेद
सरल शब्दों में प्रेस्टो ‘ एसक्यूएल क्वेरी इंजन’ है, जिसे शुरू में अपाचे हडूप के लिए विकसित किया गया था । यह एक ओपन सोर्स वितरित एसक्यूएल क्वेरी इंजन है जो सभी आकारों के डेटा सेट के खिलाफ इंटरैक्टिव विश्लेषणात्मक प्रश्नों को चलाने के लिए डिज़ाइन किया गया है।
स्पार्क एसक्यूएल एक वितरित इन-मेमोरी गणना इंजन है जिसमें संरचित और अर्द्ध-संरचित डेटा सेट के शीर्ष पर एक एसक्यूएल परत है। इसकी इन-मेमोरी प्रोसेसिंग के बाद से स्पार्क एसक्यूएल में प्रोसेसिंग तेज होगी।
स्पार्क एसक्यूएल बनाम प्रेस्टो (इन्फोग्राफिक्स) के बीच हेड टू हेड तुलना
स्पार्क एसक्यूएल बनाम प्रेस्टो के बीच शीर्ष 7 तुलना नीचे दी गई है
स्पार्क एसक्यूएल बनाम प्रेस्टो के बीच महत्वपूर्ण अंतर
प्रेस्टो और स्पार्क एसक्यूएल के बीच महत्वपूर्ण अंतर के बारे में सूची नीचे दी गई है
- अपाचे स्पार्क स्पार्क एसक्यूएल नामक संरचित डेटा को प्रोसेस करने के लिए एक प्रोग्रामिंग मॉड्यूल पेश करता है। स्पार्क एसक्यूएल में डेटा फ्रेम नामक एन्कोडिंग अबास्ट्रक्शन शामिल है जो वितरित एसक्यूएल क्वेरी इंजन के रूप में कार्य कर सकता है।
- प्रेस्टो की शुरुआत के पीछे का उद्देश्य व्यापारडेटा गोदामों की गति के लिए इंटरैक्टिव एनालिटिक्स और दृष्टिकोण को सक्षम करना था, जिसमें फेसबुक से जुड़े संगठनों के आकार को मापन करने की शक्ति थी।
- जबकि स्पार्क एसक्यूएल स्पार्क कोर के शीर्ष पर एक घटक है जो स्कीमाआरडीडी (लचीला वितरित डेटासेट) नामक एक नया डेटा अबास्ट्रक्शन पेश करता है, यह संरचित / अर्ध-संरचित डेटा के लिए समर्थन प्रदान करता है।
- प्रेस्टो को ऐसे टूल के विकल्प के रूप में डिज़ाइन किया गया था जो एचडीएफएस डेटा को मैपरेडस नौकरियों जैसे हाइव या पिग का उपयोग करते हुए पूछताछ करते हैं , लेकिन प्रेस्टो एचडीएफएस तक ही सीमित नहीं है।
- स्पार्क एसक्यूएल इन-मेमोरी प्रसंस्करण का पालन करता है, जो प्रोसेसिंग की गति को बढ़ाता है।स्पार्क को बैच क्वेरी, पुनरावृत्त एल्गोरिदम , इंटरैक्टिव क्वेरीज, स्ट्रीमिंग इत्यादि जैसे वर्कलोड की विस्तृत श्रृंखला को संसाधित करने के लिए डिज़ाइन किया गया है ।
- प्रेस्टो संघीय प्रश्नों को निष्पादित करने में सक्षम है।नीचे प्रेस्टो फेडरेटेड क्वेरीज़ का उदाहरण है
आइए टेबल नमूना 1 के साथ किसी भी आरडीबीएमएस मान लें
और टेबल नमूना 2 के साथ एचआइवीई,
‘टेस्टडीबी’ दोनों हाइव और माइएसक्यूएल में डेटाबेस है । प्रेस्टो का उपयोग करके हम एक ही क्वेरी में डेटा का मूल्यांकन कर सकते हैं जब उनके कनेक्टर सही तरीके से कॉन्फ़िगर किए गए हैं-
presto> <Function (select/Group by ..etc)> hive.Testdb.sample2
फ़ंक्शन (..etc द्वारा चुनें / समूह)> mysql.Testdb.sample1
- स्पार्क एसक्यूएल आर्किटेक्चर में स्पार्क एसक्यूएल, स्कीमा आरडीडी और डेटा फ्रेम शामिल हैं
- डेटा फ्रेम डेटा का संग्रह है; डेटा नामित कॉलम में व्यवस्थित किया गया है।तकनीकी रूप से, यह डेटाबेस डेटाबेस के संबंध में समान है।
- स्कीमा आरडीडी: स्पार्क कोर में आरडीडी नामक विशेष डेटा संरचना होती है।स्पार्क एसक्यूएल स्कीमा, टेबल और रिकॉर्ड्स पर काम करता है। इसलिए, उपयोगकर्ता स्कीमा आरडीडी को अस्थायी तालिका के रूप में उपयोग कर सकता है। ताकि उपयोगकर्ता इस स्कीमा आरडीडी को डेटा फ्रेम के रूप में कॉल कर सके
- डेटा फ्रेम क्षमताओं: डेटा फ्रेम एक नोड क्लस्टर पर कई नोड क्लस्टर पर किलोबाइट्स के आकार में पेटबाइट्स के आकार में डेटा को संसाधित करता है,
- डेटा फ्रेम विभिन्न डेटा प्रारूपों (सीएसवी, लोचदार खोज, कैसंद्रा इत्यादि) और स्टोरेज सिस्टम (एचडीएफएस, हाइव टेबल, माइएसक्यूएल, आदि) का समर्थन करता है, इसे स्पार्क-कोर के माध्यम से सभी बिग डेटा टूल्स / फ्रेमवर्क के साथ एकीकृत किया जा सकता है और भाषाओं के लिए एपीआई प्रदान करता है जैसे कि पायथन , जावा , स्कैला , और आर प्रोग्रामिंग ।
- जबकि प्रेस्टो एक वितरित इंजन है, क्लस्टर सेटअप पर काम करता है।प्रेस्टो आर्किटेक्चर समझने और एक्स्टेंसिबल के लिए आसान है। प्रेस्टो क्लाइंट (सीएलआई) एसक्यूएल स्टेटमेंट्स को मास्टर डिमन समन्वयक को प्रस्तुत करता है जो प्रसंस्करण का प्रबंधन करता है।
- प्रेस्टो का उपयोग करने वाली कंपनियां: फेसबुक, नेटफ्लिक्स, एयरबैंड, ड्रॉपबॉक्स इत्यादि।
- अपाचे स्पार्क उपयोग मामले वित्त, खुदरा, हेल्थकेयर और यात्रा आदि जैसे उद्योगों में पाए जा सकते हैं। ई बाय, अलीबाबा, पिनट्रेस्ट जैसी कई ई-कॉमर्स वेबसाइटें स्पार्क एसक्यूएल का उपयोग अपने ई-कॉमर्स मंच पर डेटा के सैकड़ों पेटबाइट्स का विश्लेषण करने के लिए कर रही हैं।
तुलना तालिका स्पार्क एसक्यूएल बनाम प्रेस्टो
हाथ की सफ़ाई | स्पार्क एसक्यूएल | |
इको–सिस्टम / प्लेटफॉर्म | हडूप, बिग डेटा प्रोसेसिंग इत्यादि | स्पार्क फ्रेमवर्क, बिग डेटा प्रोसेसिंग इत्यादि |
उद्देश्य | प्रेस्टो को बिग डेटा (विशाल वर्कलोड) पर एसक्यूएल क्वेरी चलाने के लिए डिज़ाइन किया गया है।
यह फेसबुक द्वारा उनके विशाल वर्कलोड को संसाधित करने के लिए डिज़ाइन किया गया था .. |
स्पार्क एसक्यूएल अपाचे स्पार्क कोर के घटकों में से एक है।
स्पार्क कोर स्पार्क मंच के लिए मौलिक निष्पादन इंजन है |
सेट अप | · प्रेस्टो डेटा के पालतू बाइट्स को प्रोसेस करने के लिए एक वितरित एसक्यूएल क्वेरी इंजन है और यह मशीनों के सेट के साथ स्थापित क्लस्टर पर चलता है।
· एक पूर्ण प्रेस्टो क्लस्टर सेटअप में एक समन्वयक (प्रबंधक नोड) और एकाधिक कर्मचारी शामिल हैं। उपयोगकर्ता क्लाइंट से प्रश्न सबमिट करता है जो प्रेस्टिनेटर को प्रेस्टो सीएलआई है। समन्वयक क्वेरी निष्पादन का विश्लेषण, विश्लेषण और योजना बनाते हैं और फिर यह कार्य प्रसंस्करण को श्रमिकों को वितरित करेगा। |
· यदि आप अपाचे स्पार्क क्लस्टर को स्थापित और कॉन्फ़िगर करते हैं तो स्पार्क एसक्यूएल सेटअप बॉक्स से बाहर होगा
· अपाचे स्पार्क हडूप की उप-परियोजना है। · अपाचे स्पार्क एक क्लस्टर आधारित बिग डाटा प्रोसेसिंग टेक्नोलॉजी है, जो तेजी से गणना के लिए डिज़ाइन किया गया है। |
क्षमताओं / सुविधाएँ | प्रेस्टो कई डेटा स्रोतों पर डेटा पूछताछ की अनुमति देता है;उदाहरण के लिए, डेटा डेटा स्टोर्स में रह सकता है: हाइव, कैसंद्रा, आरडीबीएमएस, और कुछ अन्य मालिकाना डेटा स्टोर। | स्पार्क एसक्यूएल डेटा फ्रेम और जेडीबीसी कनेक्टर का उपयोग कर अन्य डेटा स्रोतों के साथ एकीकरण में लचीलापन देता है। |
कनेक्टर के लिए समर्थन | प्रेस्टो प्लग करने योग्य कनेक्टर का समर्थन करता है। ये कनेक्टर प्रश्नों के लिए डेटा सेट प्रदान करते हैं।
नीचे प्रतिष्ठा में उपलब्ध कई पूर्व-मौजूदा कनेक्टर हैं, जबकि प्रेस्टो कस्टम कनेक्टर के साथ कनेक्ट करने की क्षमता भी प्रदान करता है।
नीचे दिए गए कुछ कनेक्टर हैं · हडूप/ हाइव · कैसेंड्रा · टेरडाटा · पोस्टग्रे एसक्यूएल · ओरेकल इत्यादि
|
डेटा फ्रेम इंटरफ़ेस स्पार्क एसक्यूएल पर काम करने के लिए विभिन्न डेटा स्रोतों की अनुमति देता है
स्पार्क एसक्यूएल में उद्योग मानक जेडीबीसी और ओडीबीसी कनेक्टिविटी के साथ एक सर्वर मोड शामिल है। |
संघीय प्रश्नोत्तरी | प्रेस्टो संघीय प्रश्नों का समर्थन करता है। प्रेस्टो को विभिन्न डीबी से कनेक्ट करने के लिए कॉन्फ़िगर किया जा सकता है और एक बार कॉन्फ़िगर किया जा सकता है; इसकी सीएलआई का इस्तेमाल ‘संघीय प्रश्न’ लॉन्च करने के लिए किया जा सकता है।
एक प्रेस्टो क्वेरी उपयोगकर्ता में डेटा को कई डेटा स्रोतों से जोड़ सकते हैं और क्वेरी चला सकते हैं। |
स्पार्क एसक्यूएल जेडीबीसी का उपयोग करके अन्य डेटाबेस से कनेक्ट करने के लिए एक अंतर्निर्मित सुविधा के साथ आता है जो “अन्य डेटाबेस में जेडीबीसी” है, यह संघ सुविधा में सहायता करता है
स्पार्क जेडीबीसी का उपयोग कर डेटा फ्रेम बनाता है: स्काला / पायथन एपीआई का लाभ उठाकर डेटाबेस फीचर, लेकिन यह स्पार्क एसक्यूएल थ्रिफ्ट सर्वर के साथ सीधे काम करता है और उपयोगकर्ताओं को बाहरी एचडीबीसी टेबलों को अन्य हाइव / स्पार्क टेबलों की तरह आसानी से पूछने की अनुमति देता है।
|
कौन उपयोग करता है | डेटा विश्लेषकों, डेटा इंजीनियरों, डेटा वैज्ञानिकों आदि | डेटा विश्लेषकों, डेटा इंजीनियर्स, डेटा वैज्ञानिक, स्पार्क डेवलपर इत्यादि |
निष्कर्ष- स्पार्क एसक्यूएल बनाम प्रेस्टो
स्पार्क एसक्यूएल और प्रेस्टो, दोनों एसक्यूएल वितरित इंजन बाजार में उपलब्ध हैं।
जब बीआई-प्रकार के प्रश्नों की बात आती है तो प्रेस्टो बहुत उपयोगी होता है, और स्पार्क एसक्यूएल बड़े एनालिटिक्स प्रश्नों में प्रदर्शन-वार की ओर जाता है। कॉन्फ़िगरेशन के संबंध में तुलना करते समय, प्रेस्टो स्पार्क एसक्यूएल से आसान स्थापित किया गया। स्पार्क एसक्यूएल और प्रेस्टो दोनों बाजार में समान रूप से खड़े हैं और एक अलग तरह की व्यावसायिक समस्याओं को हल कर रहे हैं।
अनुशंसित लेख
यह स्पार्क एसक्यूएल बनाम प्रेस्टो, उनके अर्थ, हेड टू हेड कम्पेरिजन, की डिफरेंसेस, कम्पेरिज़न टेबल, और निष्कर्ष के लिए एक गाइड रहा है। अधिक जानने के लिए आप निम्नलिखित लेख भी देख सकते हैं –