स्पार्क कमांड का परिचय
अपाचे स्पार्क फास्ट कम्प्यूटेशन के लिए हडोप के शीर्ष पर बना एक ढांचा है। यह कार्य को कुशलतापूर्वक चलाने के लिए क्लस्टर-आधारित परिदृश्य में मॅपरेड्यूज़ की अवधारणा का विस्तार करता है । स्पार्क को स्काला में लिखा गया है।
हाडोवूप का उपयोग स्पार्क द्वारा निम्नलिखित तरीकों से किया जा सकता है (नीचे देखें):
चित्र एक
https://www.tutorialspoint.com/
- स्टैंडअलोन: स्पार्क को सीधे हेडोप के शीर्ष पर तैनात किया गया। स्पार्क नौकरियां हडोप और स्पार्क पर समानांतर रूप से चलती हैं।
- हाडोवूप यार्न: स्पार्क यार्न पर किसी पूर्व-इंस्टॉलेशन की आवश्यकता के बिना चलता है ।
- मॅपरेड्यूज़ (SIMR) में स्पार्क : मॅपरेड्यूज़ में स्पार्क स्टैंडअलोन तैनाती के अलावा, स्पार्क जॉब लॉन्च करने के लिए उपयोग किया जाता है। SIMR के साथ, कोई भी स्पार्क शुरू कर सकता है और बिना किसी प्रशासनिक पहुंच के अपने शेल का उपयोग कर सकता है।
स्पार्क के घटक:
- अपाचे स्पार्क कोर
- स्पार्क एसक्यूएल
- स्पार्क स्ट्रीमिंग
- Mळिब
- ग्राफ़X
रेसिलिएंट डिस्ट्रिब्यूटेड डेटसेट्स (आरडीडी) को स्पार्क कमांडों की मूलभूत डेटा संरचना माना जाता है। आरडीडी अपरिवर्तनीय और केवल प्रकृति में पढ़ने योग्य है। स्पार्क कमांड में सभी प्रकार की गणना आरडीडी के परिवर्तनों और कार्यों के माध्यम से की जाती है।
चित्र नम्बर 2
स्पार्क खोल उपयोगकर्ताओं को अपनी कार्यक्षमता के साथ बातचीत करने के लिए एक माध्यम प्रदान करता है। स्पार्क कमांड में बहुत सारे अलग-अलग कमांड होते हैं जिनका उपयोग इंटरेक्टिव शेल पर डेटा को प्रोसेस करने के लिए किया जा सकता है।
बेसिक स्पार्क कमांड
आइए नजर डालते हैं कुछ बेसिक स्पार्क कमांड पर जो नीचे दिए गए हैं: –
-
स्पार्क खोल शुरू करने के लिए:
चित्र नम्बर 3
-
स्थानीय प्रणाली से फ़ाइल पढ़ें:
यहाँ “sc” स्पार्क प्रसंग है। “Data.txt” को होम डायरेक्टरी में ध्यान में रखते हुए, इसे इस तरह से पढ़ा जाता है, अन्यथा किसी को पूर्ण पथ निर्दिष्ट करने की आवश्यकता होती है।
-
समानांतर बनाने के माध्यम से आरडीडी बनाएँ
न्यूडाटा अब आरडीडी है।
-
RDD में आइटम की गणना करें
-
एकत्र
यह फ़ंक्शन ड्राइवर प्रोग्राम के लिए सभी आरडीडी की सामग्री लौटाता है। यह लेखन कार्यक्रम के विभिन्न चरणों में डिबगिंग में सहायक है।
-
आरडीडी से पहले 3 आइटम पढ़ें
-
टेक्स्ट फ़ाइल में आउटपुट / प्रोसेस्ड डेटा सेव करें
यहां “आउटपुट” फ़ोल्डर वर्तमान पथ है।
इंटरमीडिएट स्पार्क कमांड
1. आरडीडी पर फ़िल्टर करें
आइए उन वस्तुओं के लिए नया आरडीडी बनाएं जिसमें “हां” हो।
“हाँ” शब्द को फ़िल्टर करने के लिए मौजूदा आरडीडी पर ट्रांसफ़ॉर्मेशन फ़िल्टर को बुलाया जाना चाहिए, जो आइटमों की नई सूची के साथ नए RDD बनाएगा।
2. चेन ऑपरेशन
यहां फिल्टर ट्रांसफॉर्मेशन और काउंट एक्शन ने एक साथ काम किया। इसे चेन ऑपरेशन कहते हैं।
3. आरडीडी से पहला आइटम पढ़ें
4. आरडीडी विभाजन की गणना करें
जैसा कि हम जानते हैं, आरडीडी कई विभाजनों से बना होता है, वहाँ कोई गिनती करने की आवश्यकता होती है। विभाजन के। चूँकि यह स्पार्क कमांड के साथ काम करते समय ट्यूनिंग और समस्या निवारण में मदद करता है।
डिफ़ॉल्ट रूप से, न्यूनतम सं। पीएफ विभाजन 2 है।
5. जुड़ना
यह फ़ंक्शन सामान्य कुंजी के आधार पर दो तालिकाओं (तालिका तत्व जोड़ीदार फैशन में है) से जुड़ता है। जोड़ीदार आरडीडी में, पहला तत्व कुंजी है और दूसरा तत्व मूल्य है।
6. एक फ़ाइल कैश करें
कैशिंग एक अनुकूलन तकनीक है। आरडीडी को कैशिंग करने का मतलब है, आरडीडी मेमोरी में निवास करेगा, और भविष्य की सभी गणना मेमोरी में उन आरडीडी पर की जाएगी। यह डिस्क रीड टाइम को बचाता है और प्रदर्शन को बेहतर बनाता है। संक्षेप में, यह डेटा तक पहुंचने का समय कम कर देता है।
हालाँकि, यदि आप ऊपर फ़ंक्शन चलाते हैं, तो डेटा कैश नहीं किया जाएगा। वेबपृष्ठ पर जाकर यह साबित किया जा सकता है:
http: // localhost: 4040 / भंडारण
कार्रवाई होते ही आरडीडी को कैश कर दिया जाएगा। उदाहरण के लिए:
एक और फ़ंक्शन जो कैश के समान काम करता है () जारी है ()। पर्सिस्ट उपयोगकर्ताओं को तर्क देने की सुविधा देता है, जिससे डेटा को मेमोरी, डिस्क या ऑफ-हाइप मेमोरी में कैश किया जा सकता है। बिना किसी तर्क के जारी रहना कैश () के समान है।
उन्नत स्पार्क कमांड
आइए नजर डालते हैं कुछ उन्नत स्पार्क कमांड पर जो नीचे दिए गए हैं: –
-
एक चर प्रसारित करें
ब्रॉडकास्ट वैरिएबल प्रोग्रामर को कार्यों के साथ उस वैरिएबल की शिपिंग कॉपी के बजाय क्लस्टर में प्रत्येक मशीन पर कैश्ड एकमात्र वेरिएबल पढ़ने में मदद करता है। यह संचार लागत को कम करने में मदद करता है।
चित्र नम्बर 4
संक्षेप में, ब्रॉडकास्टेड वैरिएबल की तीन मुख्य विशेषताएं हैं:
- अडिग
- याद में फिट
- क्लस्टर पर वितरित किया गया
-
अक्क्यूम्युलेटर्स
अक्क्यूम्युलेटर्स चर हैं जो संबंधित कार्यों में जुड़ जाते हैं। संचयकों के लिए कई उपयोग हैं जैसे काउंटर, रकम आदि।
कोड में संचायक का नाम स्पार्क UI में भी देखा जा सकता है।
-
नक्शा
मानचित्र क्रिया आरडीडी में हर पंक्ति को पुनरावृत्त करने में मदद करती है। मानचित्र में उपयोग किए जाने वाले फ़ंक्शन को आरडीडी में प्रत्येक तत्व पर लागू किया जाता है।
उदाहरण के लिए, आरडीडी{1, 2, 3, 4, 6} में अगर हम “rdd.map (x => x + 2)” लागू करते हैं, तो हमें परिणाम (3, 4, 5, 6, 8) के रूप में मिलेगा।
-
फ्लाट्मॅप
फ्लैटमैप नक्शे के समान काम करता है, लेकिन नक्शा केवल एक तत्व देता है जबकि फ्लैटमैप तत्वों की सूची वापस कर सकता है। इसलिए, शब्दों में शब्दों को विभाजित करने के लिए फ्लैटमैप की आवश्यकता होगी।
-
संगठित होना
यह फ़ंक्शन डेटा के फेरबदल से बचने में मदद करता है। यह मौजूदा विभाजन में लागू किया जाता है ताकि कम डेटा को फेरबदल किया जा सके। इस तरह, हम क्लस्टर में नोड्स के उपयोग को प्रतिबंधित कर सकते हैं।
स्पार्क् कमांड का उपयोग करने के लिए टिप्स और ट्रिक्स
नीचे स्पार्क कमांड के विभिन्न टिप्स और ट्रिक्स दिए गए हैं: –
- स्पार्क के शुरुआती स्पार्क-शेल का उपयोग कर सकते हैं। चूंकि स्पार्क कमांड स्काला पर बनाए गए हैं , इसलिए निश्चित रूप से स्कैला स्पार्क शेल का उपयोग करना बहुत अच्छा है। हालाँकि, अजगर चिंगारी खोल भी उपलब्ध है, इसलिए भी कि कुछ का उपयोग कर सकते हैं, जो अजगर के साथ अच्छी तरह से वाकिफ हैं ।
- क्लस्टर के संसाधनों का प्रबंधन करने के लिए स्पार्क शेल के पास बहुत सारे विकल्प हैं। नीचे दिए गए आदेश आपकी मदद कर सकते हैं:
- स्पार्क में, लंबे डेटासेट के साथ काम करना सामान्य बात है। लेकिन जब खराब इनपुट लिया जाता है तो चीजें गलत हो जाती हैं। स्पार्क के फिल्टर फ़ंक्शन का उपयोग करके खराब पंक्तियों को गिराना हमेशा एक अच्छा विचार है। इनपुट का अच्छा सेट एक बहुत अच्छा होगा।
- स्पार्क अपने डेटा के लिए अपने आप से अच्छा विभाजन चुनता है। लेकिन हमेशा अपनी नौकरी शुरू करने से पहले विभाजन पर नज़र रखना एक अच्छा अभ्यास है। विभिन्न विभाजनों को आज़माने से आपको अपनी नौकरी की समानता के साथ मदद मिलेगी।
निष्कर्ष – स्पार्क कमांड्स:
स्पार्क कमांड एक क्रांतिकारी और बहुमुखी बड़ा डेटा इंजन है , जो बैच प्रोसेसिंग, रियल-टाइम प्रोसेसिंग, कैशिंग डेटा आदि के लिए काम कर सकता है। स्पार्क में मशीन लर्निंग लाइब्रेरी का एक समृद्ध सेट है जो डेटा वैज्ञानिकों और विश्लेषणात्मक संगठनों को मजबूत, इंटरैक्टिव और बनाने में सक्षम कर सकता है। तेजी से अनुप्रयोगों।
अनुशंसित लेख
यह स्पार्क कमांड्स का मार्गदर्शक रहा है। यहां हमने बुनियादी और साथ ही उन्नत स्पार्क कमांड और कुछ तत्काल स्पार्क कमांड पर चर्चा की है। अधिक जानने के लिए आप निम्नलिखित लेख को भी देख सकते हैं –
- एडोब फोटोशॉप कमांड्स
- महत्वपूर्ण वीबीए कमांड
- टेबलौ कमांड
- चीट शीट एसक्यूएल (कमांड्स, फ्री टिप्स और ट्रिक्स)