स्पार्क साक्षात्कार प्रश्न और उत्तर स्पार्क परिचय
तो आपको अंत में स्पार्क में अपना सपनों का काम मिल गया है, लेकिन स्पार्क साक्षात्कार को तोड़ने के तरीके और आश्चर्यजनक स्पार्क साक्षात्कार प्रश्न के बारे में सोच रहे हैं। प्रत्येक साक्षात्कार अलग होता है और नौकरी का दायरा भी अलग होता है। इसे ध्यान में रखते हुए हमने आपके साक्षात्कार में सफलता प्राप्त करने में आपकी सहायता के लिए सबसे आम स्पार्क साक्षात्कार प्रश्न और उत्तर तैयार किए हैं।
नीचे स्पार्क साक्षात्कार प्रश्न की सबसे आम विशेषता है, जो आपको भाषा में एक महान नींव दे सकती है। ये प्रश्न दो भागों में विभाजित हैं
- भाग 1 – स्पार्क साक्षात्कार प्रश्न (मूल)
- भाग 2 – स्पार्क साक्षात्कार प्रश्न (उन्नत)
भाग 1 – स्पार्क साक्षात्कार प्रश्न (मूल)
इस पहले भाग में बुनियादी स्पार्क साक्षात्कार प्रश्न और उत्तर शामिल हैं
- स्पार्क क्या है?
उत्तर:
अपाचे स्पार्क एक ओपन सोर्स फ्रेमवर्क है। यह मानचित्र-न्यूनीकरण प्रक्रिया की तुलना में निष्पादन प्रदर्शन में सुधार करता है । यह एक खुला मंच है जहां हम जावा, पायथन, स्कैला, आर जैसे कई प्रोग्रामिंग भाषाओं का उपयोग कर सकते हैं। स्पार्क इन-मेमोरी निष्पादन प्रदान करता है जो मानचित्र-कमी से 100 गुना तेज है। यह आरडीडी की अवधारणा का उपयोग करता है। आरडीडी एक लचीला वितरित डेटासेट है जो इसे पारदर्शी रूप से स्मृति पर डेटा स्टोर करने की अनुमति देता है और इसे केवल डिस्क पर ही जारी रखता है। यह वह जगह है जहां डिस्क की बजाय स्मृति से डेटा तक पहुंचने के लिए समय कम हो जाएगा। आज उद्योग अपनी प्रसंस्करण शक्ति के कारण स्पार्क पसंद करता है।
- हडूप और स्पार्क के बीच अंतर?
उत्तर:
फ़ीचर मानदंड | अपाचे स्पार्क | हडूप |
गति | हडूप से 10 से 100 गुना तेज | सामान्य गति |
प्रसंस्करण | रीयल-टाइम और बैच प्रसंस्करण, इन-मेमोरी, कैशिंग | केवल बैच प्रसंस्करण, डिस्क निर्भर |
कठिनाई | उच्च स्तरीय मॉड्यूल की वजह से आसान है | सीखने में मुश्किल |
वसूली | आरडीडी का उपयोग करके विभाजन की वसूली की अनुमति देता है | सहिष्णु गलती |
अन्तरक्रियाशीलता | इंटरैक्टिव, इंटरैक्टिव मोड है | सुअर और हाइव को छोड़कर कोई इंटरैक्टिव मोड नहीं, कोई पुनरावृत्ति मोड नहीं |
सामान्य हडूप आर्किटेक्चर बुनियादी मानचित्र-न्यूनीकरण का पालन करता है, उसी प्रक्रिया के लिए स्पार्क इन-मेमोरी निष्पादन प्रदान करता है। मैप-कमी के लिए हार्ड ड्राइव से पढ़ने-लिखने के बजाय, स्पार्क वर्चुअल मेमोरी से रीड-राइट प्रदान करता है।
- स्पार्क की विशेषताएं क्या हैं?
उत्तर:
- एचडीएफएस पर हडूप और फाइलों के साथ एकीकरण सुविधा प्रदान करें । स्पार्क यार्न संसाधन क्लस्टरिंग का उपयोग करके हडूप के शीर्ष पर चला सकता है। स्पार्क में हडूप के मैप-रेडस इंजन को बदलने की क्षमता है।
- पॉलीग्लॉट:स्पार्क जावा, पायथन, स्कैला और आर स्पार्क कोड के लिए उच्च स्तरीय एपीआई प्रदान करें इन चार भाषाओं में से किसी एक में लिखा जा सकता है। आईटी स्केल के लिए एक स्वतंत्र खोल प्रदान करता है (जिस भाषा में स्पार्क लिखा गया है) और पायथन दुभाषिया। स्पार्क इंजन के साथ बातचीत करने में कौन मदद करेगा? स्केल शैल को .बिन_स्पार्क-शेल और पायथन शेल के माध्यम से स्थापित निर्देशिका से ./बिन/पाई स्पार्क के माध्यम से पहुंचा जा सकता है ।
- गति:स्पार्क इंजन हडूप मानचित्र से 100 गुना तेज है-बड़े पैमाने पर डेटा प्रोसेसिंग के लिए कम करें। कम से कम नेटवर्क यातायात के साथ वितरित डेटा प्रोसेसिंग समानांतर करने के लिए विभाजन के माध्यम से गति प्राप्त की जाएगी। स्पार्क आरडीडी (लचीला वितरित डेटासेट) प्रदान करता है, जिसे क्लस्टर में कंप्यूटिंग नोड्स में कैश किया जा सकता है
- एकाधिक प्रारूप:स्पार्क में डेटा स्रोत एपीआई है। यह स्पार्क एसक्यूएल के माध्यम से संरचित डेटा तक पहुंचने के लिए एक तंत्र प्रदान करेगा । डेटा स्रोत कुछ भी हो सकते हैं, स्पार्क डेटा को बदलने और स्पार्क में खींचने के लिए सिर्फ एक तंत्र बनायेगा। स्पार्क कई डेटा स्रोत जैसे हाइव, एचबेस, कैसंड्रा, जेसन, लकड़ी की छत, ओआरसी का समर्थन करता है।
- स्पार्क बैच प्रोसेसिंग, स्टीमिंग, मशीन लर्निंग, इंटरेक्टिव एसक्यूएल क्वेरीज जैसे कोर से कई कार्यों को करने के लिए कुछ इनबिल्ट लाइब्रेरी प्रदान करता है।हालांकि, हडूप केवल बैच प्रोसेसिंग का समर्थन करता है। स्पार्क एमएलआईबी (मशीन लर्निंग लाइब्रेरी) प्रदान करें जो डेटा को संसाधित करने के लिए बिग-डेटा डेवलपर के लिए सहायक होगा । यह विभिन्न उद्देश्यों के लिए एकाधिक उपकरणों पर निर्भरताओं को हटाने में मदद करता है। स्पार्क डेटा इंजीनियरों और डेटा वैज्ञानिकों को तेजी से प्रदर्शन और उपयोग करने में आसान दोनों के साथ एक आम शक्तिशाली मंच प्रदान करता है।
- अपाचे स्पार्क प्रक्रिया निष्पादन में देरी करता है जब तक कि कार्रवाई आवश्यक न हो।यह स्पार्क की प्रमुख विशेषताओं में से एक है। स्पार्क निष्पादन के लिए प्रत्येक रूपांतरण को डीएजी (डायरेक्ट एसाइक्लिक ग्राफ) में जोड़ देगा, और जब कार्रवाई निष्पादित करना चाहती है तो यह वास्तव में प्रक्रिया के लिए डीएजी को ट्रिगर करेगा।
- रीयल टाइम स्ट्रीमिंग:अपाचे स्पार्क रीयल-टाइम कंप्यूटेशंस और कम विलंबता प्रदान करता है, इन-मेमोरी निष्पादन के कारण। स्पार्क को बड़े पैमाने पर क्लस्टर के हजार नोड और गणना के लिए कई मॉडल के लिए डिज़ाइन किया गया है।
आइए अगले स्पार्क साक्षात्कार प्रश्न पर जाएं
- यार्न क्या है?
उत्तर:
यार्न (फिर भी एक और संसाधन वार्ताकार) संसाधन प्रबंधक है। स्पार्क एक मंच है जो तेजी से निष्पादन प्रदान करता है। स्पार्क अपने स्वयं के अंतर्निहित प्रबंधक की बजाय क्लस्टर को नौकरी के निष्पादन के लिए यार्न का उपयोग करेगा। यार्न चलाने के लिए कुछ विन्यास हैं। उनमें मास्टर, तैनाती-मोड, ड्राइवर-स्मृति, निष्पादक-स्मृति, निष्पादक-कोर, और कतार शामिल हैं। यह सामान्य स्पार्क साक्षात्कार प्रश्न है जो नीचे दिए गए साक्षात्कार में पूछा जाता है स्पार्क के फायदे:
मानचित्र–कमी पर स्पार्क के फायदे
स्पार्क के पास मानचित्र-कमी पर लाभ निम्नानुसार हैं: –
इन-मेमोरी प्रक्रिया की क्षमता के कारण, स्पार्क मानचित्र-कमी से 10 से 100 गुना तेजी से निष्पादित करने में सक्षम है। मानचित्र पर डेटा के निरंतरता और चरण को कम करने के लिए मानचित्र-कमी का उपयोग किया जा सकता है।
अपाचे स्पार्क बैच प्रसंस्करण, रीयल-टाइम स्ट्रीमिंग, स्पार्क-एसक्यूएल, संरचित स्ट्रीमिंग, एमएलआईबी आदि के साथ-साथ कई कार्यों को संसाधित करने के लिए इनबिल्ट लाइब्रेरीज़ का उच्च स्तर प्रदान करता है। उसी समय हडूप केवल बैच प्रोसेसिंग प्रदान करता है।
हडूप मानचित्र-प्रक्रिया प्रक्रिया डिस्क निर्भर होगी, जहां स्पार्क कैशिंग और इन-मेमोरी प्रदान करता है।
स्पार्क दोनों पुनरावर्तक हैं, एक ही डेटासेट और इंटरैक्टिव पर गणना एकाधिक को निष्पादित करते हैं, विभिन्न डेटासेट के बीच गणना करते हैं जहां हडूप पुनरावृत्ति गणना का समर्थन नहीं करता है।
- स्पार्क द्वारा समर्थित भाषा क्या है?
उत्तर:
स्पार्क समर्थन स्कैला, पायथन, आर और जावा। बाजार में, बड़े डेटा डेवलपर ज्यादातर स्कैला और पायथन पसंद करते हैं। कोड को संकलित करने के लिए पैमाने के लिए हमें स्केल / बिन निर्देशिका का सेट पथ या जार फ़ाइल बनाने की आवश्यकता है।
- आरडीडी क्या है?
उत्तर:
आरडीडी लचीला वितरित डेटासेट का एक अमूर्त है, जो क्लस्टर के सभी नोड्स में विभाजित तत्वों का संग्रह प्रदान करता है जो समानांतर में एकाधिक प्रक्रियाओं को निष्पादित करने में मदद करेगा। आरडीडी डेवलपर का उपयोग डेटा इन-मेमोरी या कैशिंग को स्टोर कर सकता है, ताकि संचालन के समानांतर निष्पादन के लिए कुशलता से पुन: उपयोग किया जा सके। आरडीडी को नोड विफलता से आसानी से पुनर्प्राप्त किया जा सकता है।
भाग 2 – स्पार्क साक्षात्कार प्रश्न (उन्नत)
आइए अब उन्नत स्पार्क साक्षात्कार प्रश्न पर नज़र डालें।
- स्पार्क के निष्पादन के लिए जिम्मेदार कारक क्या हैं?
उत्तर:
1. स्पार्क हडूप मैप-कमी जैसे डिस्क की बजाय डिस्क मेमोरी निष्पादन प्रदान करता है।
2. आरडीडी लचीला वितरित डेटासेट, जो क्लस्टर के सभी नोड्स पर एकाधिक संचालन का एक जिम्मेदार समांतर निष्पादन है।
3. स्पार्क समांतर निष्पादन के लिए एक साझा चर सुविधा प्रदान करता है। ये चर नोड्स के बीच डेटा स्थानांतरण को कम करने में मदद करते हैं और एक प्रतिलिपि को सभी नोड्स में साझा करते हैं। दो चर हैं।
4. ब्रॉडकास्ट वेरिएबल: इस चर का उपयोग सभी नोड्स पर मेमोरी में मान को कैश करने के लिए किया जा सकता है
5. एक्सीमुलेटर वैरिएबल: यह वेरिएबल जो काउंटर और रकम जैसे “जोड़ा” है।
- निष्पादक मेमोरी क्या है?
उत्तर:
यह ढेर आकार है जो स्पार्क निष्पादक के लिए आवंटित किया जाता है। इस संपत्ति को -एग्ज़िक्युटर मेमोरी ध्वज की स्पार्क.एग्ज़िक्युटर.मेमोरी प्रॉपर्टी द्वारा नियंत्रित किया जा सकता है। प्रत्येक स्पार्क एप्लिकेशन में प्रत्येक कार्यकर्ता नोड के लिए एक निष्पादक होता है। यह संपत्ति इस बात को संदर्भित करती है कि एप्लिकेशन के लिए वर्कर नोड की कितनी मेमोरी आवंटित की जाएगी।
- आप स्पार्क स्ट्रीम का उपयोग कैसे करते हैं? एक उपयोग केस समझाओ?
उत्तर:
स्पार्क स्ट्रीम एक ऐसी सुविधा है जो वास्तविक समय के उपयोग के मामले में उपयोगी है। हम इस उद्देश्य के लिए स्पार्क के साथ फ्लूम, काफ्का का उपयोग कर सकते हैं। फ्लूम स्रोत से डेटा ट्रिगर करेगा। काफका डेटा को विषय में कायम रखेगा। काफ्का स्पार्क से डेटा का उपयोग करके डेटा खींच जाएगा और यह डेटा को डी-स्ट्रीम करेगा और रूपांतरण करेगा।
हम इस प्रक्रिया का वास्तविक समय संदिग्ध लेनदेन, रीयल-टाइम ऑफ़र आदि के लिए उपयोग कर सकते हैं।
आइए अगले स्पार्क साक्षात्कार प्रश्न पर जाएं
- क्या हम ईटीएल प्रक्रिया के लिए स्पार्क का उपयोग कर सकते हैं?
उत्तर:
हां, हम ईटीएल प्रक्रिया के लिए स्पार्क मंच का उपयोग कर सकते हैं ।
- स्पार्क एसक्यूएल क्या है?
उत्तर:
यह स्पार्क का एक विशेष घटक है जो एसक्यूएल क्वेरी का समर्थन करेगा।
- क्या लेज़ी मूल्यांकन?
उत्तर:
जब हम स्पार्क के साथ काम कर रहे होते हैं, तब तक रूपांतरणों का मूल्यांकन नहीं किया जाता जब तक कि आप कोई कार्रवाई नहीं करते। यह समग्र डेटा प्रोसेसिंग वर्कफ़्लो को अनुकूलित करने में मदद करता है। परिवर्तन को परिभाषित करते समय यह डीएजी (डायरेक्ट एसाइक्लिक ग्राफ) में जोड़ देगा। और कार्रवाई समय पर यह चरणबद्ध परिवर्तन निष्पादित करना शुरू कर देगा। साक्षात्कार में यह उपयोगी स्पार्क साक्षात्कार सवाल पूछा गया है।
अनुशंसित आलेख
यह स्पार्क साक्षात्कार प्रश्न और उत्तर की सूची के लिए एक मार्गदर्शक रहा है ताकि उम्मीदवार इन स्पार्क साक्षात्कार प्रश्न को आसानी से कार्रवाई कर सकें। आप अधिक जानने के लिए निम्नलिखित लेख भी देख सकते हैं-