क्लस्टर विश्लेषण क्या है
क्लस्टर विश्लेषण समूह डेटा उनके पास मौजूद विशेषताओं के आधार पर। क्लस्टर विश्लेषण समूह उन कारकों के आधार पर ऑब्जेक्ट करता है जो उन्हें समान बनाता है। क्लस्टर विश्लेषण अन्यथा सेगमेंटेशन विश्लेषण या वर्गीकरण विश्लेषण कहा जाता है। क्लस्टर विश्लेषण निर्भर और स्वतंत्र चर को अलग नहीं करता है। क्लस्टर विश्लेषण का प्रयोग विभिन्न प्रकार के क्षेत्रों जैसे मनोविज्ञान, जीवविज्ञान, सांख्यिकी, डेटा खनन, पैटर्न मान्यता और अन्य सामाजिक विज्ञान में किया जाता है। (कारक विश्लेषण)
क्लस्टर विश्लेषण का उद्देश्य
मुख्य क्लस्टर विश्लेषण उद्देश्य डेटा के प्रत्येक सेट में विषमता को संबोधित करना है। अन्य क्लस्टर विश्लेषण उद्देश्यों हैं
- वर्गीकरण विवरण – डेटा के भीतर समूहों की पहचान
- डेटा सरलीकरण – सभी व्यक्तिगत अवलोकनों के बजाए समान अवलोकनों के समूहों का विश्लेषण करने की क्षमता
- हाइपोथिसिस पीढ़ी या परीक्षण – डेटा की प्रकृति के आधार पर या पहले बताई गई परिकल्पना का परीक्षण करने के लिए परिकल्पना विकसित करें
- संबंध पहचान – क्लस्टर विश्लेषण से सरलीकृत संरचना जो संबंधों का वर्णन करती है
क्लस्टर विश्लेषण के दो मुख्य उद्देश्य हैं – समझ और उपयोगिता।
समझने की परिस्थिति में, क्लस्टर विश्लेषण समूह ऑब्जेक्ट्स जो कुछ सामान्य विशेषताओं को साझा करते हैं
उपयोगिता के प्रयोजन में, क्लस्टर विश्लेषण क्लस्टर को प्रत्येक डेटा ऑब्जेक्ट की विशेषताओं को प्रदान करता है, जिनके वे संबंधित हैं।
क्लस्टर विश्लेषण कारक विश्लेषण और भेदभावपूर्ण विश्लेषण के साथ हाथ में आता है।
इसके साथ शुरू करने से पहले आपको खुद को कुछ क्लस्टर विश्लेषण प्रश्न पूछना चाहिए
- क्या चर प्रासंगिक हैं?
- नमूना आकार पर्याप्त है?
- क्या आउटलाइर्स का पता लगाया जा सकता है और इसे हटाया जाना चाहिए?
- समानता को मापने के लिए वस्तु कैसे होनी चाहिए?
- क्या डेटा मानकीकृत किया जाना चाहिए?
क्लस्टर के प्रकार
तीन प्रमुख प्रकार के क्लस्टरिंग हैं
- पदानुक्रमित क्लस्टरिंग – जिसमें एग्ग्लोमेमेरेटिव और डिवीसिव विधि शामिल है
- विभागीय क्लस्टरिंग – इसमें के-मीन्स, फजी के-मीन्स, इसोडाटा शामिल है
- घनत्व आधारित क्लस्टरिंग – डेनक्लस्ट, सीएलयूपीओटी, मीन शिफ्ट, एसवीसी, पर्जन-वाटरशेड इसके तहत है
क्लस्टर विश्लेषण में धारणाएं
क्लस्टर विश्लेषण में हमेशा दो धारणाएं होती हैं
- यह माना जाता है कि नमूना जनसंख्या का प्रतिनिधि है
- यह माना जाता है कि चर संबंधित नहीं हैं। भले ही चर संबंधित हैं, सहसंबंधित चर हटा दें या सहसंबंध के लिए क्षतिपूर्ति दूरी उपायों का उपयोग करें।
क्लस्टर विश्लेषण में कदम
-
- चरण 1: समस्या को परिभाषित करें
- चरण 2: उचित समानता उपाय तय करें
- चरण 3: ऑब्जेक्ट्स को समूहबद्ध करने का निर्णय लें
- चरण 4: क्लस्टर की संख्या तय करें
- चरण 5: समूहों का व्याख्या, वर्णन और सत्यापन करें
वर्णनात्मक आंकड़ों और टी-मूल्यों की व्याख्या जानें। भविष्यवाणी मॉडल बनाएं और अन्य विश्लेषणात्मक कार्यों का संचालन करें। चर्चा केस अध्ययन के साथ विश्लेषिकी कौशल इकट्ठा करें।
एसपीएसएस में क्लस्टर विश्लेषण
में एसपीएसएस आप का विश्लेषण करें / वर्गीकृत विकल्प में क्लस्टर विश्लेषण विकल्प मिल सकता है। एसपीएसएस में क्लस्टर विश्लेषण के लिए तीन विधियां हैं – के-मीन्स क्लस्टर, पदानुक्रमित क्लस्टर और दो चरण क्लस्टर।
के-मीन्स क्लस्टर विधि क्लस्टर की निश्चित संख्या के माध्यम से डेटा के दिए गए सेट को वर्गीकृत करती है। यह विधि समझने में आसान है और डेटा एक दूसरे से अलग होने पर सर्वश्रेष्ठ आउटपुट देता है।
दो चरण क्लस्टर विश्लेषण एक उपकरण है जो बड़े डेटा सेट को संभालने के लिए डिज़ाइन किया गया है। यह क्लस्टर को दोनों स्पष्ट और निरंतर चर पर बनाता है।
पदानुक्रमित क्लस्टर क्लस्टर विश्लेषण का सबसे अधिक उपयोग किया जाने वाला तरीका है। यह अनुक्रमिक चरणों की एक श्रृंखला के माध्यम से उन्हें एक साथ लाकर एकजुट क्लस्टर में मामलों को जोड़ती है।
पदानुक्रमित क्लस्टर विश्लेषण में तीन कदम होते हैं
- दूरी की गणना करें
- क्लस्टर से लिंक करें
- क्लस्टर की सही संख्या का चयन करके समाधान का चयन करना
एसपीएसएस में पदानुक्रमित क्लस्टर विश्लेषण करने के लिए नीचे दिए गए कदम दिए गए हैं।
- पहला चरण उन चर का चयन करना है जिन्हें क्लस्टर किया जाना है। नीचे संवाद बॉक्स आपको यह बताता है
- उपर्युक्त संवाद बॉक्स में आंकड़े विकल्प पर क्लिक करके, आपको संवाद बॉक्स मिलेगा जहां आप आउटपुट निर्दिष्ट करना चाहते हैं
- संवाद बॉक्स प्लॉट में, डेंडरोग्राम जोड़ें। डेंडरोग्राम पदानुक्रमित क्लस्टर विश्लेषण विधि का ग्राफिकल प्रतिनिधित्व है। यह दिखाता है कि समूहों को प्रत्येक चरण में संयुक्त रूप से कैसे जोड़ा जाता है जब तक कि यह एक क्लस्टर नहीं बनता।
- संवाद बॉक्स विधि महत्वपूर्ण है। आप यहां दूरी और क्लस्टरिंग विधि का उल्लेख कर सकते हैं। एसपीएसएस में अंतराल, गणना और बाइनरी डेटा के लिए तीन उपाय हैं।
- स्क्वायर यूक्लिडियन दूरी स्क्वायर रूट के बिना स्क्वायर मतभेदों का योग है।
- गणना में आप ची स्क्वायर और फाई स्क्वायर उपाय के बीच चयन कर सकते हैं
- बाइनरी सेक्शन में आपके पास चुनने के लिए बहुत सारे विकल्प हैं। स्क्वायर यूक्लिडियन दूरी का उपयोग करने का सबसे अच्छा विकल्प है।
- अगला चरण क्लस्टर विधि का चयन करना है। एकल लिंकेज या नजदीकी पड़ोसी का उपयोग करने की हमेशा अनुशंसा की जाती है क्योंकि यह आसानी से आउटलाइर्स की पहचान करने में मदद करता है। आउटलाइर्स की पहचान के बाद आप वार्ड के तरीके का उपयोग कर सकते हैं।
- अंतिम चरण मानकीकरण है
क्लस्टर विश्लेषण की आलोचनाएं
सबसे आम आलोचना नीचे सूचीबद्ध हैं
- यह वर्णनात्मक, सैद्धांतिक और गैर-विचारशील है।
- यह किसी भी संरचना के वास्तविक अस्तित्व के बावजूद क्लस्टर का उत्पादन करेगा
- इसका व्यापक रूप से उपयोग नहीं किया जा सकता है क्योंकि यह समानता माप के आधार के रूप में उपयोग किए जाने वाले चर पर निर्भर करता है
कारक विश्लेषण क्या है?
कारक विश्लेषण एक अन्वेषण विश्लेषण है जो आयामों में समान चर को समूहीकृत करने में मदद करता है। इसका उपयोग अवलोकनों के आयामों को कम करके डेटा को सरल बनाने के लिए किया जा सकता है। कारक विश्लेषण में कई अलग-अलग रोटेशन विधियां हैं।
कारक विश्लेषण का उपयोग ज्यादातर डेटा घटाने के उद्देश्यों के लिए किया जाता है।
दो प्रकार के कारक विश्लेषण हैं – अन्वेषक और पुष्टित्मक
- एक्सप्लोरेटरी विधि का उपयोग तब किया जाता है जब आपके पास चर के सेट में संरचनाओं या आयामों के बारे में पूर्व परिभाषित विचार नहीं होता है।
- जब आप चर के सेट में संरचनाओं या आयामों के बारे में विशिष्ट परिकल्पना का परीक्षण करना चाहते हैं तो पुष्टि विधि का उपयोग किया जाता है।
कारक विश्लेषण के उद्देश्य
कारक विश्लेषण का दो मुख्य उद्देश्य हैं जिनका उल्लेख नीचे दिया गया है
- अंतर्निहित कारकों की पहचान – इसमें समरूप सेटों में क्लस्टरिंग चर शामिल हैं, नए चर बनाने और श्रेणियों के बारे में ज्ञान प्राप्त करने में सहायता
- चर के स्क्रीनिंग – यह प्रतिगमन में सहायक है और समूहों को पहचानने के लिए आपको एक चर का चयन करने की अनुमति देता है जो कई का प्रतिनिधित्व करता है।
कारक विश्लेषण की धारणाएं
कारक विश्लेषण की चार मुख्य धारणाएं हैं जिनका उल्लेख नीचे दिया गया है
- मॉडल आमतौर पर रैखिक संबंधों पर आधारित होते हैं
- यह मानता है कि एकत्रित डेटा अंतराल स्केल किया गया है
- डेटा में बहुविकल्पीयता वांछनीय है क्योंकि उद्देश्य चर के अंतःसंबंधित सेट को ढूंढना है
- डेटा कारक विश्लेषण के लिए खुला और उत्तरदायी होना चाहिए। यह इस तरह से नहीं होना चाहिए कि एक चर केवल अपने साथ सहसंबंधित है और किसी भी अन्य चर के साथ कोई सहसंबंध मौजूद नहीं है। इस तरह के डेटा पर कारक विश्लेषण नहीं किया जा सकता है।
कारक के प्रकार
- प्रधानाचार्य घटक कारक – आमतौर पर उपयोग की जाने वाली विधि जहां कारक वजन अधिकतम संभव भिन्नता निकालने के लिए गणना की जाती है और तब तक जारी रहती है जब तक कोई सार्थक भिन्नता न हो।
- कैनोनिक कारक विश्लेषण – उन कारकों को ढूंढता है जिनमें मनाए गए चर के साथ उच्चतम कैनोलिक सहसंबंध होता है
- सामान्य कारक विश्लेषण – कम से कम कारकों की तलाश करता है जो चर के सेट के सामान्य भिन्नता के लिए जिम्मेदार हो सकते हैं
- छवि कारक – सहसंबंध मैट्रिक्स के आधार पर जहां प्रत्येक चर को कई प्रतिगमन का उपयोग करके दूसरों से भविष्यवाणी की जाती है
- अल्फा कारक – कारकों की विश्वसनीयता को अधिकतम करता है
- कारक प्रतिगमन मॉडल – कारक मॉडल और प्रतिगमन मॉडल का संयोजन जिसका कारक आंशिक रूप से ज्ञात हैं
कारक विश्लेषण का मानदंड
-
ईजिनवैल्यू मानदंड
- किसी कारक से जुड़े मूल चर में भिन्नता की मात्रा का प्रतिनिधित्व करता है
- एक कारक पर प्रत्येक चर के कारक लोडिंग के वर्ग के योग ईजिनवैल्यू का प्रतिनिधित्व करता है
- 1.0 से अधिक हैं जो ईजिनवैल्यू के साथ कारक रखा जाता है
-
स्क्री प्लॉट मानदंड
- निष्कर्षण के क्रम में कारकों की संख्या के खिलाफ ईजिनवैल्यू की एक साजिश।
- साजिश का आकार कारकों की संख्या निर्धारित करता है
-
भिन्नता मानदंड का प्रतिशत
- निकाले गए कारकों की संख्या पता चला है कि कारकों द्वारा निकाले गए भिन्नता का बढ़ता प्रतिशत संतुष्टि के स्तर तक पहुंचता है।
-
महत्व परीक्षण मानदंड
- अलग-अलग ईजिनवैल्यू का सांख्यिकीय महत्व पता चला है, और केवल उन कारकों जो सांख्यिकीय रूप से महत्वपूर्ण हैं बनाए रखा है
कारक विश्लेषण का प्रयोग मनोविज्ञान, समाजशास्त्र, राजनीति विज्ञान, शिक्षा और मानसिक स्वास्थ्य जैसे विभिन्न क्षेत्रों में किया जाता है।
एसपीएसएस में कारक विश्लेषण
एसपीएसएस में कारक विश्लेषण विकल्प विश्लेषण में आयाम कमी कमी कारक में पाया जा सकता है
- चर अनुभाग की सूची में चर जोड़कर शुरू करें
- वर्णनात्मक टैब पर क्लिक करें और कुछ आंकड़े जोड़ें जिसके तहत कारक विश्लेषण की धारणाएं सत्यापित की जाती हैं।
- निष्कर्षण विकल्प पर क्लिक करें जो आपको निष्कर्षण विधि चुनने और निष्कर्षण के लिए मूल्य काट देगा
- प्रधानाचार्य घटक (पीसीए) डिफ़ॉल्ट निकासी विधि है जो चर के असंगत रैखिक संयोजनों को निष्कर्ष निकालती है। एक सहसंबंध मैट्रिक्स एकवचन है जब पीसीए का उपयोग किया जा सकता है। यह कैनोनिकल सहसंबंध विश्लेषण के समान है जहां पहले कारक में अधिकतम भिन्नता है और निम्नलिखित कारक भिन्नता के छोटे हिस्से को समझाते हैं।
- दूसरा सबसे आम विश्लेषण प्रिंसिपल अक्ष कारक है। यह अवलोकनों के पीछे अव्यवस्थित संरचनाओं की पहचान करता है।
- अगला चरण एक रोटेशन विधि का चयन करना है। सबसे अधिक उपयोग की जाने वाली विधि वरिमैक्स है। यह विधि कारकों की व्याख्या को सरल बनाती है।
- दूसरी विधि क्वार्टिमैक्स है। कारकों की संख्या को कम करने के लिए यह विधि कारकों को घुमाती है। यह मनाया चर की व्याख्या को सरल बनाता है।
- अगली विधि इक्वामैक्स है जो उपरोक्त दो तरीकों का संयोजन है।
- “विकल्प” पर क्लिक करके संवाद बॉक्स में आप गुम मूल्यों का प्रबंधन कर सकते हैं
- परिणामों को डेटा सेट में सहेजने से पहले, पहले कारक विश्लेषण चलाएं और धारणाओं की जांच करें और पुष्टि करें कि परिणाम सार्थक और उपयोगी हैं।
क्लस्टर विश्लेषण बनाम कारक विश्लेषण
क्लस्टर विश्लेषण और कारक विश्लेषण दोनों अप्रसन्न सीखने की विधि हैं जिनका उपयोग डेटा के विभाजन के लिए किया जाता है। इस क्षेत्र में नए शोधकर्ताओं का मानना है कि क्लस्टर विश्लेषण और कारक विश्लेषण समान हैं। यह समान प्रतीत हो सकता है लेकिन वे कई तरीकों से भिन्न हैं। क्लस्टर विश्लेषण और कारक विश्लेषण के बीच अंतर नीचे सूचीबद्ध हैं
-
लक्ष्य
क्लस्टर और कारक विश्लेषण का उद्देश्य अलग है। क्लस्टर विश्लेषण का उद्देश्य अवलोकनों को सजातीय और विशिष्ट समूहों में विभाजित करना है। दूसरी ओर कारक विश्लेषण मूल्यों की समानता के परिणामस्वरूप चर के समानता को समझाता है।
-
जटिलता
जटिलता एक और कारक है जिस पर क्लस्टर और कारक विश्लेषण भिन्न होता है। डेटा आकार विश्लेषण को अलग-अलग प्रभावित करता है। यदि डेटा का आकार बहुत बड़ा है तो यह क्लस्टर विश्लेषण में कम्प्यूटेशनल रूप से अव्यवस्थित हो जाता है।
-
उपाय
किसी समस्या का समाधान कारक और क्लस्टर विश्लेषण दोनों में समान या कम समान है। लेकिन कारक विश्लेषण शोधकर्ता को बेहतर पहलू में बेहतर समाधान प्रदान करता है। क्लस्टर विश्लेषण सर्वोत्तम परिणाम नहीं देता है क्योंकि क्लस्टर विश्लेषण में सभी एल्गोरिदम कम्प्यूटेशनल रूप से अक्षम हैं।
-
अनुप्रयोगों
वास्तविक डेटा के लिए कारक विश्लेषण और क्लस्टर विश्लेषण अलग-अलग लागू होते हैं। कारक विश्लेषण जटिल मॉडल को सरल बनाने के लिए उपयुक्त है। यह चर के बड़े सेट को चर के बड़े सेट में कम कर देता है। शोधकर्ता इन परिकल्पनाओं की पुष्टि या इनकार करने के लिए परिकल्पना का एक सेट विकसित कर सकते हैं और कारक विश्लेषण चला सकते हैं।
क्लस्टर विश्लेषण कुछ मानदंडों के आधार पर वस्तुओं को वर्गीकृत करने के लिए उपयुक्त है। शोधकर्ता समूह के कुछ पहलुओं को माप सकता है और क्लस्टर विश्लेषण का उपयोग करके उन्हें विशिष्ट श्रेणियों में विभाजित कर सकता है।
नीचे वर्णित कई अन्य मतभेद भी हैं
- क्लस्टर विश्लेषण समूह के मामलों को करने का प्रयास करता है जबकि कारक विश्लेषण समूह सुविधाओं को करने का प्रयास करता है।
- क्लस्टर विश्लेषण का उपयोग उन मामलों के छोटे समूहों को खोजने के लिए किया जाता है जो संपूर्ण रूप से डेटा के प्रतिनिधि होते हैं। कारक विश्लेषण का उपयोग उन सुविधाओं के छोटे समूह को खोजने के लिए किया जाता है जो डेटा के प्रतिनिधि मूल सुविधाओं को सेट करते हैं।
- क्लस्टर विश्लेषण का सबसे महत्वपूर्ण हिस्सा क्लस्टर्स की संख्या ढूंढ रहा है। मूल रूप से क्लस्टरिंग विधियों को दो में विभाजित किया जाता है – एग्ग्लोमेरेटिव विधि और विभाजन विधि। एग्लोमरेटिव विधि प्रत्येक मामले के साथ अपने क्लस्टर में शुरू होता है और मानदंड तक पहुंचने पर रोकता है। एक विधि में सभी मामलों के साथ विभाजन विधि शुरू होती है।
- डेटा के एक सेट में अंतर्निहित संरचना को खोजने के लिए कारक विश्लेषण का उपयोग किया जाता है।