डेटा खनन तकनीक– सूचना प्रौद्योगिकी के क्षेत्र में प्रगति ने विभिन्न क्षेत्रों में बड़ी मात्रा में डेटाबेस का नेतृत्व किया है। नतीजतन महत्वपूर्ण डेटा को स्टोर और हेरफेर करने की आवश्यकता है जिसका उपयोग बाद में निर्णय लेने और व्यापार की गतिविधियों में सुधार के लिए किया जा सकता है।
डेटा खनन क्या है?
डेटा खनन विशाल डेटा से उपयोगी जानकारी और पैटर्न निकालने की प्रक्रिया है। डेटा खनन में संग्रह, निष्कर्षण, विश्लेषण और डेटा के आंकड़े शामिल हैं। इसे ज्ञान खोज प्रक्रिया, डेटा या डेटा / पैटर्न विश्लेषण से ज्ञान खनन के रूप में भी जाना जाता है। डेटा खनन उपयोगी डेटा खोजने के लिए उपयोगी जानकारी खोजने की एक तार्किक प्रक्रिया है। एक बार जानकारी और पैटर्न पाए जाने के बाद इसका उपयोग व्यवसाय के विकास के लिए निर्णय लेने के लिए किया जा सकता है। डेटा खनन उपकरण आपके व्यापार से संबंधित आपके विभिन्न प्रश्नों के उत्तर दे सकते हैं जो हल करना बहुत मुश्किल था। वे भविष्य के रुझानों का भी अनुमान लगाते हैं जो व्यापारियों को सक्रिय निर्णय लेने की सुविधा देते हैं।
डेटा खनन में तीन कदम शामिल हैं। वो हैं
- अन्वेषण– इस चरण में डेटा को मंजूरी दे दी जाती है और दूसरे रूप में परिवर्तित कर दिया जाता है। डेटा की प्रकृति भी निर्धारित की जाती है
- पैटर्न पहचान– अगला कदम पैटर्न चुनना है जो सर्वोत्तम भविष्यवाणी करेगा
- परिनियोजन– वांछित परिणाम प्राप्त करने के लिए पहचाने गए पैटर्न का उपयोग किया जाता है।
डेटा खनन के लाभ
- प्रवृत्तियों और व्यवहार की स्वचालित भविष्यवाणी
- इसे नए सिस्टम के साथ-साथ मौजूदा प्लेटफॉर्म पर भी लागू किया जा सकता है
- यह मिनटों में विशाल डेटाबेस का विश्लेषण कर सकता है
- छिपा पैटर्न की स्वचालित खोज
- जटिल डेटा को आसानी से समझने के लिए बहुत से मॉडल उपलब्ध हैं
- यह उच्च गति का है जो उपयोगकर्ताओं के लिए कम समय में बड़ी मात्रा में डेटा का विश्लेषण करना आसान बनाता है
- यह बेहतर भविष्यवाणियों को पैदा करता है
नोट: डेटा वैज्ञानिक बनें
जानें कच्चे डेटा से मूल्य कैसे बनाएं। समझें कि व्यवसाय स्वचालित प्रक्रियाओं को कैसे करता है। सांख्यिकीय विश्लेषण प्रभावी ढंग से करें।
डेटा खनन तकनीक
डेटा खनन में सबसे महत्वपूर्ण कार्य में से एक सही डेटा खनन तकनीक का चयन करना है। डेटा खनन तकनीक को व्यवसाय के प्रकार और आपके व्यवसाय के सामने आने वाली समस्या के प्रकार के आधार पर चुना जाना है।
का उपयोग करने की सटीकता और लागत प्रभावीता में सुधार के लिए एक सामान्यीकृत दृष्टिकोण का उपयोग किया जाना चाहिए। मूल रूप से सात मुख्य डेटा खनन तकनीक हैं जिन पर इस आलेख में चर्चा की गई है। कई अन्य डेटा खनन तकनीक भी हैं लेकिन इन सातों को अक्सर व्यापार लोगों द्वारा उपयोग किया जाता है।
- आंकड़े
- क्लस्टरिंग
- दृश्य
- निर्णय ट्री
- एसोसिएशन नियम
- तंत्रिका जाल
- वर्गीकरण
1. सांख्यिकीय तकनीकें
डेटा खनन तकनीक आंकड़े गणित की एक शाखा है जो डेटा के संग्रह और विवरण से संबंधित है। कई तकनीकों द्वारा सांख्यिकीय तकनीक को डेटा खनन तकनीक के रूप में नहीं माना जाता है। लेकिन फिर भी यह पैटर्न खोजने और भविष्यवाणी मॉडल बनाने में मदद करता है। इस कारण से डेटा विश्लेषक को विभिन्न सांख्यिकीय तकनीकों के बारे में कुछ ज्ञान होना चाहिए। आज की दुनिया में लोगों को बड़ी मात्रा में डेटा से निपटना होगा और इससे महत्वपूर्ण पैटर्न प्राप्त करना होगा। आंकड़े आपके डेटा के बारे में सवालों के जवाब पाने के लिए आपको अधिक हद तक मदद कर सकते हैं
- उनके डेटाबेस में पैटर्न क्या हैं?
- घटना होने की संभावना क्या है?
- व्यापार के लिए कौन से पैटर्न अधिक उपयोगी हैं?
- उच्च स्तरीय सारांश क्या है जो आपको डेटाबेस में क्या है इसका एक विस्तृत दृश्य दे सकता है?
आंकड़े न केवल इन सवालों के जवाब देते हैं जो वे डेटा को सारांशित करने और इसे गिनने में मदद करते हैं। यह आसानी से डेटा के बारे में जानकारी प्रदान करने में भी मदद करता है। सांख्यिकीय रिपोर्ट के माध्यम से लोग स्मार्ट निर्णय ले सकते हैं। आंकड़ों के विभिन्न रूप हैं लेकिन सबसे महत्वपूर्ण और उपयोगी तकनीक डेटा संग्रह और गिनती है। जैसे डेटा एकत्र करने के कई तरीके हैं
- हिस्टोग्राम
- मीन
- मीडियन
- मोड
- वेरियन्स
- मैक्स
- मिन
- रेखीय प्रतिगमन
2. क्लस्टरिंग तकनीक
क्लस्टरिंग डेटा खनन में उपयोग की जाने वाली सबसे पुरानी तकनीकों में से एक है। क्लस्टरिंग विश्लेषण एक दूसरे के समान डेटा की पहचान करने की प्रक्रिया है। यह डेटा के बीच मतभेदों और समानताओं को समझने में मदद करेगा। इसे कभी-कभी विभाजन कहा जाता है और उपयोगकर्ताओं को यह समझने में सहायता करता है कि डेटाबेस में क्या हो रहा है। उदाहरण के लिए, एक बीमा कंपनी अपने ग्राहकों को उनकी आय, आयु, नीति की प्रकृति और दावों के प्रकार के आधार पर समूहित कर सकती है।
विभिन्न प्रकार के क्लस्टरिंग विधियां हैं। वे इस प्रकार हैं
- विभाजन के तरीके
- पदानुक्रमिक अग्ग्लोमेरेटिव तरीकों
- घनत्व आधारित तरीके
- ग्रिड आधारित तरीके
- मॉडल आधारित तरीके
सबसे लोकप्रिय क्लस्टरिंग एल्गोरिदम निकटतम पड़ोसी है। निकटतम पड़ोसी तकनीक क्लस्टरिंग के समान ही है। यह भविष्यवाणी तकनीक है जहां भविष्यवाणी करने के लिए कि एक रिकॉर्ड में अनुमानित मूल्य क्या है, ऐतिहासिक डेटाबेस में समान अनुमानित मूल्यों के साथ रिकॉर्ड की तलाश करें और रिकॉर्ड किए गए रिकॉर्ड के निकट रिकॉर्ड से भविष्यवाणी मूल्य का उपयोग करें। यह तकनीक बस बताती है कि वस्तुओं को एक दूसरे के करीब होने के समान भविष्यवाणी मूल्य होंगे। इस विधि के माध्यम से आप आसानी से निकटतम वस्तुओं के मूल्यों की आसानी से भविष्यवाणी कर सकते हैं। निकटतम पड़ोसी तकनीक का उपयोग करने में सबसे आसान है क्योंकि वे लोगों के विचार के अनुसार काम करते हैं। वे स्वचालन के मामले में भी बहुत अच्छी तरह से काम करते हैं। वे आसानी से जटिल आरओआई गणना करते हैं। इस तकनीक में सटीकता का स्तर अन्य डेटा खनन तकनीक के जितना अच्छा है।
व्यवसाय में निकटतम पड़ोसी तकनीक का उपयोग टेक्स्ट पुनर्प्राप्ति की प्रक्रिया में अक्सर किया जाता है। उन दस्तावेजों को खोजने के लिए उनका उपयोग किया जाता है जो महत्वपूर्ण विशेषताओं को उस मुख्य दस्तावेज़ के साथ साझा करते हैं जिन्हें दिलचस्प के रूप में चिह्नित किया गया है।
3. दृश्य
दृश्य सबसे उपयोगी तकनीक है जिसका उपयोग डेटा पैटर्न खोजने के लिए किया जाता है। इस तकनीक का उपयोग डेटा खनन प्रक्रिया की शुरुआत में किया जाता है। डेटाबेस के दिलचस्प प्रक्षेपण के लिए इन दिनों कई शोध चल रहे हैं, जिन्हें प्रक्षेपण पीछा कहा जाता है। बहुत सारी डेटा खनन तकनीक है जो अच्छे डेटा के लिए उपयोगी पैटर्न तैयार करेगी। लेकिन दृश्य एक ऐसी तकनीक है जो खराब डेटा को अच्छे डेटा में परिवर्तित करती है ताकि छिपे हुए पैटर्न की खोज में विभिन्न प्रकार के डेटा माइनिंग विधियों का उपयोग किया जा सके।
4. प्रेरण डिसिजन ट्री तकनीक
एक डिसिजन ट्री एक भविष्यवाणी मॉडल है और नाम का तात्पर्य है कि यह एक पेड़ की तरह दिखता है। इस तकनीक में, पेड़ की प्रत्येक शाखा को वर्गीकरण प्रश्न के रूप में देखा जाता है और पेड़ों की पत्तियों को उस विशेष वर्गीकरण से संबंधित डेटासेट के विभाजन के रूप में माना जाता है। इस तकनीक का उपयोग अन्वेषण विश्लेषण, डेटा प्री-प्रोसेसिंग और पूर्वानुमान कार्य के लिए किया जा सकता है।
डिसिजन ट्री को मूल डेटासेट के विभाजन के रूप में माना जा सकता है जहां विभाजन किसी विशेष कारण से किया जाता है। सेगमेंट के अंतर्गत आने वाले प्रत्येक डेटा में उनकी जानकारी की भविष्यवाणी की कुछ समानताएं होती हैं। निर्णय पेड़ परिणाम प्रदान करते हैं जिन्हें उपयोगकर्ता द्वारा आसानी से समझा जा सकता है।
डिसिजन ट्री तकनीक ज्यादातर आंकड़ों द्वारा यह पता लगाने के लिए उपयोग की जाती है कि कौन सा डेटाबेस व्यवसाय की समस्या से अधिक संबंधित है। भविष्यवाणी और डेटा प्री-प्रोसेसिंग के लिए निर्णय पेड़ तकनीक का उपयोग किया जा सकता है।
इस तकनीक में पहला और सबसे पहला कदम पेड़ उग रहा है। पेड़ को बढ़ाने का मूल पेड़ की प्रत्येक शाखा में पूछे जाने वाले सर्वोत्तम संभव प्रश्न को खोजने पर निर्भर करता है। निर्णय पेड़ नीचे दी गई किसी भी परिस्थिति में से किसी एक के तहत बढ़ता जा रहा है
- अगर खंड में केवल एक रिकॉर्ड है
- सभी अभिलेखों में समान विशेषताएं होती हैं
- विकास आगे बढ़ने के लिए पर्याप्त नहीं है
कार्ट जो वर्गीकरण और वापसी पेड़ के लिए खड़ा है, एक डेटा अन्वेषण और भविष्यवाणी एल्गोरिदम है जो प्रश्नों को अधिक जटिल तरीके से चुनता है। यह उन सभी की कोशिश करता है और फिर एक सबसे अच्छा सवाल चुनता है जिसका उपयोग डेटा को दो या दो से अधिक खंडों में विभाजित करने के लिए किया जाता है। खंडों पर निर्णय लेने के बाद यह फिर से प्रत्येक नए खंड पर प्रश्न पूछता है।
एक और लोकप्रिय निर्णय पेड़ प्रौद्योगिकी सीएचएआइडी (ची-स्क्वायर स्वचालित इंटरैक्शन डिटेक्टर) है। यह कार्ट के समान है लेकिन यह एक तरह से अलग है। कार्ट सबसे अच्छा प्रश्न चुनने में मदद करता है जबकि सीएचएआइडी विभाजन को चुनने में मदद करता है।
5. तंत्रिका नेटवर्क
तंत्रिका नेटवर्क इन दिनों लोगों द्वारा उपयोग की जाने वाली एक और महत्वपूर्ण तकनीक है। इस तकनीक का उपयोग अक्सर डेटा खनन प्रौद्योगिकी के शुरुआती चरणों में किया जाता है। कृत्रिम तंत्रिका नेटवर्क कृत्रिम बुद्धि के समुदाय से बना था।
तंत्रिका नेटवर्क का उपयोग करना बहुत आसान होता है क्योंकि वे किसी विशेष सीमा तक स्वचालित होते हैं और इस वजह से उपयोगकर्ता को काम या डेटाबेस के बारे में ज्यादा जानकारी नहीं होने की उम्मीद है। लेकिन तंत्रिका नेटवर्क को कुशलता से काम करने के लिए आपको जानना आवश्यक है
- नोड्स कैसे जुड़े हुए हैं?
- कितने प्रसंस्करण इकाइयों का उपयोग किया जाना चाहिए?
- प्रशिक्षण प्रक्रिया को कब रोकना चाहिए?
इस तकनीक के दो मुख्य भाग हैं – नोड और लिंक
- नोड– जो मानव मस्तिष्क में न्यूरॉन से स्वतंत्र रूप से मेल खाता है
- लिंक– जो मानव मस्तिष्क में न्यूरॉन्स के बीच कनेक्शन से स्वतंत्र रूप से मेल खाता है
एक तंत्रिका नेटवर्क इंटरकनेक्टेड न्यूरॉन्स का संग्रह है। जो एक परत या एकाधिक परत बना सकता है। न्यूरॉन्स और उनके अंतःक्रियाओं के गठन को नेटवर्क की वास्तुकला कहा जाता है। तंत्रिका नेटवर्क मॉडल की एक विस्तृत विविधता है और प्रत्येक मॉडल के अपने फायदे और नुकसान होते हैं। प्रत्येक तंत्रिका नेटवर्क मॉडल में विभिन्न आर्किटेक्चर होते हैं और ये आर्किटेक्चर विभिन्न सीखने की प्रक्रियाओं का उपयोग करते हैं।
तंत्रिका नेटवर्क बहुत मजबूत भविष्यवाणी मॉडलिंग तकनीक हैं। लेकिन विशेषज्ञों द्वारा भी समझना बहुत आसान नहीं है। यह बहुत जटिल मॉडल बनाता है जो पूरी तरह से समझना असंभव है। इस प्रकार तंत्रिका नेटवर्क तकनीक कंपनियों को समझने के लिए नए समाधान मिल रहे हैं। दो समाधान पहले ही सुझाए जा चुके हैं
- पहला समाधान है न्यूरल नेटवर्क को एक पूर्ण समाधान में पैक किया गया है जो इसे एक ही अनुप्रयोग के लिए इस्तेमाल करने देगा
- दूसरा समाधान यह है कि यह विशेषज्ञ परामर्श सेवाओं से बंधे हैं
विभिन्न प्रकार के अनुप्रयोगों में तंत्रिका नेटवर्क का उपयोग किया गया है। व्यापार में धोखाधड़ी का पता लगाने के लिए इसका इस्तेमाल व्यापार में किया गया है।
6. एसोसिएशन नियम तकनीक
यह तकनीक दो या दो से अधिक वस्तुओं के बीच संबंध खोजने में मदद करती है। यह डेटाबेस में विभिन्न चर के बीच संबंधों को जानने में मदद करता है। यह डेटा सेट में छिपे हुए पैटर्न को खोजता है जो चर की पहचान करने के लिए उपयोग किया जाता है और उच्चतम आवृत्तियों के साथ दिखाई देने वाले विभिन्न चर की लगातार घटना होती है।
एसोसिएशन नियम दो प्रमुख सूचना प्रदान करता है
- समर्थन– अक्सर नियम लागू होता है?
- विश्वास– नियम कितनी बार सही है?
यह तकनीक दो चरणों की प्रक्रिया का पालन करती है
- सभी अक्सर होने वाले डेटा सेट खोजें
- लगातार डेटा सेट से मजबूत एसोसिएशन नियम बनाएं
तीन प्रकार के एसोसिएशन नियम हैं। वो हैं
- बहुस्तरीय संघ नियम
- बहुआयामी एसोसिएशन नियम
- मात्रात्मक एसोसिएशन नियम
बिक्री में पैटर्न खोजने के लिए इस तकनीक का ज्यादातर खुदरा उद्योग में उपयोग किया जाता है। इससे रूपांतरण दर में वृद्धि होगी और इस प्रकार लाभ बढ़ जाएगा।
7. वर्गीकरण
डेटा खनन तकनीक वर्गीकरण सबसे अधिक उपयोग की जाने वाली डेटा खनन तकनीक है जिसमें एक मॉडल बनाने के लिए पूर्व वर्गीकृत नमूने का एक सेट होता है जो डेटा के बड़े सेट को वर्गीकृत कर सकता है। यह तकनीक डेटा और मेटाडेटा (डेटा के बारे में डेटा) के बारे में महत्वपूर्ण जानकारी प्राप्त करने में मदद करती है। यह तकनीक क्लस्टर विश्लेषण तकनीक से बारीकी से संबंधित है और यह निर्णय पेड़ या तंत्रिका नेटवर्क प्रणाली का उपयोग करती है। इस तकनीक में शामिल दो मुख्य प्रक्रियाएं हैं
- सीखना– इस प्रक्रिया में डेटा वर्गीकरण एल्गोरिदम द्वारा विश्लेषण किया जाता है
- वर्गीकरण– इस प्रक्रिया में डेटा वर्गीकरण नियमों की सटीकता को मापने के लिए उपयोग किया जाता है
वर्गीकरण मॉडल के विभिन्न प्रकार हैं। वे इस प्रकार हैं
- निर्णय पेड़ प्रेरण द्वारा वर्गीकरण
- बायेसियन वर्गीकरण
- तंत्रिका जाल
- समर्थन वेक्टर मशीनें (एसवीएम)
- एसोसिएशन के आधार पर वर्गीकरण
वर्गीकरण तकनीक का एक अच्छा उदाहरण ईमेल प्रदाता है।
डेटा खनन तकनीक निष्कर्ष
इस लेख से हम महत्वपूर्ण डेटा खनन तकनीक को जानते हैं। और प्रत्येक तकनीक की विशेषताओं और विनिर्देशों को विस्तार से समझाया गया है। डेटा खनन व्यवसाय के कई क्षेत्रों में एक महत्वपूर्ण उपकरण साबित हुआ है और किसी समस्या के समाधान को प्राप्त करने में तकनीकों का सबसे अच्छा उपयोग किया जाता है। इसलिए कंपनियों के लिए स्मार्ट खनन करने में मदद करने के लिए कंपनियों को डेटा खनन तकनीक का उपयोग करना बहुत महत्वपूर्ण है। किसी व्यवसाय में समस्या को हल करने के लिए कोई भी तकनीक का उपयोग नहीं किया जा सकता है। किसी समस्या को हल करने के लिए सभी डेटा खनन तकनीक को हाथ में जाना चाहिए।