Updated May 22, 2023
टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स के बीच मतभेद
1 9 00 के शुरुआती दशक से संरचित डेटा वहां से बाहर रहा है, लेकिन टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स को इतना खास बना दिया गया है कि असंगठित डेटा (प्राकृतिक भाषा प्रसंस्करण) से जानकारी का लाभ उठाना। एक बार जब हम इस असंगठित टेक्स्ट को अर्द्ध-संरचित या संरचित डेटा में परिवर्तित करने में सक्षम होते हैं तो यह सभी डेटा माइनिंग एल्गोरिदम पूर्व लागू करने के लिए उपलब्ध होगा । सांख्यिकीय और मशीन सीखने एल्गोरिदम।
यहां तक कि डोनाल्ड ट्रम्प भी डेटा का लाभ उठाने और सूचना में परिवर्तित करने में सक्षम था जिसने उन्हें अमेरिकी राष्ट्रपति चुनाव जीतने में मदद की, मूल रूप से उन्होंने इसे अपने अधीनस्थों को नहीं किया। वहाँ एक बहुत अच्छा लेख है http://fivethirtyeight.com/features/the-real-story-of-2016/ आप इसके माध्यम से जा सकते हैं।
कई व्यवसायों ने वहां उपलब्ध टेक्स्ट से मूल्यवान इनपुट का उपयोग करने के लिए टेक्स्ट माइनिंग का उपयोग करना शुरू कर दिया है, उदाहरण के लिए, एक उत्पाद आधारित कंपनी ट्विटर डेटा / फेसबुक डेटा का उपयोग कर जान सकती है ताकि यह पता चल सके कि दुनिया में उनके उत्पाद कितने अच्छे या बुरे हैं एनालिटिक्स । प्रारंभिक दिनों में प्रसंस्करण में मशीन सीखने वाले एल्गोरिदम को संसाधित या कार्यान्वित करने के लिए वास्तव में बहुत समय लगता था, लेकिन हडोप, एज़ूर, केएनआईएम और अन्य बड़े डेटा जैसे उपकरणों की शुरूआत के साथप्रसंस्करण सॉफ्टवेयर के टेक्स्ट माइनिंग ने बाजार में भारी लोकप्रियता प्राप्त की है। एसोसिएशन माइनिंग का उपयोग कर टेक्स्ट एनालिटिक्स के सर्वोत्तम उदाहरणों में से एक अमेज़ॅन की सिफारिश इंजन है जहां यह स्वचालित रूप से अपने ग्राहक को सिफारिशें देता है कि किसी अन्य उत्पाद को खरीदने के दौरान अन्य लोगों ने क्या खरीदा।
डिजिटल माइनिंग / कंप्यूटर ड्राइव पर नहीं है जो टेक्स्ट माइनिंग उपकरण को लागू करने की सबसे बड़ी चुनौतियों में से एक है इसे बनाने की प्रक्रिया है। पुराने अभिलेखागार और कई महत्वपूर्ण दस्तावेज जो केवल कागजात पर उपलब्ध होते हैं उन्हें कभी-कभी ओसीआर (ऑप्टिकल कैरेक्टर रिकग्निशन) के माध्यम से पढ़ा जाता है, जिसमें कई त्रुटियां होती हैं और कभी-कभी डेटा मैन्युअल रूप से दर्ज किया जाता है जो मानव गलतियों से ग्रस्त है। कारण हम चाहते हैं कि हम अन्य अंतर्दृष्टि प्राप्त कर सकें जो परंपरागत पढ़ने से दिखाई नहीं दे रहे हैं।
टेक्स्ट माइनिंग के कुछ कदम नीचे दिए गए हैं
- सूचना पुनर्प्राप्ति
- डेटा तैयारी और सफाई
- विभाजन
- टोकनिजेशन
- रोक शब्द संख्या और विराम चिह्न हटाने
- स्टेमिंग
- लोअरकेस में कनवर्ट करें
- पीओएस टैगिंग
- टेक्स्ट कॉर्पस बनाएं
- टर्म-दस्तावेज़ मैट्रिक्स
और नीचे टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स में चरण हैं जो टर्म डॉक्यूमेंट मैट्रिक्स तैयार होने के बाद लागू होते हैं
- मॉडलिंग (इसमें असामान्य मॉडल, भविष्यवाणी मॉडल या अनुवांशिक मॉडल शामिल हो सकते हैं)
- मॉडल का प्रशिक्षण और मूल्यांकन
- इन मॉडल का आवेदन
- मॉडल को विज़ुअलाइज़ करना
केवल एक चीज को हमेशा याद रखना चाहिए कि टेक्स्ट माइनिंग हमेशा टेक्स्ट एनालिटिक्स से पहले होता है।
टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स (इन्फोग्राफिक्स) के बीच हेड तुलना में प्रमुख
भविष्यवाणी टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स के बीच 5 तुलना नीचे है
टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स के बीच मतभेद महत्वपूर्ण
चलिए कुछ अनुप्रयोगों में शामिल चरणों के आधार पर टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स को अलग करते हैं, जहां इन टेक्स्ट माइनिंग और टेक्स्ट एनालिटिक्स दोनों लागू होते हैं:
- दस्तावेजों का वर्गीकरण
इस चरण में जो टेक्स्ट माइनिंग में शामिल हैं, वे टोकननाइजेशन, स्टेमिंग और लेमैमैटिज़ेशन, स्टॉपवर्ड और विराम चिह्न को हटा रहे हैं और अंतिम आवृत्ति मैट्रिक्स या दस्तावेज़ फ्रीक्वेंसी मैट्रिक्स शब्द को कंप्यूटिंग करते हैं।
टोकननाइजेशन – पूरे डेटा (कॉर्पस) को छोटे हिस्सों या छोटे शब्दों में विभाजित करने की प्रक्रिया आमतौर पर एकल शब्दों को टोकननाइजेशन (एन-ग्राम मॉडल या शब्द मॉडल का थैला) के रूप में जाना जाता है।
स्टेमिंग और लेमैमैटिज़ेशन – उदाहरण के लिए, बड़े बड़े और सबसे बड़े सभी का मतलब समान होता है और यह डेटा को अनावश्यक डेटा रखने के लिए डुप्लिकेट डेटा बना देगा, हम मूल शब्द के साथ शब्दों को जोड़कर लेमैमैटिज़ेशन करते हैं।
स्टॉप शब्द को हटाएं – रोकें शब्दों को एनालिटिक्स में कोई उपयोग नहीं है जिसमें शब्द, इत्यादि आदि शामिल होंगे।
टर्म आवृत्तियों – यह एक मैट्रिक्स है जिसमें पंक्ति शीर्षलेख दस्तावेज़ नाम के रूप में हैं और कॉलम शब्द (शब्द) के रूप में हैं और डेटा उन विशेष दस्तावेज़ों में होने वाले शब्दों की आवृत्ति है। नीचे एक नमूना स्क्रीनशॉट है।
उपर्युक्त आंकड़े में, हमारे पास पंक्तियों (शब्दों) और दस्तावेज़ संख्या में कॉलम और शब्द आवृत्ति डेटा के रूप में गुण हैं।
अब टेक्स्ट एनालिटिक्स में आ रहे हमारे पास निम्नलिखित कदम हैं जिन पर विचार करने की आवश्यकता है
क्लस्टरिंग – के-मतलब क्लस्टरिंग / तंत्रिका नेटवर्क / कार्ट (वर्गीकरण और रिग्रेशन पेड़) या किसी अन्य क्लस्टरिंग एल्गोरिदम का उपयोग करके हम अब जेनरेट की गई सुविधाओं (यहां शब्द हैं) के आधार पर दस्तावेजों को क्लस्टर कर सकते हैं।
मूल्यांकन और विजुअलाइजेशन – हम क्लस्टर को दो आयामों में प्लॉट करते हैं और देखें कि ये क्लस्टर एक-दूसरे से कैसे भिन्न होते हैं, और यदि मॉडल परीक्षण डेटा पर अच्छा रहता है तो हम इसे उत्पादन में तैनात कर सकते हैं और यह एक अच्छा दस्तावेज़ वर्गीकरण होगा जो किसी भी नए वर्गीकृत करेगा दस्तावेज जो इनपुट के रूप में दिए जाते हैं और यह उस क्लस्टर का नाम रखेगा जिसमें वह गिर जाएगा।
•भावनाओं का एनालिटिक्स
बाजार में मौजूद सबसे शक्तिशाली उपकरण में से एक जो ट्विटर डेटा / फेसबुक डेटा या किसी अन्य डेटा को संसाधित करने में मदद करता है जिसका उपयोग भावनाओं को प्राप्त करने के लिए किया जा सकता है चाहे भावना किसी भी विशेष प्रक्रिया / उत्पाद के लिए अच्छा, बुरा या तटस्थ हो या व्यक्ति भावना एनालिटिक्स है।
ट्वीट का ट्वीट या किसी कंपनी के एक पोस्ट पर ट्वीट / टिप्पणियां / पसंद आदि प्राप्त करने के लिए ट्विटर एपीआई / फेसबुक एपीआई का उपयोग करके डेटा का स्रोत आसानी से उपलब्ध हो सकता है। बड़ी समस्या यह है कि, इस डेटा को ढांचा बनाना मुश्किल है। डेटा में विभिन्न विज्ञापन भी होंगे और डेटा वैज्ञानिक जो कंपनी के लिए काम करता है, यह सुनिश्चित करना है कि डेटा का चयन सही तरीके से किया जाए ताकि केवल चयनित ट्वीट / पोस्ट प्री-प्रोसेसिंग चरणों के लिए हो जाएं।
अन्य टूल्स में वेब-स्क्रैपिंग शामिल है, यह टेक्स्ट माइनिंग का एक हिस्सा है जिसमें आप क्रॉलर का उपयोग कर वेबसाइटों से डेटा स्क्रैप करते हैं।
टेक्स्ट माइनिंग की प्रक्रिया टोकननाइजेशन, स्टेमिंग और लेमैमैटिज़ेशन, स्टॉपवर्ड्स और विराम चिह्न को हटाने और अंतिम कंप्यूटिंग, टर्म आवृत्ति मैट्रिक्स या दस्तावेज़ फ्रीक्वेंसी मैट्रिस के समान ही है, लेकिन भावना एनालिटिक्स को लागू करते समय केवल अंतर आता है।
आमतौर पर, हम किसी भी पोस्ट / ट्वीट को स्कोर देते हैं। आम तौर पर, जब आप कोई उत्पाद खरीदते हैं और समीक्षा करते हैं तो आपको सितारों को समीक्षा देने और टिप्पणी पोस्ट करने का विकल्प भी दिया जाता है। गूगल , अमेज़ॅन और अन्य वेबसाइटें सितारों का उपयोग टिप्पणी को रेट करने के लिए करती हैं, न केवल वे ट्वीट्स / पोस्ट भी लेते हैं और उन्हें मनुष्यों को अच्छे / बुरे / तटस्थ के रूप में रेट करने के लिए देते हैं और इन दो अंकों को जोड़कर वे एक नया स्कोर उत्पन्न करते हैं कोई विशेष ट्वीट / पोस्ट।
भावना एनालिटिक्स का विज़ुअलाइजेशन शब्द क्लाउड, फ्रीक्वेंसी टर्म मैट्रिक्स के बार चार्ट का उपयोग करके किया जा सकता है।
• एसोसिएशन माइनिंग एनालिटिक्स
जिन अनुप्रयोगों पर कुछ लोग काम कर रहे थे उनमें से एक था “प्रतिकूल ड्रग इवेंट प्रोबैबिस्टिक मॉडल” जिसमें कोई भी जांच कर सकता है कि कौन सी प्रतिकूल घटनाएं अन्य प्रतिकूल घटनाओं का कारण बन सकती हैं यदि वह कोई विशेष दवा लेता है।
टेक्स्ट माइनिंग में नीचे वर्कफ़्लो शामिल था
उपर्युक्त आंकड़े से, हम देख सकते हैं कि डेटा माइनिंग तक सभी चरणों में टेक्स्ट माइनिंग से संबंधित है जो डेटा के स्रोत की पहचान कर रहा है, उन्हें निकालने और फिर इसे एनालिटिक्स के लिए तैयार करने की तैयारी कर रहा है।
फिर एसोसिएशन माइनिंग लागू करने के बाद हमारे पास नीचे मॉडल है
जैसा कि हम देख सकते हैं कि कुछ तीर अंक नारंगी सर्कल की तरफ इशारा करते हैं और फिर एक तीर बिंदु किसी भी एक विशेष एडीई (प्रतिकूल दवा घटना) की ओर इंगित करता है। अगर हम छवि के बाईं तरफ एक उदाहरण लेते हैं तो हम उदासीनता, अस्थिभंग और असामान्य लीड को महसूस करने के लिए महसूस कर सकते हैं, अच्छी तरह से कोई यह कह सकता है कि यह स्पष्ट है, यह स्पष्ट है क्योंकि एक इंसान के रूप में आप व्याख्या और संबंधित हो सकते हैं लेकिन यहां एक मशीन इसका अर्थ है और हमें अगली प्रतिकूल दवा घटना दे रहा है।
शब्द क्लाउड का एक उदाहरण नीचे जैसा है
टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स के बीच तुलना तालिका
नीचे अंक की सूचियां हैं, टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स के बीच तुलना का वर्णन करें:
तुलना के लिए आधार | टेक्स्ट माइनिंग | टेक्स्ट एनालिटिक्स |
अर्थ |
टेक्स्ट माइनिंग मूल रूप से टेक्स्ट एनालिटिक्स के लिए उपलब्ध होने के लिए ओडी डेटा की सफाई कर रहा है | टेक्स्ट एनालिटिक्स सांख्यिकीय और मशीन लर्निंग तकनीकों का उपयोग कर रहा है ताकि टेक्स्ट-माइनिंग डेटा से किसी भी जानकारी की भविष्यवाणी / अनुमान लगाने या अनुमान लगाया जा सके। |
संकल्पना |
टेक्स्ट माइनिंग एक ऐसा उपकरण है जो डेटा को साफ़ करने में मदद करता है। | टेक्स्ट एनालिटिक्स एल्गोरिदम लागू करने की प्रक्रिया है |
ढांचा |
यदि हम ढांचे के बारे में बात करते हैं, तो टेक्स्ट माइनिंग ईटीएल(ट्रांसफॉर्म लोड निकालें) केसमान है , जिसका अर्थ है डेटाबेस में डेटा डालने में सक्षम होना इन चरणों को किया जाता है | टेक्स्ट एनालिटिक्स में इस डेटा का उपयोग व्यापार में मूल्य जोड़ने के लिए किया जाता है, उदाहरण के लिए शब्द बादल बनाना, द्वि-ग्राम फ्रीक्वेंसी चार्ट, कुछ मामलों में एन-ग्राम |
भाषा |
पाइथन और आर टेक्स्ट माइनिंग के लिए सबसे प्रसिद्ध टेक्स्ट माइनिंग उपकरण हैं | डेटाबेस स्तर पर डेटा उपलब्ध होने के बाद टेक्स्ट एनालिटिक्स के लिए हम पाइथन और आर सहित अन्य एनालिटिक्स सॉफ़्टवेयर का उपयोग कर सकते हैं। अन्य सॉफ़्टवेयर में पावर बीआई, एज़ूर, केएनआईएम इत्यादि शामिल हैं। |
उदाहरण |
· टेक्स्ट वर्गीकरण
· टेक्स्ट क्लस्टरिंग · अवधारणा / इकाई निष्कर्षण · भावनाओं का एनालिटिक्स · दस्तावेज संक्षेपण · दानेदार टैक्सोनोमी का उत्पादन · इकाई संबंध मॉडलिंग |
· एसोसिएशन एनालिटिक्स
· दृश्य · भविष्यिक एनालिटिक्स · सूचना पुनर्प्राप्ति · व्याख्यात्मक एनालिटिक्स · पैटर्न मान्यता · टैगिंग / एनोटेशन |
निष्कर्ष – टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स
टेक्स्ट माइनिंग और टेक्स्ट एनालिटिक्स का भविष्य न केवल अंग्रेजी पर लागू होता है, निरंतर प्रगति हुई है और भाषाई उपकरणों का उपयोग न केवल अंग्रेजी अन्य भाषाओं को भी एनालिटिक्स के लिए माना जाता है।
टेक्स्ट माइनिंग का दायरा और भविष्य बढ़ेगा क्योंकि अन्य भाषाओं का एनालिटिक्स करने के लिए सीमित संसाधन हैं।
टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्सकी एक विस्तृत श्रृंखला है जहां इसे लागू किया जा सकता है, उद्योगों के कुछ उदाहरण जहां इसका उपयोग किया जा सकता है:
- सोशल मीडियानिगरानी
- फार्मा / बायोटेक अनुप्रयोग
- व्यापार और विपणन अनुप्रयोग
अनुशंसित आलेख
यह टेक्स्ट माइनिंग बनाम टेक्स्ट एनालिटिक्स, उनके अर्थ, हेड टू हेड तुलना, मुख्य मतभेद, तुलना तालिका और निष्कर्ष के बीच अंतर का मार्गदर्शक रहा है। आप और जानने के लिए निम्नलिखित लेख भी देख सकते हैं –
- अज़ूर पास बनाम आईएएएस- मतभेदों का पता लगाएं
- डाटा माइनिंग बनाम टेक्स्ट माइनिंग के बारे में जानने के लिए सर्वश्रेष्ठ 3 चीजें
- डेटा माइनिंग बनाम डेटा एनालिटिक्स के बीच सर्वश्रेष्ठ 7 अंतर जानें
- बिजनेस इंटेलिजेंस बनाम मशीन लर्निंग- कौन सा बेहतर है
- अनुमानित एनालिटिक्स बनाम डेटा माइनिंग – कौन सा अधिक उपयोगी है