सांख्यिकी क्या है? (What is Statistics?)
Overview
इस लेख में हम गणित के एक महत्त्वपूर्ण अध्याय के बारे में जानेंगे - What is Statistics?, in Hindi
इस अध्याय से सम्बंधित, अन्य विषयों के बारे में जानने के लिए आप हमारे निम्नलिखित लेख पढ़ सकते हैं:
सांख्यिकी (Statistics) एक ऐसा विज्ञान है, जिसमें 3 चरण शामिल होते हैं:
- सांख्यिकीय डेटा एकत्र करना - लक्षित आबादी (target population) के प्रतिनिधि नमूने (representative sample) से बड़ी मात्रा में संख्यात्मक डेटा एकत्र करना।
- सांख्यिकीय डेटा का विश्लेषण - उस संख्यात्मक डेटा का विश्लेषण करना, इसे प्रयोग करने योग्य जानकारी में परिवर्तित करना।
- नमूने से निकाली गई जानकारी से संपूर्ण लक्षित आबादी के बारे में अनुमान लगाना।
सांख्यिकीय डेटा मूल रूप से तथ्य (facts) होते हैं जिन्हें हम लक्षित जनसंख्या के नमूने से एकत्र करते हैं। उदाहरण के लिए, चुनाव के बाद एक्जिट पोल में कुछ मतदाताओं से कुछ प्रश्न पूछे जाते हैं, जैसे की, वे किसे वोट देते हैं, उनके लिए सबसे महत्वपूर्ण राष्ट्रीय/राज्य का मुद्दा क्या है, आदि।
यदि हमारा डेटा संग्रह दोषपूर्ण है, तो उसके विश्लेषण के आधार पर हम जो भी निष्कर्ष निकालते हैं, वह भी गलत होगा।
जनसंख्या (Population) - यह लक्ष्य समूह है जिसके बारे में हम एक सांख्यिकीय अध्ययन करना चाहते हैं, और जिससे हम डेटा एकत्र करना चाहते हैं।
उदाहरण के लिए, लोगों का एक समूह, किसी क्षेत्र में वर्षा की मात्रा, सौर विकिरण पैटर्न, आदि।
जनसंख्या का आकार (अर्थात जनसंख्या में वस्तुओं या व्यक्तियों की कुल संख्या) परिमित (finite) या अनंत (infinite) हो सकता है।
नमूना (Sample) - यह जनसंख्या का वह हिस्सा है जो लक्षित जनसंख्या की सभी विशेषताओं का प्रतिनिधित्व करता है, और जिसे नमूनाकरण (sampling) की प्रक्रिया के माध्यम से सांख्यिकीय अध्ययन के उद्देश्य के लिए चुना गया है।
अधिकांश समय लक्षित जनसंख्या इतनी अधिक होती है, कि हम प्रत्येक तत्व/व्यक्ति का अध्ययन नहीं कर सकते। इसलिए हम इसका एक नमूना लेते हैं, और फिर इसका अध्ययन करने के बाद हम पूरी लक्षित आबादी के बारे में चीजों का अनुमान लगाने की कोशिश करते हैं।
सांख्यिकी की शाखाएं (Branches of Statistics)
सांख्यिकी की दो शाखाएँ हैं:
विवरणात्मक सांख्यिकी (Descriptive statistics) - यह कुछ निश्चित आंकड़ों का सारांश है। यह विश्लेषण के तहत डेटा का एक सिंहावलोकन (overview) देने के उद्देश्य से कार्य करता है। उदाहरण के लिए, यदि आप जानना चाहते हैं कि कोई छात्र गणित में कैसा है, तो आप पिछले 10 गणित परीक्षणों में उसके द्वारा प्राप्त अंकों के औसत पर एक नज़र डाल सकते हैं।
हम परिणाम प्रदर्शित करने के लिए विभिन्न तालिकाओं, चार्टों और ग्राफ़ का उपयोग करते हैं।
अनुमानात्मक सांख्यिकी (Inferential statistics) - यह एक सांख्यिकीय पद्धति है जो केवल एक छोटे लेकिन प्रतिनिधि नमूने का विश्लेषण करके, एक बड़ी लक्षित आबादी की विशेषताओं को पता करने में हमारी सहायता करती है। उदाहरण के लिए, एक जीवन बीमा कंपनी में एक बीमांकक (actuary), दिल की समस्याओं वाले व्यक्ति की जीवन प्रत्याशा का पता लगाने की कोशिश करता है और फिर यह तय करता है कि ऐसे लोगों को अपनी जीवन बीमा पॉलिसी के लिए कितना प्रीमियम देना चाहिए। इस उद्देश्य के लिए, वह केवल कुछ हृदय रोगियों के डेटा का विश्लेषण करता है, और फिर संपूर्ण लक्षित आबादी के बारे में धारणा (यानी सामान्यीकरण या निष्कर्ष निकालना) बनाता है।
यहां, हमारा लक्ष्य भविष्य की भविष्यवाणी करना है। हमें विश्लेषण के अंत में प्रायिकता अंक (probability scores) मिलते हैं।
वर्णनात्मक सांख्यिकी के उपकरण (Tools of Descriptive Statistics)
दो सामान्य प्रकार के वर्णनात्मक सांख्यिकी उपकरण हैं, जिनका उपयोग डेटा का विश्लेषण और वर्णन करने के लिए किया जाता है:
- केन्द्रीय प्रवृत्ति की माप (Measures of Central tendency) - उदा. माध्य (Mean), माध्यिका (Median), बहुलक (Mode)
- Measures of Dispersion or Spread - उदा. रेंज (range), चतुर्थक विचलन (quartile deviation), माध्य विचलन (mean deviation) और निरपेक्ष विचलन (absolute deviation), वैरिअन्स (variance), स्टैण्डर्ड डिवीएशन (Standard Deviation)
हम अलग-अलग लेखों में इनका अधिक विस्तार से अध्ययन करेंगे।
अनुमानात्मक सांख्यिकी के उपकरण (Tools of Inferential Statistics)
अनुमानात्मक सांख्यिकी में, हम hypothesis tests, analysis of variance, आदि जैसे उपकरणों का उपयोग करते हैं।
सांख्यिकीय डेटा के प्रकार (Types of Statistical data)
अब, आइए देखें वे विभिन्न प्रकार के डेटा जिनका हम यहाँ सामना कर सकते हैं। डेटा को विभिन्न मापदंडों के आधार पर वर्गीकृत किया जा सकता है।
स्रोत पर आधारित (Based on Source)
उस स्रोत के आधार पर जहां से हमें डेटा मिला है, हम इसे प्राथमिक और द्वितीयक डेटा में विभाजित कर सकते हैं।
प्राथमिक डेटा (Primary Data) - यह किसी अन्वेषक (investigator) द्वारा अपने स्वयं के उद्देश्य के लिए पहली बार एकत्र किया गया डेटा है। उदाहरण के लिए, एग्जिट पोल के दौरान विभिन्न समाचार चैनल एजेंसियों द्वारा एकत्र किए गए डेटा। इस प्रकार के डेटा को अधिक विश्वसनीय और प्रासंगिक माना जाता है।
द्वितीयक डेटा (Secondary Data) - जैसा कि नाम से पता चलता है, जब कोई अन्वेषक ऐसे डेटा का उपयोग करता है जो पहले किसी और द्वारा एकत्र किया गया था, तो इसे द्वितीयक डेटा कहा जाता है। इसलिए, प्राथमिक डेटा, जब किसी और द्वारा उपयोग किया जाता है, तो उसे द्वितीयक डेटा कहा जाता है। उदाहरण के लिए, कभी-कभी कई एग्जिट पोल के पोल किए जाते हैं, यानी सभी विभिन्न एग्जिट पोल का विश्लेषण किया जाता है और उसी के आधार पर एक एक्जिट पोल निकाला जाता है।
प्राथमिक डेटा एकत्र करना एक श्रमसाध्य और समय लेने वाला काम है। कभी-कभी, प्राथमिक डेटा एकत्र करना संभव ही नहीं होता है, भले ही कोई चाहे तो भी। उदाहरण के लिए, यदि कोई प्रथम विश्व युद्ध पर अध्ययन कर रहा है, तो उसे स्पष्ट रूप से पुराने डेटा पर निर्भर रहना ही होगा।
डेटा को इस आधार पर भी वर्गीकृत किया जा सकता है कि उसे समूहीकृत (grouped) किया गया है या नहीं।
Raw or Ungrouped Data - यह वह डेटा है जिसे बिल्कुल भी व्यवस्थित नहीं किया गया है। उदाहरण के लिए, एक परीक्षा में 8 छात्रों के अंक - 34, 56, 81, 23, 81, 56, 45, 91
Grouped Data - जब एकत्रित किए गए अपरिष्कृत डेटा (raw data) को समूहों/श्रेणियों में व्यवस्थित किया जाता है, तो उसे समूहीकृत डेटा (Grouped data) कहा जाता है। उदाहरण के लिए, एक परीक्षा में 8 छात्रों के अंक - 34, 56, 81, 23, 81, 56, 45, 91, को कुछ समूहों में एक साथ रखा जा सकता है और निम्नानुसार प्रदर्शित किया जा सकता है:
प्राप्त अंक | 23 | 34 | 45 | 56 | 81 | 91 |
---|---|---|---|---|---|---|
छात्रों की संख्या | 1 | 1 | 1 | 2 | 2 | 1 |
सांख्यिकी में वर्ग (Classes in Statistics)
कभी-कभी हम डेटा को विभिन्न समूहों में विभाजित करते हैं, जिसमें प्रत्येक समूह एक निश्चित सीमा को कवर करता है। इन समूहों को वर्ग (कक्षा, classes) कहा जाता है।
सांख्यिकी में वर्गों से संबंधित कुछ शब्द हैं जिनका आप अक्सर सामना करेंगे। इसलिए, उनके साथ पहले से परिचित होना एक अच्छा विचार होगा।
वर्ग अंतराल (Class Interval)
जब हम दिए गए डेटा को समूहों में विभाजित करते हैं, तो प्रत्येक समूह मूल्यों की एक निश्चित श्रेणी को कवर करता है। इस परिसर को वर्ग अंतराल या कक्षा अंतराल (class interval) कहा जाता है।
उदाहरण के लिए, नीचे दी गई तालिका पर विचार करें, जो एक परीक्षा में छात्रों द्वारा प्राप्त अंकों के विभिन्न वर्गों को दर्शाती है:
विभिन्न वर्ग-अंतराल जिनमें हमने डेटा वितरित किया है: 10-25, 25-40, 40-55, 55-70, 70-85, 85-100
प्रत्येक वर्ग अंतराल में निम्नलिखित चीज़ें होती है: वर्ग सीमा (Class Limits) - प्रत्येक वर्ग-अंतराल की दो सीमाएँ होती हैं - निचली और ऊपरी। उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए निचली सीमा 40 और ऊपरी सीमा 55 है।
वर्ग आकार (Class Size) - यह एक वर्ग अंतराल की निचली और ऊपरी सीमाओं के बीच का अंतर है। उदाहरण के लिए, 40-55 का वर्ग आकार 55 - 40 = 15 है।
वर्ग चिह्न (Class Mark) - यह एक वर्ग-अंतराल के अंदर एक बिंदु है जो पूरी कक्षा का प्रतिनिधित्व कर सकता है। सामान्य तौर पर, हम मान सकते हैं कि एक वर्ग के भीतर डेटा शायद मध्य-बिंदु के आसपास केंद्रित होगा, इसलिए किसी भी वर्ग के मध्य-बिंदु को एक वर्ग के भीतर आने वाले डेटा का प्रतिनिधित्व करने के लिए चुना जा सकता है। इसलिए, किसी वर्ग के मध्य-बिंदु को उसके वर्ग चिह्न के रूप में लिया जा सकता है।
यानी, वर्ग चिह्न (Class Mark) = \(\frac{वर्ग \hspace{1ex} की \hspace{1ex} निचली \hspace{1ex} सीमा \hspace{1ex} + \hspace{1ex} वर्ग \hspace{1ex} की \hspace{1ex} ऊपरी \hspace{1ex} सीमा}{2}\)
उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए, वर्ग चिह्न होगा (40 + 55)/2 = 95/2 = 47.5
वर्ग आवृत्ति (Class Frequency) - किसी वर्ग की बारंबारता/Frequency (या निरपेक्ष बारंबारता) उस वर्ग-अंतराल के भीतर अवलोकन या डेटा बिंदुओं की संख्या है। उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए, वर्ग की बारंबारता 7 है। यानी उस श्रेणी में 7 छात्रों को अंक मिले हैं।
वर्ग बारंबारता से संबंधित एक अवधारणा संचयी बारंबारता (Cumulative Frequency) है।
किसी भी वर्ग की संचयी बारंबारता उस वर्ग से पहले की सभी बारंबारताओं को क्रमिक रूप से जोड़कर प्राप्त की जाती है। अर्थात् यह उस वर्ग तक की सभी आवृत्तियों का योग होता है।
उदाहरण के लिए, यदि हम 55 या उससे कम अंक प्राप्त करने वाले छात्रों की संख्या का पता लगाना चाहते हैं, तो हम 55 अंक तक सभी कक्षाओं की बारंबारता जोड़ सकते हैं। हमारी तालिका में यह 2 + 4 + 7 = 13 होगा।
हम वर्गों की संचयी बारंबारता वाली तालिका प्रदर्शित कर सकते हैं, जैसा कि हमने वर्ग बारंबारताओं के साथ किया था। तो, ऊपर दी गई तालिका को इस प्रकार भी दर्शाया जा सकता है:
समावेशी और विशिष्ट वितरण (Inclusive and Exclusive distributions)
विशिष्ट वितरण (Exclusive Distribution)
इस प्रकार के वितरण में, पूर्ववर्ती वर्ग की ऊपरी सीमा बाद के वर्ग की निचली सीमा के साथ मेल खाती है। उदाहरण के लिए, नीचे दी गई तालिका पर एक नज़र डालें:
अपवर्जी वर्गों (exclusive classes) में, किसी वर्ग की ऊपरी और निचली सीमा को क्रमशः उसकी सच्ची ऊपरी सीमा और सच्ची निचली सीमा के रूप में जाना जाता है।
समावेशी वितरण (Inclusive Distribution)
इस प्रकार के वितरण में, पूर्ववर्ती वर्ग की ऊपरी सीमा बाद के वर्ग की निचली सीमा से मेल नहीं खाती। उदाहरण के लिए, नीचे दी गई तालिका पर एक नज़र डालें:
समावेशी वर्गों में, किसी वर्ग की वास्तविक निचली और ऊपरी सीमाएँ ऐसे प्राप्त की जाती हैं:
- निचली सीमा से 0.5 घटाकर, और
- ऊपरी सीमा में 0.5 जोड़कर।
किसी वर्ग की सच्ची ऊपरी सीमाएँ और सच्ची निचली सीमाएँ उस वर्ग की सीमाएँ (boundaries) कहलाती हैं।
डेटा का ग्राफिकल निरूपण (Graphical representation of data)
जबकि हम लगभग हमेशा ही डेटा तालिकाओं का उपयोग अवर्गीकृत या समूहीकृत डेटा (ungrouped or grouped data) का निरूपण करने के लिए कर सकते हैं। यह हमें विज़ुअलाइज़ेशन (visualization) में बहुत मदद नहीं करता है।
लेकिन सौभाग्य से, किसी दिए गए डेटा को हमेशा ग्राफिकल तरीके से भी दर्शाया जा सकता है।
अवर्गीकृत डेटा (ungrouped data) या अलग-थलग डेटा बिंदुओं के लिए, हम अक्सर लाइन चार्ट (Line charts) और स्कैटर चार्ट (Scatter charts) का उपयोग करते हैं।
जहाँ तक समूहीकृत आँकड़ों (grouped data) या बारंबारता बंटन (frequency distribution) का सवाल है, इसके आलेखीय निरूपण के लिए विभिन्न विधियाँ हैं।
बार ग्राफ (Bar Graphs) - असतत मान (discrete value) के बारंबारता वितरण (frequency distribution) के लिए। एक बार चार्ट में बार को अलग-अलग रखा जाता है ताकि यह दिखाया जा सके कि चर-मान (variate-values) अलग-अलग हैं। बारों की ऊंचाई प्रत्येक चर-मान की आवृत्ति के समानुपाती होती है।
पाई चार्ट (Pie charts) - बार ग्राफ की तरह ही, इसका उपयोग भी असतत मान (discrete value) के बारंबारता वितरण (frequency distribution) के लिए किया जाता है। यह संख्यात्मक अनुपात को दर्शाने के लिए स्लाइस (slices) का उपयोग करता है। तो, यहाँ आवृत्तियों को प्रतिशत के रूप में प्रदर्शित किया जाता है। स्लाइस का आकार प्रत्येक चर-मान की आवृत्ति के समानुपाती होता है।
हिस्टोग्राम (Histograms) - इसका उपयोग निरंतर वर्गों के साथ समूहीकृत आवृत्ति वितरण (grouped frequency distribution with continuous classes) का निरूपण करने के लिए किया जाता है। बार ग्राफ के विपरीत, यहां बारों के बीच कोई गैप नहीं होता है। बारों की ऊंचाई उनकी वर्ग आवृत्तियों (class frequencies) के समानुपाती होती है (यदि वर्ग अंतराल बराबर हैं)।
बारंबारता बहुभुज (Frequency Polygons) - यह भी बारंबारता बंटन (frequency distribution) का एक ग्राफ है। हम या तो हिस्टोग्राम का उपयोग करके या उनके बिना बारंबारता बहुभुज (Frequency Polygons) बना सकते हैं।
संचयी आवृत्ति वक्र या तोरण (Cumulative frequency curve or Ogive) - इसका उपयोग समूहीकृत डेटा (grouped data) के संचयी आवृत्ति वितरण (cumulative frequency distribution) को प्रदर्शित करने के लिए किया जाता है।