सांख्यिकी क्या है? (What is Statistics?)

Share on:
सांख्यिकी क्या है? (What is Statistics?)

Overview

इस लेख में हम गणित के एक महत्त्वपूर्ण अध्याय के बारे में जानेंगे - What is Statistics?, in Hindi

नोट

इस अध्याय से सम्बंधित, अन्य विषयों के बारे में जानने के लिए आप हमारे निम्नलिखित लेख पढ़ सकते हैं:

सांख्यिकी (Statistics) एक ऐसा विज्ञान है, जिसमें 3 चरण शामिल होते हैं:

  • सांख्यिकीय डेटा एकत्र करना - लक्षित आबादी (target population) के प्रतिनिधि नमूने (representative sample) से बड़ी मात्रा में संख्यात्मक डेटा एकत्र करना।
  • सांख्यिकीय डेटा का विश्लेषण - उस संख्यात्मक डेटा का विश्लेषण करना, इसे प्रयोग करने योग्य जानकारी में परिवर्तित करना।
  • नमूने से निकाली गई जानकारी से संपूर्ण लक्षित आबादी के बारे में अनुमान लगाना।
    Statistics

    Statistics

सांख्यिकीय डेटा मूल रूप से तथ्य (facts) होते हैं जिन्हें हम लक्षित जनसंख्या के नमूने से एकत्र करते हैं। उदाहरण के लिए, चुनाव के बाद एक्जिट पोल में कुछ मतदाताओं से कुछ प्रश्न पूछे जाते हैं, जैसे की, वे किसे वोट देते हैं, उनके लिए सबसे महत्वपूर्ण राष्ट्रीय/राज्य का मुद्दा क्या है, आदि।

यदि हमारा डेटा संग्रह दोषपूर्ण है, तो उसके विश्लेषण के आधार पर हम जो भी निष्कर्ष निकालते हैं, वह भी गलत होगा।

नोट

जनसंख्या (Population) - यह लक्ष्य समूह है जिसके बारे में हम एक सांख्यिकीय अध्ययन करना चाहते हैं, और जिससे हम डेटा एकत्र करना चाहते हैं।

उदाहरण के लिए, लोगों का एक समूह, किसी क्षेत्र में वर्षा की मात्रा, सौर विकिरण पैटर्न, आदि।

जनसंख्या का आकार (अर्थात जनसंख्या में वस्तुओं या व्यक्तियों की कुल संख्या) परिमित (finite) या अनंत (infinite) हो सकता है।

नमूना (Sample) - यह जनसंख्या का वह हिस्सा है जो लक्षित जनसंख्या की सभी विशेषताओं का प्रतिनिधित्व करता है, और जिसे नमूनाकरण (sampling) की प्रक्रिया के माध्यम से सांख्यिकीय अध्ययन के उद्देश्य के लिए चुना गया है।

अधिकांश समय लक्षित जनसंख्या इतनी अधिक होती है, कि हम प्रत्येक तत्व/व्यक्ति का अध्ययन नहीं कर सकते। इसलिए हम इसका एक नमूना लेते हैं, और फिर इसका अध्ययन करने के बाद हम पूरी लक्षित आबादी के बारे में चीजों का अनुमान लगाने की कोशिश करते हैं।

सांख्यिकी की दो शाखाएँ हैं:

विवरणात्मक सांख्यिकी (Descriptive statistics) - यह कुछ निश्चित आंकड़ों का सारांश है। यह विश्लेषण के तहत डेटा का एक सिंहावलोकन (overview) देने के उद्देश्य से कार्य करता है। उदाहरण के लिए, यदि आप जानना चाहते हैं कि कोई छात्र गणित में कैसा है, तो आप पिछले 10 गणित परीक्षणों में उसके द्वारा प्राप्त अंकों के औसत पर एक नज़र डाल सकते हैं।

हम परिणाम प्रदर्शित करने के लिए विभिन्न तालिकाओं, चार्टों और ग्राफ़ का उपयोग करते हैं।

अनुमानात्मक सांख्यिकी (Inferential statistics) - यह एक सांख्यिकीय पद्धति है जो केवल एक छोटे लेकिन प्रतिनिधि नमूने का विश्लेषण करके, एक बड़ी लक्षित आबादी की विशेषताओं को पता करने में हमारी सहायता करती है। उदाहरण के लिए, एक जीवन बीमा कंपनी में एक बीमांकक (actuary), दिल की समस्याओं वाले व्यक्ति की जीवन प्रत्याशा का पता लगाने की कोशिश करता है और फिर यह तय करता है कि ऐसे लोगों को अपनी जीवन बीमा पॉलिसी के लिए कितना प्रीमियम देना चाहिए। इस उद्देश्य के लिए, वह केवल कुछ हृदय रोगियों के डेटा का विश्लेषण करता है, और फिर संपूर्ण लक्षित आबादी के बारे में धारणा (यानी सामान्यीकरण या निष्कर्ष निकालना) बनाता है।

यहां, हमारा लक्ष्य भविष्य की भविष्यवाणी करना है। हमें विश्लेषण के अंत में प्रायिकता अंक (probability scores) मिलते हैं।

नोट

दो सामान्य प्रकार के वर्णनात्मक सांख्यिकी उपकरण हैं, जिनका उपयोग डेटा का विश्लेषण और वर्णन करने के लिए किया जाता है:

  • केन्द्रीय प्रवृत्ति की माप (Measures of Central tendency) - उदा. माध्य (Mean), माध्यिका (Median), बहुलक (Mode)
  • Measures of Dispersion or Spread - उदा. रेंज (range), चतुर्थक विचलन (quartile deviation), माध्य विचलन (mean deviation) और निरपेक्ष विचलन (absolute deviation), वैरिअन्स (variance), स्टैण्डर्ड डिवीएशन (Standard Deviation)

हम अलग-अलग लेखों में इनका अधिक विस्तार से अध्ययन करेंगे।

अनुमानात्मक सांख्यिकी में, हम hypothesis tests, analysis of variance, आदि जैसे उपकरणों का उपयोग करते हैं।

अब, आइए देखें वे विभिन्न प्रकार के डेटा जिनका हम यहाँ सामना कर सकते हैं। डेटा को विभिन्न मापदंडों के आधार पर वर्गीकृत किया जा सकता है।

उस स्रोत के आधार पर जहां से हमें डेटा मिला है, हम इसे प्राथमिक और द्वितीयक डेटा में विभाजित कर सकते हैं।

प्राथमिक डेटा (Primary Data) - यह किसी अन्वेषक (investigator) द्वारा अपने स्वयं के उद्देश्य के लिए पहली बार एकत्र किया गया डेटा है। उदाहरण के लिए, एग्जिट पोल के दौरान विभिन्न समाचार चैनल एजेंसियों द्वारा एकत्र किए गए डेटा। इस प्रकार के डेटा को अधिक विश्वसनीय और प्रासंगिक माना जाता है।

द्वितीयक डेटा (Secondary Data) - जैसा कि नाम से पता चलता है, जब कोई अन्वेषक ऐसे डेटा का उपयोग करता है जो पहले किसी और द्वारा एकत्र किया गया था, तो इसे द्वितीयक डेटा कहा जाता है। इसलिए, प्राथमिक डेटा, जब किसी और द्वारा उपयोग किया जाता है, तो उसे द्वितीयक डेटा कहा जाता है। उदाहरण के लिए, कभी-कभी कई एग्जिट पोल के पोल किए जाते हैं, यानी सभी विभिन्न एग्जिट पोल का विश्लेषण किया जाता है और उसी के आधार पर एक एक्जिट पोल निकाला जाता है।

प्राथमिक डेटा एकत्र करना एक श्रमसाध्य और समय लेने वाला काम है। कभी-कभी, प्राथमिक डेटा एकत्र करना संभव ही नहीं होता है, भले ही कोई चाहे तो भी। उदाहरण के लिए, यदि कोई प्रथम विश्व युद्ध पर अध्ययन कर रहा है, तो उसे स्पष्ट रूप से पुराने डेटा पर निर्भर रहना ही होगा।

डेटा को इस आधार पर भी वर्गीकृत किया जा सकता है कि उसे समूहीकृत (grouped) किया गया है या नहीं।

  • Raw or Ungrouped Data - यह वह डेटा है जिसे बिल्कुल भी व्यवस्थित नहीं किया गया है। उदाहरण के लिए, एक परीक्षा में 8 छात्रों के अंक - 34, 56, 81, 23, 81, 56, 45, 91

  • Grouped Data - जब एकत्रित किए गए अपरिष्कृत डेटा (raw data) को समूहों/श्रेणियों में व्यवस्थित किया जाता है, तो उसे समूहीकृत डेटा (Grouped data) कहा जाता है। उदाहरण के लिए, एक परीक्षा में 8 छात्रों के अंक - 34, 56, 81, 23, 81, 56, 45, 91, को कुछ समूहों में एक साथ रखा जा सकता है और निम्नानुसार प्रदर्शित किया जा सकता है:

प्राप्त अंक233445568191
छात्रों की संख्या111221

कभी-कभी हम डेटा को विभिन्न समूहों में विभाजित करते हैं, जिसमें प्रत्येक समूह एक निश्चित सीमा को कवर करता है। इन समूहों को वर्ग (कक्षा, classes) कहा जाता है।

सांख्यिकी में वर्गों से संबंधित कुछ शब्द हैं जिनका आप अक्सर सामना करेंगे। इसलिए, उनके साथ पहले से परिचित होना एक अच्छा विचार होगा।

जब हम दिए गए डेटा को समूहों में विभाजित करते हैं, तो प्रत्येक समूह मूल्यों की एक निश्चित श्रेणी को कवर करता है। इस परिसर को वर्ग अंतराल या कक्षा अंतराल (class interval) कहा जाता है।

उदाहरण के लिए, नीचे दी गई तालिका पर विचार करें, जो एक परीक्षा में छात्रों द्वारा प्राप्त अंकों के विभिन्न वर्गों को दर्शाती है:
Statistics

Statistics

विभिन्न वर्ग-अंतराल जिनमें हमने डेटा वितरित किया है: 10-25, 25-40, 40-55, 55-70, 70-85, 85-100

प्रत्येक वर्ग अंतराल में निम्नलिखित चीज़ें होती है: वर्ग सीमा (Class Limits) - प्रत्येक वर्ग-अंतराल की दो सीमाएँ होती हैं - निचली और ऊपरी। उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए निचली सीमा 40 और ऊपरी सीमा 55 है।

वर्ग आकार (Class Size) - यह एक वर्ग अंतराल की निचली और ऊपरी सीमाओं के बीच का अंतर है। उदाहरण के लिए, 40-55 का वर्ग आकार 55 - 40 = 15 है।

वर्ग चिह्न (Class Mark) - यह एक वर्ग-अंतराल के अंदर एक बिंदु है जो पूरी कक्षा का प्रतिनिधित्व कर सकता है। सामान्य तौर पर, हम मान सकते हैं कि एक वर्ग के भीतर डेटा शायद मध्य-बिंदु के आसपास केंद्रित होगा, इसलिए किसी भी वर्ग के मध्य-बिंदु को एक वर्ग के भीतर आने वाले डेटा का प्रतिनिधित्व करने के लिए चुना जा सकता है। इसलिए, किसी वर्ग के मध्य-बिंदु को उसके वर्ग चिह्न के रूप में लिया जा सकता है।

यानी, वर्ग चिह्न (Class Mark) = वर्गकीनिचलीसीमा+वर्गकीऊपरीसीमा2\frac{वर्ग \hspace{1ex} की \hspace{1ex} निचली \hspace{1ex} सीमा \hspace{1ex} + \hspace{1ex} वर्ग \hspace{1ex} की \hspace{1ex} ऊपरी \hspace{1ex} सीमा}{2}


उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए, वर्ग चिह्न होगा (40 + 55)/2 = 95/2 = 47.5

वर्ग आवृत्ति (Class Frequency) - किसी वर्ग की बारंबारता/Frequency (या निरपेक्ष बारंबारता) उस वर्ग-अंतराल के भीतर अवलोकन या डेटा बिंदुओं की संख्या है। उदाहरण के लिए, वर्ग अंतराल 40-55 के लिए, वर्ग की बारंबारता 7 है। यानी उस श्रेणी में 7 छात्रों को अंक मिले हैं।

नोट

वर्ग बारंबारता से संबंधित एक अवधारणा संचयी बारंबारता (Cumulative Frequency) है।

किसी भी वर्ग की संचयी बारंबारता उस वर्ग से पहले की सभी बारंबारताओं को क्रमिक रूप से जोड़कर प्राप्त की जाती है। अर्थात् यह उस वर्ग तक की सभी आवृत्तियों का योग होता है।

उदाहरण के लिए, यदि हम 55 या उससे कम अंक प्राप्त करने वाले छात्रों की संख्या का पता लगाना चाहते हैं, तो हम 55 अंक तक सभी कक्षाओं की बारंबारता जोड़ सकते हैं। हमारी तालिका में यह 2 + 4 + 7 = 13 होगा।

हम वर्गों की संचयी बारंबारता वाली तालिका प्रदर्शित कर सकते हैं, जैसा कि हमने वर्ग बारंबारताओं के साथ किया था। तो, ऊपर दी गई तालिका को इस प्रकार भी दर्शाया जा सकता है:
Statistics

Statistics

इस प्रकार के वितरण में, पूर्ववर्ती वर्ग की ऊपरी सीमा बाद के वर्ग की निचली सीमा के साथ मेल खाती है। उदाहरण के लिए, नीचे दी गई तालिका पर एक नज़र डालें:
Statistics

Statistics

अपवर्जी वर्गों (exclusive classes) में, किसी वर्ग की ऊपरी और निचली सीमा को क्रमशः उसकी सच्ची ऊपरी सीमा और सच्ची निचली सीमा के रूप में जाना जाता है।

इस प्रकार के वितरण में, पूर्ववर्ती वर्ग की ऊपरी सीमा बाद के वर्ग की निचली सीमा से मेल नहीं खाती। उदाहरण के लिए, नीचे दी गई तालिका पर एक नज़र डालें:
Statistics

Statistics

समावेशी वर्गों में, किसी वर्ग की वास्तविक निचली और ऊपरी सीमाएँ ऐसे प्राप्त की जाती हैं:

  • निचली सीमा से 0.5 घटाकर, और
  • ऊपरी सीमा में 0.5 जोड़कर।
सच्ची वर्ग सीमा (True Class Limit)

किसी वर्ग की सच्ची ऊपरी सीमाएँ और सच्ची निचली सीमाएँ उस वर्ग की सीमाएँ (boundaries) कहलाती हैं।

जबकि हम लगभग हमेशा ही डेटा तालिकाओं का उपयोग अवर्गीकृत या समूहीकृत डेटा (ungrouped or grouped data) का निरूपण करने के लिए कर सकते हैं। यह हमें विज़ुअलाइज़ेशन (visualization) में बहुत मदद नहीं करता है।

लेकिन सौभाग्य से, किसी दिए गए डेटा को हमेशा ग्राफिकल तरीके से भी दर्शाया जा सकता है।

अवर्गीकृत डेटा (ungrouped data) या अलग-थलग डेटा बिंदुओं के लिए, हम अक्सर लाइन चार्ट (Line charts) और स्कैटर चार्ट (Scatter charts) का उपयोग करते हैं।

जहाँ तक समूहीकृत आँकड़ों (grouped data) या बारंबारता बंटन (frequency distribution) का सवाल है, इसके आलेखीय निरूपण के लिए विभिन्न विधियाँ हैं।

  • बार ग्राफ (Bar Graphs) - असतत मान (discrete value) के बारंबारता वितरण (frequency distribution) के लिए। एक बार चार्ट में बार को अलग-अलग रखा जाता है ताकि यह दिखाया जा सके कि चर-मान (variate-values) अलग-अलग हैं। बारों की ऊंचाई प्रत्येक चर-मान की आवृत्ति के समानुपाती होती है।

  • पाई चार्ट (Pie charts) - बार ग्राफ की तरह ही, इसका उपयोग भी असतत मान (discrete value) के बारंबारता वितरण (frequency distribution) के लिए किया जाता है। यह संख्यात्मक अनुपात को दर्शाने के लिए स्लाइस (slices) का उपयोग करता है। तो, यहाँ आवृत्तियों को प्रतिशत के रूप में प्रदर्शित किया जाता है। स्लाइस का आकार प्रत्येक चर-मान की आवृत्ति के समानुपाती होता है।

  • हिस्टोग्राम (Histograms) - इसका उपयोग निरंतर वर्गों के साथ समूहीकृत आवृत्ति वितरण (grouped frequency distribution with continuous classes) का निरूपण करने के लिए किया जाता है। बार ग्राफ के विपरीत, यहां बारों के बीच कोई गैप नहीं होता है। बारों की ऊंचाई उनकी वर्ग आवृत्तियों (class frequencies) के समानुपाती होती है (यदि वर्ग अंतराल बराबर हैं)।

  • बारंबारता बहुभुज (Frequency Polygons) - यह भी बारंबारता बंटन (frequency distribution) का एक ग्राफ है। हम या तो हिस्टोग्राम का उपयोग करके या उनके बिना बारंबारता बहुभुज (Frequency Polygons) बना सकते हैं।

  • संचयी आवृत्ति वक्र या तोरण (Cumulative frequency curve or Ogive) - इसका उपयोग समूहीकृत डेटा (grouped data) के संचयी आवृत्ति वितरण (cumulative frequency distribution) को प्रदर्शित करने के लिए किया जाता है।