تمام آمار را برای آمار توصیفی فروشگاه تفسیر کنید

  • 2021-06-21

تعاریف و راهنمایی تفسیر را برای هر آماری که با آمار توصیفی فروشگاه ارائه شده است ، پیدا کنید.

در این موضوع

میانگین میانگین داده ها است که مجموع تمام مشاهدات تقسیم بر تعداد مشاهدات است.

به عنوان مثال ، زمان انتظار (در دقیقه) پنج مشتری در یک بانک عبارتند از: 3 ، 2 ، 4 ، 1 و 2. میانگین زمان انتظار به شرح زیر محاسبه می شود:

تفسیر

از میانگین برای توصیف نمونه با یک مقدار واحد استفاده کنید که نشان دهنده مرکز داده ها است. بسیاری از تجزیه و تحلیل آماری از میانگین به عنوان یک معیار استاندارد مرکز توزیع داده ها استفاده می کنند.

میانگین و میانگین هر دو تمایل اصلی را اندازه گیری می کنند. اما مقادیر غیرمعمول ، به نام Outliers ، می تواند در میانگین کمتر از میانگین تأثیر بگذارد. اگر داده های شما متقارن هستند ، میانگین و میانگین مشابه هستند.

متقارن

متقارن نیست

برای توزیع متقارن ، میانگین (خط آبی) و میانه (خط نارنجی) به قدری مشابه هستند که به راحتی نمی توانید هر دو خط را ببینید. اما توزیع غیر متقارن به سمت راست چسبانده شده است.

عناصر

خطای استاندارد میانگین (میانگین SE) تغییرپذیری بین نمونه را تخمین می زند ، به این معنی است که اگر نمونه های مکرر را از همان جمعیت گرفتید ، به دست می آورید. در حالی که خطای استاندارد میانگین تخمین تنوع بین نمونه ها را برآورد می کند ، انحراف استاندارد تنوع را در یک نمونه واحد اندازه گیری می کند.

به عنوان مثال ، شما میانگین زمان تحویل 3. 80 روز ، با انحراف استاندارد 1. 43 روز ، از یک نمونه تصادفی از 312 زمان تحویل دارید. این اعداد خطای استانداردی از میانگین 0. 08 روز (1. 43 تقسیم بر ریشه مربع 312) به وجود می آورند. اگر چندین نمونه تصادفی با همان اندازه را گرفتید ، از همان جمعیت ، انحراف استاندارد از آن نمونه های مختلف حدود 0. 08 روز خواهد بود.

تفسیر

از خطای استاندارد میانگین استفاده کنید تا مشخص شود که چگونه نمونه میانگین میانگین جمعیت را تخمین می زند.

مقدار کمتری از خطای استاندارد میانگین نشان دهنده تخمین دقیق تر از میانگین جمعیت است. معمولاً ، یک انحراف استاندارد بزرگتر منجر به خطای استاندارد بزرگتر از میانگین و تخمین کمتر از میانگین جمعیت می شود. اندازه نمونه بزرگتر منجر به خطای استاندارد کوچکتر از میانگین و تخمین دقیق تر از میانگین جمعیت می شود.

Minitab از خطای استاندارد میانگین برای محاسبه فاصله اطمینان استفاده می کند.

stdev

انحراف استاندارد رایج ترین اندازه گیری پراکندگی است ، یا اینکه چگونه داده ها در مورد میانگین پخش می شوند. نماد σ (سیگما) اغلب برای نشان دادن انحراف استاندارد یک جمعیت استفاده می شود ، در حالی که از S برای نشان دادن انحراف استاندارد یک نمونه استفاده می شود. تنوع تصادفی یا طبیعی برای یک فرآیند اغلب به عنوان سر و صدا گفته می شود.

از آنجا که انحراف استاندارد در همان واحدهای داده است ، معمولاً تفسیر از واریانس آسان تر است.

تفسیر

از انحراف استاندارد استفاده کنید تا تعیین کنید که چگونه داده ها از میانگین پخش می شوند. مقدار انحراف استاندارد بالاتر نشان دهنده گسترش بیشتر در داده ها است. یک قانون خوب برای توزیع عادی این است که تقریباً 68 ٪ از مقادیر در یک انحراف استاندارد از میانگین قرار می گیرند ، 95 ٪ از مقادیر در دو انحراف استاندارد قرار می گیرند و 99. 7 ٪ از مقادیر در سه انحراف استاندارد قرار می گیرند.

از انحراف استاندارد همچنین می توان برای ایجاد معیار برای برآورد تنوع کلی یک فرآیند استفاده کرد.

بیمارستان 1

بیمارستان 2
زمان ترشحات بیمارستان

مدیران زمان ترخیص را برای بیمارانی که در بخش های اورژانس دو بیمارستان تحت معالجه قرار می گیرند ، ردیابی می کنند. اگرچه میانگین زمان تخلیه تقریباً یکسان است (35 دقیقه) ، انحراف استاندارد به طور قابل توجهی متفاوت است. انحراف استاندارد برای بیمارستان 1 در حدود 6 است. به طور متوسط ، زمان ترشح بیمار حدود 6 دقیقه از میانگین (خط متراکم) منحرف می شود. انحراف استاندارد برای بیمارستان 2 حدود 20 است. به طور متوسط ، زمان ترشح بیمار حدود 20 دقیقه از میانگین (خط متراکم) منحرف می شود.

واریانس

این واریانس چگونگی پخش داده ها را در مورد میانگین آنها اندازه گیری می کند. واریانس برابر با مربع انحراف استاندارد است.

تفسیر

هرچه واریانس بیشتر باشد ، گسترش در داده ها بیشتر می شود.

از آنجا که واریانس (σ 2) یک مقدار مربع است ، واحدهای آن نیز مربع هستند که ممکن است استفاده از واریانس در عمل را دشوار کند. انحراف استاندارد معمولاً تفسیر ساده تر است زیرا در همان واحدهای داده است. به عنوان مثال ، نمونه ای از زمان انتظار در ایستگاه اتوبوس ممکن است میانگین 15 دقیقه و واریانس 9 دقیقه 2 داشته باشد. از آنجا که واریانس در واحدهای مشابه داده ها نیست ، واریانس اغلب با ریشه مربع آن ، انحراف استاندارد نمایش داده می شود. واریانس 9 دقیقه 2 معادل انحراف استاندارد 3 دقیقه است.

عرف

ضریب تغییر (مشخص شده به عنوان COV) اندازه گیری گسترش است که تغییر در داده ها نسبت به میانگین را توصیف می کند. ضریب تغییر به گونه ای تنظیم می شود که مقادیر در مقیاس بدون واحد قرار بگیرند. به دلیل این تنظیم ، می توانید به جای انحراف استاندارد از ضریب تغییر استفاده کنید تا تغییر در داده هایی که واحدهای مختلفی دارند یا وسایل بسیار متفاوتی دارند مقایسه کنید.

تفسیر

هرچه ضریب تغییر بیشتر باشد ، گسترش در داده ها بیشتر می شود.

به عنوان مثال ، شما بازرس کنترل کیفیت در یک گیاه بطری شیر هستید که ظروف کوچک و بزرگ شیر را بطری می کند. شما یک نمونه از هر محصول را می گیرید و مشاهده می کنید که میانگین حجم ظروف کوچک 1 فنجان با انحراف استاندارد 0. 08 فنجان است و میانگین حجم ظروف بزرگ 1 گالن (16 فنجان) با انحراف استاندارد 0. 4 فنجان استواداگرچه انحراف استاندارد از ظرف گالن پنج برابر بیشتر از انحراف استاندارد ظرف کوچک است ، ضرایب تغییرات آنها نتیجه گیری متفاوت را پشتیبانی می کند.
کانتینر کانتینر
cov = 100 * 0. 4 فنجان / 16 فنجان = 2. 5 cov = 100 * 0. 08 فنجان / 1 فنجان = 8
ضریب تغییر ظرف کوچک بیش از سه برابر بیشتر از ظرف بزرگ است. به عبارت دیگر ، اگرچه ظرف بزرگ از انحراف استاندارد بیشتری برخوردار است ، اما ظرف کوچک نسبت به میانگین آن تنوع بسیار بیشتری دارد.

کوارتیل ها سه مقدار هستند - کوارتیل اول در 25 ٪ (Q1) ، کوارتیل دوم در 50 ٪ (Q2 یا میانه) و کوارتیل سوم در 75 ٪ (Q3) - این نمونه ای از داده های سفارش داده شده را به چهار قسمت مساوی تقسیم می کندواد

کوارتیل اول صدک 25 است و نشان می دهد که 25 ٪ از داده ها کمتر از یا مساوی با این مقدار هستند.

برای این داده های سفارش داده شده ، اولین کوارتیل (Q1) 9. 5 است. یعنی 25 ٪ از داده ها کمتر از یا برابر با 9. 5 هستند.

میانه

میانه نقطه میانی مجموعه داده است. این مقدار نقطه میانی نقطه ای است که در آن نیمی از مشاهدات بالاتر از مقدار و نیمی از مشاهدات زیر مقدار است. میانه با رتبه بندی مشاهدات و یافتن مشاهده ای که در تعداد [n + 1] / 2 در ترتیب رتبه بندی شده است ، تعیین می شود. اگر تعداد مشاهدات یکنواخت باشد ، میانگین میانگین مقدار مشاهدات است که در اعداد N / 2 و [N / 2] + 1 قرار دارند.

برای این داده های مرتب شده، میانه 13 است. یعنی نیمی از مقادیر کمتر یا مساوی 13 هستند، و نیمی از مقادیر بزرگتر یا مساوی با 13 هستند. اگر مشاهده دیگری برابر با 20 اضافه کنید، میانه 13. 5 است. که میانگین بین مشاهده پنجم (13) و مشاهده ششم (14) است.

تفسیر

میانگین و میانگین هر دو تمایل اصلی را اندازه گیری می کنند. اما مقادیر غیرمعمول ، به نام Outliers ، می تواند در میانگین کمتر از میانگین تأثیر بگذارد. اگر داده های شما متقارن هستند ، میانگین و میانگین مشابه هستند.

متقارن

متقارن نیست

برای توزیع متقارن ، میانگین (خط آبی) و میانه (خط نارنجی) به قدری مشابه هستند که به راحتی نمی توانید هر دو خط را ببینید. اما توزیع غیر متقارن به سمت راست چسبانده شده است.

کوارتیل ها سه مقدار هستند - کوارتیل اول در 25 ٪ (Q1) ، کوارتیل دوم در 50 ٪ (Q2 یا میانه) و کوارتیل سوم در 75 ٪ (Q3) - این نمونه ای از داده های سفارش داده شده را به چهار قسمت مساوی تقسیم می کندواد

چارک سوم صدک 75 است و نشان می دهد که 75 درصد داده ها کمتر یا مساوی این مقدار هستند.

برای این داده های مرتب شده، چارک سوم (Q3) 17. 5 است. یعنی 75 درصد داده ها کمتر یا مساوی 17. 5 هستند.

محدوده بین چارکی (IQR) فاصله بین چارک اول (Q1) و چارک سوم (Q3) است. 50 درصد داده ها در این محدوده قرار دارند.

برای این داده های مرتب شده، محدوده بین چارکی 8 است (17. 5-9. 5 = 8). یعنی 50 درصد متوسط داده ها بین 9. 5 تا 17. 5 است.

تفسیر

از محدوده بین چارکی برای توصیف گسترش داده ها استفاده کنید. با افزایش گسترش داده ها، IQR بزرگتر می شود.

TrMean

میانگین داده ها بدون بالاترین 5% و کمترین 5% مقادیر.

برای از بین بردن تأثیر مقادیر بسیار بزرگ یا بسیار کوچک بر میانگین از میانگین بریده شده استفاده کنید. هنگامی که داده ها حاوی مقادیر پرت هستند، میانگین برش داده شده ممکن است معیار بهتری برای سنجش گرایش مرکزی نسبت به میانگین باشد.

مجموع کل مقادیر داده ها است. از مجموع در محاسبات آماری مانند میانگین و انحراف معیار نیز استفاده می شود.

کمترین

حداقل، کوچکترین مقدار داده است.

در این داده ها حداقل 7 است.

13 17 18 19 12 10 7 9 14

تفسیر

از حداقل برای شناسایی خطای پرت احتمالی یا خطای ورود داده استفاده کنید. یکی از ساده‌ترین راه‌ها برای ارزیابی پراکندگی داده‌ها، مقایسه حداقل و حداکثر است. اگر مقدار حداقل بسیار کم است، حتی وقتی مرکز، گسترش و شکل داده ها را در نظر می گیرید، علت مقدار شدید را بررسی کنید.

بیشترین

حداکثر بزرگترین مقدار داده است.

در این داده ها حداکثر 19 است.

13 17 18 19 12 10 7 9 14

تفسیر

از حداکثر برای شناسایی خطای پرت احتمالی یا خطای ورود داده استفاده کنید. یکی از ساده‌ترین راه‌ها برای ارزیابی پراکندگی داده‌ها، مقایسه حداقل و حداکثر است. اگر حداکثر مقدار بسیار زیاد است، حتی وقتی مرکز، گسترش و شکل داده ها را در نظر می گیرید، علت مقدار شدید را بررسی کنید.

دامنه

محدوده تفاوت بین بزرگترین و کوچکترین مقادیر داده در نمونه است. محدوده بازه‌ای را نشان می‌دهد که شامل تمام مقادیر داده‌ها است.

تفسیر

از محدوده برای درک میزان پراکندگی در داده ها استفاده کنید. مقدار دامنه بزرگ نشان دهنده پراکندگی بیشتر در داده ها است. یک مقدار محدوده کوچک نشان می دهد که پراکندگی کمتری در داده ها وجود دارد. از آنجایی که محدوده تنها با استفاده از دو مقدار داده محاسبه می شود، با مجموعه داده های کوچک مفیدتر است.

مجموع مربعات تصحیح نشده مجموع مربع های هر مقدار در ستون است. به عنوان مثال، اگر ستون حاوی x باشد1, x2, . , xn، سپس مجموع مربع ها محاسبه می شود (x12 + x22 + .+ xn2). بر خلاف مجموع مربعات تصحیح شده، مجموع مربعات اصلاح نشده شامل خطا می شود. مقادیر داده ها بدون کم کردن میانگین مجذور می شوند.

چولگی

چولگی میزان متقارن نبودن داده ها است.

تفسیر

شکل A

شکل B
توزیع های متقارن یا غیر اریب

با متقارن شدن داده ها، مقدار چولگی آن به صفر نزدیک می شود. شکل A داده های توزیع شده معمولی را نشان می دهد که طبق تعریف چولگی نسبتا کمی را نشان می دهند. با کشیدن یک خط در وسط این هیستوگرام داده های عادی، به راحتی می توان دید که دو طرف یکدیگر را منعکس می کنند. اما عدم چولگی به تنهایی به معنای عادی بودن نیست. شکل B توزیعی را نشان می‌دهد که در آن دو طرف هنوز یکدیگر را منعکس می‌کنند، اگرچه داده‌ها از توزیع معمولی فاصله دارند.

توزیع های اریب مثبت یا راست

داده‌های چوله مثبت یا راست به این دلیل نامیده می‌شوند که «دم» توزیع به سمت راست اشاره می‌کند و به این دلیل که مقدار چولگی آن بزرگ‌تر از 0 (یا مثبت) خواهد بود. داده‌های حقوق و دستمزد اغلب به این شکل تغییر می‌کند: بسیاری از کارمندان یک شرکت درآمد نسبتا کمی دارند، در حالی که تعداد کمی از افراد حقوق بسیار بالایی دریافت می‌کنند.

توزیع های منحرف منفی یا چپ

داده‌های چوله چپ یا منحنی منفی به این دلیل نامیده می‌شوند که «دم» توزیع به سمت چپ است و به این دلیل که مقدار چولگی منفی ایجاد می‌کند. داده‌های نرخ شکست اغلب به صورت کج باقی می‌مانند. لامپ ها را در نظر بگیرید: تعداد کمی از لامپ ها فوراً می سوزند، اکثریت قریب به اتفاق برای مدت طولانی دوام می آورند.

کورتوز

Kurtosis نشان می دهد که چگونه دم یک توزیع با توزیع طبیعی متفاوت است.

تفسیر

از Kurtosis استفاده کنید تا در ابتدا ویژگی های کلی در مورد توزیع داده های خود را درک کنید.

پایه: مقدار Kurtosis 0

داده های توزیع شده به طور معمول پایه و اساس Kurtosis را تعیین می کنند. مقدار کورتوز 0 نشان می دهد که داده ها توزیع عادی را به طور کامل دنبال می کنند. یک مقدار کورتوز که به طور قابل توجهی از 0 منحرف می شود ممکن است نشان دهد که داده ها به طور معمول توزیع نمی شوند.

کورتوز مثبت

توزیع که دارای مقدار کورتوز مثبت است ، نشان می دهد که توزیع دارای دم سنگین تر از توزیع عادی است. به عنوان مثال ، داده هایی که از توزیع T پیروی می کنند ، دارای مقدار کورتوز مثبت هستند. خط جامد توزیع طبیعی را نشان می دهد ، و خط نقطه ای توزیع را نشان می دهد که دارای مقدار کورتوز مثبت است.

کورتوز منفی

توزیع با مقدار كورتوز منفی نشان می دهد كه توزیع دارای دم سبک تر از توزیع عادی است. به عنوان مثال ، داده هایی که از توزیع بتا با پارامترهای شکل اول و دوم برابر با 2 پیروی می کنند ، دارای مقدار Kurtosis منفی هستند. خط جامد توزیع طبیعی را نشان می دهد و خط نقطه ای توزیع را نشان می دهد که دارای مقدار کورتوز منفی است.

MSSD میانگین تفاوت متوالی مربع است. MSSD تخمین واریانس است. یکی از استفاده های احتمالی از MSSD ، آزمایش اینکه آیا دنباله ای از مشاهدات تصادفی است یا خیر. در کنترل کیفیت ، استفاده احتمالی از MSSD تخمین واریانس در اندازه زیر گروه = 1 است.

تعداد مقادیر غیر از بین رفتن در نمونه.

در این مثال ، 141 مشاهده ثبت شده وجود دارد.
تعداد کل N N*
149 141 8

ناله

تعداد مقادیر گمشده در نمونه. تعداد مقادیر گمشده به سلولهایی اشاره دارد که حاوی نماد مقدار از دست رفته *هستند.

در این مثال ، 8 خطا در طول جمع آوری داده ها رخ داده و به عنوان مقادیر گمشده ثبت می شوند.
تعداد کل N ناله
149 141 8

شمردن

تعداد کل مشاهدات در ستون. برای نشان دادن مجموع N گمشده و n غیرقانونی استفاده کنید.

در این مثال ، 141 مشاهده معتبر و 8 مقدار از دست رفته وجود دارد. شمارش 149 است.
شمردن N ناله
149 141 8
تجمعی N تعداد زیادی از مشاهدات در دسته های پی در پی است. به عنوان مثال ، یک مدرسه ابتدایی تعداد دانش آموزان در کلاس های یک تا شش را ثبت می کند. ستون CUMN شامل تعداد تجمعی جمعیت دانشجویی است:
سطح درجه شمردن قمره محاسبه
1 49 49 49
2 58 107 49 + 58
3 52 159 49 + 58 + 52
4 60 219 49 + 58 + 52 + 60
5 48 267 49 + 58 + 52 + 60 + 48
6 55 322 49 + 58 + 52 + 60 + 48 + 55

درصد

درصد مشاهدات در هر گروه از متغیر. در مثال زیر چهار گروه وجود دارد: خط 1 ، خط 2 ، خط 3 و خط 4.

گروه (توسط متغیر) درصد
خط 1 16
خط 2 20
خط 3 36
خط 4 28

درصد تجمعی مبلغ تجمعی درصد برای هر گروه از متغیر است. در مثال زیر ، متغیر دارای 4 گروه است: خط 1 ، خط 2 ، خط 3 و خط 4.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.