معیارهای ارزیابی

  • 2021-11-8

دقت، درستی

به خاطر آوردن

دقت، درستی

برای هر یک از خوشه ها ، کلاس استاندارد طلا را با حداکثر تعداد اشیاء اختصاص داده شده بدست می آوریم. سپس ، ما حداکثر تعداد اشیاء را برای هر خوشه خلاصه می کنیم و آن را بر اساس تعداد کل اشیاء خوشه ای تقسیم می کنیم. مقدار حاصل دقت است و با استفاده از ماتریس K x S ، همانطور که در شکل 2 نشان داده شده است محاسبه می شود.

به خاطر آوردن

برای هر کلاس استاندارد طلا ، ما با حداکثر تعداد اشیاء اختصاص یافته خوشه را بدست می آوریم. سپس ، ما حداکثر تعداد اشیاء را برای هر کلاس استاندارد طلا جمع می کنیم و آن را بر اساس تعداد کل اشیاء خوشه ای و اشیاء غیرمستقیم تقسیم می کنیم. مقدار حاصل فراخوان (همچنین به عنوان حساسیت شناخته می شود) و با استفاده از ماتریس K X S ، همانطور که در شکل 3 نشان داده شده است محاسبه می شود.

در اینجا شما تعداد اشیاء غیرمستقیم را نشان می دهد.

نمره F1

نمره F1 میانگین هارمونیک دقت و فراخوان است و همانطور که در شکل 4 نشان داده شده است محاسبه می شود.

شاخص رند تنظیم شده (ARI)

شاخص RAND تنظیم شده (ARI) نسخه تصحیح شده برای گزینه شاخص RAND (RI) است. این یک اندازه گیری است که نتیجه خوشه بندی با گروه بندی استاندارد طلای آن چقدر مشابه است. با استفاده از ماتریس K X S ، ARI همانطور که در شکل 5 نشان داده شده است محاسبه می شود.< S or K >در اینجا n تعداد کل اشیاء خوشه ای را نشان می دهد و (N 2) (ضریب دوتایی) به عنوان N (N-1)/2 محاسبه می شود.

به عنوان مثال پیاده روی

  1. بگذارید مثالی را ببینیم که در آن معیارهای مختلف ارزیابی را برای یک نتیجه خوشه بندی معین محاسبه خواهیم کرد. فرض کنید که 257 شیء در استاندارد طلا وجود دارد که در آن کلاس هر شی را می شناسیم.
  2. مورد 1: k = s
  3. بگذارید یک مورد ایده آل را فرض کنیم که در آن 5 کلاس در استاندارد طلا و 5 خوشه با روش خوشه بندی پیش بینی می شود. ما می توانیم همانطور که در زیر آمده است ، یک ماتریس K X S دریافت کنیم.
  4. اگر به شکل 1 مربوط شویم ، ردیف ها خوشه ها را نشان می دهند و ستون ها کلاس ها را نشان می دهند. تعداد اشیاء خوشه ای به خوشه اول و متعلق به کلاس اول در استاندارد طلا (تقاطع ردیف اول و ستون اول) 64 است. به همین ترتیب ، تعداد اشیاء خوشه ای به خوشه اول و متعلق به دوم استکلاس در استاندارد طلا (تقاطع ردیف اول و ستون دوم) 4 است.

بگذارید مثالی را ببینیم که در آن معیارهای مختلف ارزیابی را برای یک نتیجه خوشه بندی معین محاسبه خواهیم کرد. فرض کنید که 257 شیء در استاندارد طلا وجود دارد که در آن کلاس هر شی را می شناسیم.

تعداد کل اشیاء خوشه ای 247 خواهد بود.

مورد 1: k = s

حال اجازه دهید با استفاده از این ماتریس ، دقت ، یادآوری و نمره F1 را محاسبه کنیم.

مورد 2: k

بگذارید یک مورد ایده آل را فرض کنیم که در آن 5 کلاس در استاندارد طلا و 5 خوشه با روش خوشه بندی پیش بینی می شود. ما می توانیم همانطور که در زیر آمده است ، یک ماتریس K X S دریافت کنیم.

حال اجازه دهید با استفاده از این ماتریس ، دقت ، یادآوری و نمره F1 را محاسبه کنیم.

بگذارید یک مورد را فرض کنیم که 5 کلاس در استاندارد طلا داشته باشیم و 6 خوشه با روش خوشه بندی پیش بینی می شود. می توانیم ببینیم که یک خوشه تقسیم شده است (ردیف های سوم و چهارم با 24 و 20).

حال اجازه دهید با استفاده از این ماتریس ، دقت ، یادآوری و نمره F1 را محاسبه کنیم.

تحلیل و بررسی

بگذارید مقادیری را که برای هر یک از موارد مثال به دست آورده ایم ، همانطور که در شکل 6 نشان داده شده است ، طی کنیم.

S) ، یعنی تقسیم کننده های واقعی و کلاس های استاندارد طلا توسط چندین خوشه نشان داده می شوند ، سپس فراخوان کاهش می یابد اما دقت همان مورد ایده آل باقی می ماند. این امر به این دلیل است که ، برای سطل های تقسیم شده ، فقط حداکثر مقدار در ستون (24) در نظر گرفته می شود.

در هر دو مورد KS ، نمره F1 با کاهش دقت یا فراخوان کاهش می یابد.

به طور کلی ، می توانیم ببینیم که دقت در حالی که فراخوان با تعداد خوشه های پیش بینی شده توسط رویکرد خوشه بندی کاهش می یابد ، افزایش می یابد.

پایان افکار

امیدوارم که این مقاله را برای مطالعات یا کارهای تحقیقاتی خود مفید بدانید.

من در زیر یک اسکریپت ساده وصل شده ام که می توانید نتیجه خوشه بندی و استاندارد طلا را وارد کنید و مقادیر دقیق ، فراخوان ، F1-Score و ARI را دریافت کنید. این اسکریپت در پرونده های 2 . csv می گیرد. یکی برای نتیجه خوشه بندی و دیگری برای استاندارد طلا.

می توانید این اسکریپت را با استفاده از دستور اجرا کنید ،

در اینجا ، Clustering_result. csv و gold_standard. csv باید در قالب object_id ، cluster_id باشد. مقادیر دقیق ، فراخوان ، نمره F1 و ARI چاپ می شود.

در اینجا ، Clustering_result. csv و gold_standard. csv باید در قالب object_id ، cluster_id باشد. مقادیر دقیق ، فراخوان ، نمره F1 و ARI چاپ می شود.

Case 3: K>S

در اینجا ، Clustering_result. csv و gold_standard. csv باید در قالب object_id ، cluster_id باشد. مقادیر دقیق ، فراخوان ، نمره F1 و ARI چاپ می شود.

Similarly, if the clustering method over-estimates the number of clusters (case K>

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.