2%
12. 1%
KNIMe
14. 4%
11. 8%
WEKA
1. 6%
10. 6%
Salford
6. 3%
8. 5%
Statistica

همانطور که نتایج رای گیری مشخص میکند نرم افزار Rapidminer بیشترین استفاده کننده را دارد.
در این پایان نامه نیز عملیات داده کاوی توسط این نرم افزار انجام می شود. ناگفته نماند در قسمتهایی از نرم افزار minitab و Clementine12 نیز برای بهینه کردن پاسخ بدست آمده و بالابردن کیفیت نتایج استفاده شده است.

داده ها

داده های مورد استفاده در این پژوهش شامل مجموعه بیمه نامه های شخص ثالث صادر شده استان کهگیلویه و بویراحمد در سال 1390 شمسی بوده که بیمه نامه های منجر شده به خسارت نیز در این لیست مشخص گردیده اند. تعداد کل رکوردها حدود 20 هزار رکورد بوده که از این تعداد تقریباً 7. 5 درصد یعنی حدود 1500 رکوردمنجر به خسارت گردیده اند.

3-2-1- انتخاب داده
داده مورد استفاده در این پژوهش شامل دو مجموعه داده به شرح زیر بوده است:
صدور: اطلاعات بیمه نامه های صادره
خسارت: جزئیات خسارت پرداختی ازمحل هر بیمه نامه که خسارت ایجاد کرده

3-2-2-فیلدهای مجموعه داده صدور
این فیلدها در حالت اولیه 137 مورد به شرح جدول 3-2 بوده است.

3-2-3-کاهش ابعاد22
در این پژوهش بخاطر موثرنبودن فیلدهایی اقدام به حذف این مشخصه ها کرده و فیلدهای موثر نهایی به 42 فیلد کاهش یافته که به شرح جدول 3-3 بدست آمده اند. کاهش ابعاد میتواند شامل حذف فیلدهای موثر که دارای اثر بسیار ناچیز درمقابل دیگر فیلدها است نیز باشد.

جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف
نام فیلد
ردیف
نام فیلد
ردیف
نام فیلد
1
بیمه‌نامه
33
مدت بیمه
65
تعهدمازاد
2
سال‌صدوربیمه‌نامه
34
زمان‌شروع
66
کدنوع‌تعهدسرنشین
3
رشته‌بیمه
35
شغل‌بیمه‌گذار
67
میزان‌تعهدسرنشین
4
نمایش سند
36
سن‌بیمه‌گذار
68
حق‌بیمه‌ثالث‌قانونی
5
مکانیزه
37
سال‌کارت
69
ثالث قانونی+تعدددیات
6
دستی
38
سریال‌کارت
70
حق‌بیمه‌بند4
7
وب‌بنیان
39
کدوسیله‌نقلیه
71
حق‌بیمه‌ماده1
8
نام‌استان
40
کدزیررشته‌آمار
72
حق‌بیمه‌مازاد
9
نام‌شعبه
41
نوع‌وسیله‌نقلیه
73
حق‌بیمه‌سرنشین
10
کدشعبه
42
سیستم
74
مالیات
11
شعبه‌محل‌صدور
43
سال ساخت
75
مازادجانی
12
شعبه
44
رنگ
76
حق‌بیمه‌مازادمالی
13
نمایندگی‌محل‌صدور
45
شماره‌شهربانی
77
عوارض‌ماده92
14
کددولتی
46
شماره‌موتور
78
حق‌بیمه‌دریافتی
15
نمایندگی
47
شماره‌شاسی
79
tadodflg
16
دولتی
48
تعدادسیلندر
80
حق‌بیمه‌تعددخسارت
17
صادره‌توسط شعبه
49
کدواحدظ‌رفیت
81
جریمه‌بیمه‌مرکزی
18
کارمندی
50
ظرفیت
82
حق‌بیمه‌صادره‌شعبه
19
کدصادره‌توسط شعبه
51
شرح‌مورداستفاده
83
حق‌بیمه‌صادره‌نمایندگی
20
سریال‌بیمه‌نامه
52
یدک‌دارد؟
84
کداضافه‌نرخ‌حق‌بیمه
21
شماره‌بیمه‌نامه
53
اتاق‌وسیله‌نقلیه
85
اضافه‌نرخ‌ثالث
22
نام‌بیمه‌گذار
54
نوع‌پلاک
86
اضافه‌نرخ‌بند4
23
آدرس‌بیمه‌گذار
55
جنسیت
87
اضافه‌نرخ‌مازاد
24
تلفن‌بیمه‌گذار
56
کدنوع‌بیمه‌نامه
88
تعدددیات
25
کدسازمان
57
نوع‌بیمه
89
اضافه‌نرخ‌تعدددیات
26
نام‌سازمان
58
بیمه‌نامه‌سال‌قبل
90
اضافه‌نرخ‌ماده‌یک
27
کدنوع‌بیمه
59
انقضاسال‌قبل
91
دیرکردجریمه
28
cbrn. cod
60
بیمه‌گرقبل
92
کدملی‌بیمه‌گذار
29
نوع‌بیمه
61
شعبه‌قبل
93
صادره‌توسط شعبه
30
تاریخ‌صدور
62
خسارت‌داشته‌؟
94
نوع‌مستند1
31
تاریخ‌شروع
63
تعهدمالی
95
شماره‌مستند1
32
تاریخ‌انقضا
64
تعهدبدنی
96
تاریخ‌مستند1

ادامه جدول شماره 3-2: فیلدهای اولیه داده های صدور
ردیف
نام فیلد
ردیف
نام فیلد
ردیف
نام فیلد
97
مبلغ‌مستند1
111
تخفیف ایمنی
125
کداقتصادی
98
شماره‌حساب1
112
سایرتخفیف ها
126
کدملی
99
بانک1
113
ملاحظات
127
تاریخ‌ثبت
100
نوع‌مستند2
114
نام‌کاربر
128
کدشعبه‌صادرکننده‌اصلی
101
شماره‌مستند2
115
تاریخ‌سند
129
کدنمایندگی‌صادرکننده‌اصلی
102
تاریخ‌مستند2
116
کدشهربانی
130
کدسازمان‌صادرکننده‌اصلی
103
مبلغ‌مستند2
117
شعبه‌محل‌نصب
131
سال
104
شماره‌حساب2
118
کدمحل‌نصب
132
ماه
105
بانک2
119
دستی/مکانیزه
133
نوع
106
تخفیف‌نرخ‌اجباری
120
تیک‌باحسابداری
134
crecno
107
تخفیف‌نرخ‌اختیاری
121
سال‌انتقال
135
type_ex
108
تخفیف عدم خسارت
122
ماه‌انتقال
136
updflg
109
تخفیف صفرکیلومتر
123
sysid
137
hsab_sync
110
تخفیف گروهی
124
trsid

کداقتصادی

جدول شماره 3-3: فیلدهای نهایی داده های صدور
ردیف
نام فیلد
ردیف
نام فیلد
ردیف
نام فیلد
1
ماه
15
تعهدمازاد
29
تاریخ‌شروع
2
سال
16
تعهدبدنی
30
تاریخ‌صدور
3
کدنمایندگی‌صادرکننده‌اصلی
17
تعهدمالی
31
نام‌سازمان
4
تخفیف گروهی
18
بیمه‌نامه‌سال‌قبل
32
شماره‌بیمه‌نامه
5
تخفیف عدم خسارت
19
نوع‌بیمه
33
کارمندی
6
نوع‌مستند1
20
نوع‌پلاک
34
صادره‌توسط شعبه
7
دیرکردجریمه
21
شرح‌مورداستفاده
35
دولتی
8
کداضافه‌نرخ‌حق‌بیمه
22
ظرفیت
36
نمایندگی‌محل‌صدور
9
حق‌بیمه‌دریافتی
23
تعدادسیلندر
37
خسارتی؟
10
عوارض‌ماده92
24
سال ساخت
38
مبلغ خسارت
11
مالیات
25
سیستم
39
تاریخ ایجادحادثه
12
حق‌بیمه‌سرنشین
26
نوع‌وسیله‌نقلیه
40
بیمه گر زیاندیده اول
13
حق‌بیمه‌مازاد
27
مدت بیمه
41
تعداد زیاندیدگان مصدوم
14
حق‌بیمه‌ثالث‌قانونی
28
تاریخ‌انقضا
42
تعداد زیاندیدگان متوفی

مطلب مرتبط :   تحقیق درموردمیزان استفاده

در کاهش ابعاد این مساله برای حذف فیلدهای مختلف نظرات کارشناسان بیمه نیز لحاظ شده است. جدول 3-4 فیلدهای حذف شده و علت حذف آنها را بیان کرده است.

جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها
نام فیلد حذف شده
علت حذف
Crecno-type_ex-updflg-hsab_sync-کدمحل‌نصب-دستی/مکانیزه-تیک‌باحسابداری-سال‌انتقال-ماه‌انتقال-sysid-trsid-کدزیررشته آمار-نمایش سند-مکانیزه-دستی-وب‌بنیان-Cbrn. cod

کاربرد آماری
نوع-کد شعبه صادرکننده-شعبه محل نصب-کدشهربانی-سایرتخفیف ها-تخفیف ایمنی-تخفیف صفر کیلومتر-تخفیف نرخ اختیاری-تخفیف نرخ اجباری-خسارت داشته؟-شعبه قبل-جنسیت-کد نوع بیمه نامه-یدک دارد-
اتاق وسیله نقلیه-سن بیمه گذار-شغل بیمه گذار-زمان شروع-کد نوع بیمه

دارای مقدار یکسان یا null
کد سازمان صادر کننده-کد نوع تعهد سرنشین-کدواحدظرفیت-کد وسیله نقلیه-کد سازمان-کد صادره توسط-نمایندگی-کد دولتی
بجای این کد از فیلد اسمی معادل آن استفاده شده است و یا برعکس زیرا در نتایج خروجی قابل فهم تر خواهد بود.
تاریخ ثبت-تاریخ سند-بیمه گر قبل-مبلغ -مستند 1و2-اضافه‌نرخ‌ثالث-4اضافه‌نرخ‌بند-
اضافه‌نرخ‌مازاد-میزان تعهد سرنشین-تعدددیات-اضافه‌نرخ‌تعدددیات-اضافه‌نرخ‌ماده‌یک-تاریخ مستند1و2-شماره -حساب 1و2-بانک1و2

دارای مقدار تکراری
کدملی-بیمه نامه-کداقتصادی-نوع مستند2-
شماره مستند1و2-نام کاربر-ملاحظات-
کدملی بیمه گذار-شماره شاسی-شماره موتور-
شماره شهربانی-سریال کارت-سال کارت-
نام‌استان-نام‌شعبه-کدشعبه-شعبه‌محل‌صدور
شعبه-سال‌صدوربیمه‌نامه-رشته‌بیمه-رنگ-تلفن بیمه گذار-نام بیمه گذار-آدرس بیمه گذار-سریال بیمه نامه

بدون تاثیر
حق‌بیمه‌تعددخسارت-جریمه‌بیمه‌مرکزی-
حق‌بیمه‌صادره‌شعبه-حق‌بیمه‌صادره‌نمایندگی-
مازادجانی-حق‌بیمه‌مازادمالی-حق بیمه ماده1-
حق بیمه ماده4-ثالث قانونی + تعدد دیات- انقضا سال قبل

بخشی از فیلد انتخاب شده

جدول 3-5: فیلدهای استخراج شده از داده های خسارت
مبلغ خسارت
تاریخ ایجادحادثه
بیمه گر زیاندیده اول
تعداد زیاندیدگان مصدوم
تعداد زیاندیدگان متوفی

3-2-4- فیلدهای مجموعه داده خسارت
از مجموعه داده خسارت فقط فیلدهای مشخص کننده میزان خسارت و جزئیات لازم استخراج شده است. متاسفانه اطلاعات مفید تری مثل سن راننده مقصر، میزان تحصیلات و. . . در این مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت برای یک بیمه نامه از اطلاعات کلیدی داده های صدور استفاده می شود، با توجه به اینکه از مرحله قبل مهمترین فیلدهای داده های صدور را در دسترس داریم بنابراین با ادغام فیلدهای خسارت و صدور به اطلاعات جامعی در خصوص یک بیمه نامه خاص دسترسی خواهیم داشت. مشخصه ها استخراج شده از داده های خسارت طبق جدول 3-5 است.

3-2-5-پاکسازی داده ها
داده ها در دنیای واقعی ممکن است دارای خطا23، مقادیر از دست رفته24، مقادیر پرت و دورافتاده25 باشند [Jiawei Han, 2010]. در مرحله پاکسازی با توجه به نوع داده ممکن است یک یا چند روش پاکسازی بر روی داده اعمال شود.

3-2-6- رسیدگی به داده های از دست رفته
در این قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمی از پاکسازی داده بحساب می آید. در مرحله ابتدایی با مرتب سازی تمام ویژگی های قابل مرتب سازی در نرم افزار Microsoft Excel اقدام به کشف مقادیر از دست رفته کرده و از طریق دیگر ویژگی های هر رکورد مقدار از دست رفته را حدس زده ایم. همچنین درحین انتقال داده به محیط داده کاوی مقادیر از دست رفته نیز مشخص می گردند. در بعضی موارد بدلیل تعداد زیاد ویژگی های از دست رفته اقدام به حذف کامل رکورد نمودیم. این کار برای زمانی که داده ها در حجم انبوهی وجود دارند مفید واقع میشوند اما زمانی که تعداد رکوردها کم می باشد اجتناب از این عمل توصیه می شود. برای ویژگی نوع بیمه که از نوع چند اسمی بوده است فقط دو مقدار”کارمندی” و “عادی” وجود داشته که تعداد 49 مورد فاقد مقدار بوده است. کل تعداد بیمه کارمندی 27 مورد بوده است. با توجه به کم بودن تعداد داده های ازدست رفته این فیلد و پس از مقایسه نام بیمه گذاران با اسم کارمندان مشخص شد هیچ کدام از موارد فوق کارمندی نبوده و همه از نوع عادی بوده اند.
از جمله فیلدهای دارای مقادیر از دست رفته و روش رفع ایراد آنها عبارتند
از:
سیستم*** 70 مورد***تشخیص با توجه به دیگر ویژگی ها
نوع وسیله نقلیه***33مورد***تشخیص با توجه به دیگر ویژگی ها
شرح مورد استفاده***11مورد***تشخیص با توجه به دیگر ویژگی ها
تعدادسیلندر***2مورد***تشخیص با توجه به دیگر ویژگی ها
دولتی***28 مورد***تشخیص از روی پلاک
ماه***130 مورد***تشخیص از روی تاریخ صدور
نوع بیمه***49مورد***تشخیص از روی نام بیمه گذار
تعداد رکوردهایی که مقادیرازدست رفته در چند ویژگی مهم را داشته اند و حذف شده اند حدود 350 مورد بوده است.

مطلب مرتبط :   (DNA، PCR‏، C-، سویا)،

3-2-7-کشف داده دور افتاده26
بعضی از مقادیر بسته به نوع داده علی رغم پرت تشخیص داده شدن مقادیر صحیحی می باشند. بنابراین حذف اینگونه داده ها برای کاستن پیچیدگی مساله میتواند موجب حذف قوانین مهمی در الگوریتم های مبتنی برقانون یا درختهای تصمیم شود. پس بررسی خروجی الگوریتم توسط یک فردخبره در موضوع مساله می تواند مانع از این اتفاق شود. نوع برخورد با داده پرت میتواند شامل حذف داده پرت، تغییر مقدار، حذف رکورد و در مواردی حذف مشخصه27 باشد.
برای تشخیص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گردید. در این نمودار از مفهوم درصدک استفاده میشود که داده های بین 25% تا 75% که به ترتیب با Q1 و Q3 نشان داده می شوند مهم ترین بخش داده ها هستند. X50% نیز میانه را نشان می دهد و با یک خط در وسط نمودار مشخص می شود. Interquartile range (IQR) نیز مفهوم دیگری است که برابر است با IQR = Q3-Q1 .
مقادیر بیشتر از Q3 + [(Q3 – Q1) X 1. 5] و کمتر از Q1 – [(Q3 – Q1) X 1. 5]داده پرت محسوب می شوند. برای انجام اینکار نمودار boxplot را روی تک تک مشخصه های داده ها به اجرا در آورده و نتایج مطابق جدول 3-6 حاصل گردید.
جدول 3-6: نتایج نمودار boxplot
نام فیلد
محاسبه مقادیر پرت
توضیحات
تعداد زیاندیدگان متوفی
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقدار 1و2 نشان داده شده صحیح می باشد
تعداد زیاندیدگان مصدوم
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
1و2و3 نشان داده شده صحیح می باشد
بیمه گر زیاندیده اول
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقدار 1و2و3و. . . نشان داده شده صحیح می باشد و عدد 99 مقداری صحیح است که به معنی ندارد استفاده میگردد
مبلغ خسارت
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مبلغ خسارت 1.658.398.000 ریال و 900.000.000 ریال واقعا پرداخت گردیده است
تعداد سیلندر
Q1=4, Q3=4, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=4
Q1 – [(Q3 – Q1) X 1. 5]=4
مقدار 5 به عنوان تعداد سیلندر ناصحیح می باشد
ظرفیت
Q1=5, Q3=5, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=5
Q1 – [(Q3 – Q1) X 1. 5]=5
مقادیر بین 1 تا 96 ظرفیتهای منطقی بر اساس تناژ یا سرنشین بوده و صحیح است اما مقدار 750 نا صحیح است
نوع پلاک
Q1=3, Q3=3, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=3
Q1 – [(Q3 – Q1) X 1. 5]=3
مقادیر با مفهوم بوده و دور افتاده نیست

بیمه نامه سال قبل
Q1=1, Q3=1, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=1
Q1 – [(Q3 – Q1) X 1. 5]=1
مقادیر عددی 0 یا 1 به معنی داشتن یا نداشتن بوده و صحیح است
تعهدات مالی
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه ثالث قانونی
Q1=1992600, 3=3332500, IQR=1339900
Q3 + [(Q3 – Q1) X 1. 5]=5342350
Q1 – [(Q3 – Q1) X 1. 5]=17250
مقادیر با مفهوم بوده و دور افتاده نیست
حق بیمه مازاد
Q1=0, Q3=9100, IQR=9100
Q3 + [(Q3 – Q1) X 1. 5]=22750
Q1 – [(Q3 – Q1) X 1. 5]=13650
مقادیر با مفهوم بوده و دور افتاده نیست
دیرکرد جریمه
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقادیر با مفهوم بوده و دور افتاده نیست
تخفیف عدم خسارت
Q1=610080, Q3=1495200, IQR=885120
Q3 + [(Q3 – Q1) X 1. 5]=2822880
Q1 – [(Q3 – Q1) X 1. 5]=717600
مقادیر با مفهوم بوده و دور افتاده


دیدگاهتان را بنویسید