دانلود پایان نامه

3-2-2 فیلدهای مجموعه داده صدور 25
3-2-3 کاهش ابعاد 25
3-2-4 فیلدهای مجموعه داده خسارت 29
3-2-5 پاکسازی داده ها 29
3-2-6 رسیدگی به داده های از دست رفته 29
3-2-7 کشف داده دور افتاده 30
3-2-8 انبوهش داده 32
3-2-9 ایجاد ویژگی دسته 32
3-2-10 تبدیل داده 32
3-2-11 انتقال داده به محیط داده کاوی 32
3-2-12 انواع داده تعیین شده 33
3-2-13 عملیات انتخاب ویژگیهای موثرتر 34
3-3 نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی 34
3-4 ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی 36
3-5 معیارهای ارزیابی الگوریتمهای دسته بندی 37
3-6 ماتریس درهم ریختگی 37
3-7 معیار AUC 38
3-8 روشهای ارزیابی الگوریتم های دسته بندی 39
3-8-1 روش Holdout 39
3-8-2 روش Random Subsampling 39
3-8-3 روش Cross-Validation 40
3-8-4 روش Bootstrap 40
3-9 الگوریتمهای دسته بندی 41
3-9-1 الگوریتم KNN 42
3-9-2 الگوریتم Naïve Bayes 42
3-9-3 الگوریتم Neural Network 43
3-9-4 الگوریتم SVM خطی 45
3-9-5 الگوریتم رگرسیون لجستیک 46
3-9-6 الگوریتم Meta Decision Tree 47
3-9-7 الگوریتم درخت Wj48 49
3-9-8 الگوریتم درخت Random forest 51
3-10 معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی) 54
3-10-1 الگوریتم FPgrowth 55
3-10-2 الگوریتم Weka Apriori 55
3-11 معیارهای ارزیابی الگوریتمهای خوشه بندی 55
3-12 الگوریتم های خوشه بندی 57
3-12-1 الگوریتم K-Means 57
3-12-2 الگوریتم Kohonen 60
3-12-3 الگوریتم دوگامی 64

فصل چهارم: ارزیابی و نتیجه گیری
4-1 مقایسه نتایج 69
4-2 الگوریتمهای دسته بندی 69
4-3 الگوریتم های دسته بندی درخت تصمیم 70
4-4 الگوریتم های خوشه بندی 79
4-5 الگوریتم های قواعد تلازمی(مبتنی بر قانون) 81
4-6 پیشنهادات به شرکت های بیمه 81
4-7 پیشنهادات جهت ادامه کار 83

منابع و مأخذ
فهرست منابع فارسی 84
فهرست منابع انگلیسی 85

فهرست جدول‌ها

عنوان صفحه

جدول شماره 3-1: نتایج رای گیری استفاده از نرم افزارهای داده کاوی 24
جدول شماره 3-2: فیلدهای اولیه داده های صدور 26
جدول شماره 3-3: فیلدهای نهایی داده های صدور 27
جدول شماره 3-4: فیلدهای حذف شده داده های صدور و علت حذف آنها 28
جدول 3-5: فیلدهای استخراج شده از داده های خسارت 28
جدول 3-6: نتایج نمودار boxplot 31
جدول 3-7: انواع داده استفاده شده 33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف 37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted Records) 38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth 55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori 55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means 57
اجرا برای 9 خوشه در الگوریتم K-Means 60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen 64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی 69
جدول 4-1: مقایسه الگوریتم های دسته بند 70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم 70
جدول 4-3: ماتریس آشفتگی قانون شماره 1 71
جدول 4-4: ماتریس آشفتگی قانون شماره 2 72
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف 72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب 72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج 73
عنوان صفحه

جدول 4-8: ماتریس آشفتگی قانون شماره 3 د 73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه 73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و 74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز 76
جدول 4-12: ماتریس آشفتگی قانون شماره 4 76
جدول 4-13: ماتریس آشفتگی قانون شماره 5 77
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف 77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب 78
جدول 4-16: ماتریس آشفتگی قانون شماره7 78
جدول 4-17: ماتریس آشفتگی قانون شماره8 79
جدول 4-18: مقایسه الگوریتم های خوشه بندی 79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی 80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori 81

فهرست شکل‌ها

عنوان صفحه

شکل شماره3-1: داده از دست رفته فیلد” نوع بیمه ” پس از انتقال به محیط داده کاوی 33
شکل 3-2: نتایج الگوریتمPCA 34
شکل 3-3: نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها 35
شکل 3-4: نتایج الگوریتم Weighting Deviation در ارزشدهی به ویژگی ها 35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها 36
شکل 3-6: نمای کلی استفاده از روشهای ارزیابی 41
شکل 3-7: نمای کلی استفاده از یک مدل درون یک روش ارزیابی 42
شکل 3-8: نمودار AUC الگوریتم KNN 42
شکل 3-9: نمودار AUC الگوریتم Naïve Bayes 43
شکل 3-10: تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی 44
شکل 3-11: نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net 44
شکل 3-12: تبدیل ویژگی های غیر عددی به عدد در الگوریتم SVM خطی 45
شکل 3-13 : نمودار AUC الگوریتم SVM Linear 46
شکل 3-14 : نمودار AUC الگوریتم رگرسیون لجستیک 47
شکل 3-15 : نمودار AUC الگوریتم Meta Decision Tree 48
شکل 3-16 : قسمتی از نمودارtree الگوریتم Meta Decision Tree 49
شکل 3-17 : نمودار radial الگوریتم Meta Decision Tree 49
شکل 3-18: نمودار AUC الگوریتم Wj48 50
شکل 3-19 : نمودار tree الگوریتم Wj48 51
شکل 3-20 : نمودار AUC الگوریتم Random forest 52
شکل 3-21 : نمودار تولید 20 درخت در الگوریتم Random Forest 53
شکل 3-22 : یک نمونه درخت تولید شده توسط الگوریتم Random Forest 53
عنوان صفحه

مطلب مرتبط :   پایان نامه با کلمات کلیدیسلسله مراتب، استان اصفهان، شهر اصفهان، استان فارس

شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه 57
شکل 3-24 : Predictor Importance for K-Means 58
شکل 3-25 :
اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
K-Means 59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K- 60
شکل 3-27 : Predictor Importance for Kohonen 61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم
Kohonen 62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K- 63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen 63
شکل 3-31 : Predictor Importance for دوگامی 64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در
الگوریتم دوگامی 65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی 66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت 75

فصل اول

مقدمه

شرکتهای تجاری و بازرگانی برای ادامه بقا و حفظ بازار همواره بر سود دهی و کاهش ضرر و زیان خود تاکید دارند از این رو روشهای جذب مشتری و همچنین تکنیکهای جلوگیری یا کاهش زیان در سرلوحه کاری این شرکتها قرار می گیرد.
از جمله شرکتهایی که بدلایل مختلف در معرض کاهش سود و یا افزایش زیان قرار می گیرند شرکتهای بیمه ای می باشند. عواملی همچون بازاریابی، وفاداری مشتریان، نرخ حق بیمه، تبلیغات، تقلب، می تواند باعث جذب یا دفع مشتری گردد که در سود و زیان تاثیر مستقیم و غیر مستقیم دارد.
پرداخت خسارت نیز به عنوان تعهد شرکتهای بیمه منجر به کاهش سود و در بعضی موارد موجب زیان یک شرکت بیمه می شود. خسارت می تواند بدلایل مختلف رخ دهد و یا عملی دیگر به گونه ای خسارت جلوه داده شود که در واقع اینچنین نیست[Derrig et. al 2006].
عواملی از قبیل فرهنگ رانندگی، داشتن گواهینامه رانندگی، نوع گواهینامه و تطابق یا عدم تطابق آن با وسیله نقلیه، جاده های بین شهری و خیابانهای داخل شهر که شهرداری ها و ادارات راه را به چالش می کشد، تقلب، وضعیت آب و هوا، کیفیت خودروی خودرو سازان، سن راننده، سواد راننده، عدم تطابق حق بیمه با مورد بیمه [Wilson 2003]، روزهای تعطیل، مسافرتها و بسیاری موارد دیگر می توانند موجب خسارت و در نهایت افزایش زیان یک شرکت بیمه ای گردند.
بیمه صنعتی سودمند، ضروری و مؤثر در توسعه اقتصادی است. این صنعت بدلیل «افزایش امنیت در عرصه های مختلف زندگی و فعالیتهای اقتصادی»، «افزایش سرمایه گذاری و اشتغال و رشد اقتصادی» و « ارتقای عدالت اقتصادی و کاهش فقر ناشی از مخاطرات »، حائز جایگاه مهمی در پیشرفت و تعالی یک کشور است.
با وجود نقش مهم بیمه در بسترسازی و تأمین شرایط مساعد اقتصادی، وضعیت کنونی این صنعت در اقتصاد ملی با وضعیت مطلوب آن فاصله زیادی دارد. عدم آشنایی عمومی و کم بودن تقاضا برای محصولات بیمه ای، دانش فنی پایین در عرصه خدمات بیمه ای، عدم تطابق ریسک با حق بیمه، تفاوت فاحش در مقایسه معیارهای تشخیص ریسک بیمه شخص ثالث با نوع بیمه معادل در کشورهای توسعه یافته، وجود نارسایی ها در مدیریت واحدهای عرضه بیمه از دلایل عدم توسعه مناسب این صنعت در کشور است. از آنجا که بشر در طول تاریخ به کمک علم و تجربه رستگاری ها و توفیقات فراوانی کسب کرده است، نگاه علمی تر به مشکلات این صنعت و یافتن راه حل در بستر علم می تواند راه گشا باشد.
امروزه بوسیله روشهای داده کاوی ارتباط بین فاکتورهای مختلف موثر یا غیر موثر در یک موضوع مشخص می شود و با توجه به اینکه داده کاوی ابزاری مفید در استخراج دانش از داده های انبوه می باشد که ارتباطات نهفته بین آنها را نشان می دهد، شرکتهای تجاری بازرگانی رو به این تکنیکها آورده اند.
داده کاوی محدود به استفاده از فناوری ها نیست و از هرآنچه که برایش مفید واقع شود استفاده خواهد کرد. با این وجود آمار و کامپیوتر پر استفاده ترین علوم و فناوری های مورد استفاده داده کاوی است.

تعریف داده کاوی

داده کاوی روند کشف قوانین و دانش ناشناخته و مفید از انبوه داده ها و پایگاه داده است[ Liu et. al 2012].
انجام عمل داده کاوی نیز مانند هر عمل دیگری مراحل خاص خود را دارد که به شرح زیر می باشند:
1-جدا سازی داده مفید از داده بیگانه
2-یکپارچه سازی داده های مختلف تحت یک قالب واحد
3-انتخاب داده لازم از میان دیگر داده ها
4- انتقال داده به محیط داده کاوی جهت اکتشاف قوانین
5-ایجاد مدلها و الگوهای مرتبط بوسیله روشهای داده کاوی
6-ارزیابی مدل و الگوهای ایجاد شده جهت تشخیص مفید بودن آنها
7-انتشار دانش استخراج شده به کاربران نهایی

مطلب مرتبط :   منبع پایان نامه با موضوعمنابع حقوق، حقوق متهم

تعریف بیمه

بیمه: بیمه عقدی است که به موجب آن یک طرف تعهد می کند در ازاء پرداخت وجه یا وجوهی از طرف دیگر در صورت وقوع یا بروز حادثه خسارت وارده بر او را جبران نموده یا وجه معینی بپردازد. متعهد را بیمه گر طرف تعهد را بیمه گذار وجهی را که بیمه گذار به بیمه گر می پردازد حق بیمه و آنچه را که بیمه می شود موضوع بیمه نامند]ماده یک قانون بیمه مصوب 7/2/1316[.

هدف پایان نامه

در این پژوهش سعی شده است با استفاده از تکنیکهای داده کاوی اقدام به شناسایی فاکتورهای تاثیر گذار در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه نموده و ضریب تاثیر آنها را بررسی نماییم. الگوریتم های استفاده شده در این پژوهش شامل دسته بند ها، خوشه بند ها، درخت های تصمیم و قوانین انجمنی بوده است.

مراحل انجام تحقیق

در این پایان نامه با است
فاده از روشهای داده کاوی با استفاده از بخشی از داده های صدور و خسارت یک سال شرکت بیمه مدل شده و از روی آنها یک الگو ساخته می شود. در واقع به این طریق به الگوریتم یاد داده می شود که ارتباطات بین داده ها، منجر به چه نتایجی می شود. سپس بخشی از داده ها که در مرحله قبل از آن استفاده نشده بود به مدل ایجاد شده داده می شود ونتایج توسط معیارهای علمی مورد ارزیابی قرار میگیرند. بمنظور آزمایش عملکرد می توان داده های دیگری به مدل داده شود و نتایج حاصله با نتایج واقعی موجود مقایسه شوند.

ساختار پایان نامه

این پایان نامه شامل چهارفصل خواهد بود که فصل اول شامل یک مقدمه و ضرورت پژوهش انجام شده و هدف این پژوهش است. در فصل دوم برخی تکنیک های داده کاوی و روشهای آن مطرح و تحقیقاتی که قبلا در این زمینه انجام شده مورد بررسی قرار می گیرند. در فصل سوم به شرح مفصل پژوهش انجام شده و نرم افزار داده کاوی مورد استفاده در این پایان نامه می پردازیم و با کمک تکنیک های داده کاوی مدل هایی ارائه می شود و مدلهای ارائه شده درهرگروه با یکدیگر مقایسه شده و بهترین مدل از میان آنها انتخاب می گردد. در فصل چهارم مسائل مطرح شده جمع بندی شده و نتایج حاصله مطرح خواهند شد و سپس تغییراتی که در آینده در این زمینه می توان انجام داد پیشنهاد می شوند.

فصل دوم

ادبیات موضوع و تحقیقات پیشین

در این فصل ابتدا مروری بر روشهای داده کاوی خواهیم داشت سپس به بررسی تحقیقات پیشین می پردازیم.

داده کاوی و یادگیری ماشین

داده کاوی ترکیبی از تکنیک های یادگیری ماشین، تشخیص الگو، آمار، تئوری پایگاه داده و خلاصه کردن و ارتباط بین مفاهیم و الگوهای جالب به صورت خودکار از پایگاه داده شرکتهای بزرگ است. هدف اصلی داده کاوی کمک به فرآیند تصمیم گیری از طریق استخراج دانش از داده هاست [Alpaydin 2010].
هدف داده کاوی آشکار کردن روندها یا الگوهایی که تا کنون ناشناخته بوده اند برای گرفتن تصمیمات بهتر است که این هدف را بوسیله به کارگیری روشهای آماری همچون تحلیل لجستیک و خوشه بندی و همچنین با استفاده از روشهای تحلیل داده به دست آمده از رشته های دیگر )همچون شبکه های عصبی در هوش مصنوعی و درختان تصمیم در یادگیری ماشین( انجام میدهد[Koh & Gervis 2010] . چون ابزارهای داده کاوی روند ها و رفتارهای آینده را توسط رصد پایگاه داده ها برای الگوهای نهان پیش بینی می کند با عث می شوند که سازمان ها تصمیمات مبتنی بر دانش گرفته و به سوالاتی که پیش از این حل آنها بسیار زمان بر بود پاسخ دهند [Ramamohan et. al 2012 ] .
داده کاوی یک ابزار مفید برای کاوش دانش از داده حجیم است. [Patil et. al 2012 ]. داده کاوی یافتن اطلاعات بامعنای خاص


دیدگاهتان را بنویسید