دانلود پایان نامه

ازیک تعداد زیادی ازداده بوسیله بعضی ازفناوری ها به عنوان رویه ای برای کشف دانش ازپایگاه داده است، که گام های آن شامل موارد زیر هستند [Han and Kamber 2001] .

1-پاک سازی داده ها :حذف داده دارای نویز و ناسازگار
2-یکپارچه سازی داده: ترکیب منابع داده گوناگون
3-انتخاب داده: یافتن داده مرتبط با موضوع از پایگاه داده
4-تبدیل داده: تبدیل داده به شکل مناسب برای کاوش
5-داده کاوی: استخراج مدل های داده با بهره گیری از تکنولوژی
6- ارزیابی الگو: ارزیابی مدل هایی که واقعا برای ارائه دانش مفید هستند
7-ارائه دانش: ارائه دانش بعد ازکاوش به کاربران بوسیله استفاده از تکنولوژیهایی همچون ارائه بصری [Lin & Yeh 2012] .

ابزارها و تکنیک های داده کاوی

با توجه به تنوع حجم و نوع داده ها، روش های آماری زیادی برای کشف قوانین نهفته در داده ها وجود دارند. این روش ها می توانند با ناظر یا بدون ناظر باشند. [Bolton & Hand 2002] در روش های با ناظر، نمونه هایی از مواردخسارتی موجود است و مدلی ساخته می شود که براساس آن، خسارتی یا غیر خسارتی بودن نمونه های جدید مشخص می شود. این روش جهت تشخیص انواع خسارت هایی مناسب است که از قبل وجود داشته اند]فولادی نیا و همکاران 1392[ .
روش های بدون ناظر، به دنبال کشف نمونه هایی هستند که کمترین شباهت را با نمونه های نرمال دارند. برای انجام فعالیت هایی که در هر فاز داده کاوی باید انجام شود از ابزارها و تکنیک های گوناگونی چون الگوریتمهای پایگاه داده، تکنیکهای هوش مصنوعی، روشهای آماری، ابزارهای گرافیک کامپیوتری و مصور سازی استفاده می شود. هر چند داده کاوی لزوما به حجم داده زیادی بعنوان ورودی نیاز ندارد ولی امکان دارد در یک فرآیند داده کاوی حجم داده زیادی وجود داشته باشد.
در اینجاست که از تکنیک ها وابزارهای پایگاه داده ها مثل نرمالسازی، تشخیص و تصحیح خطا و تبدیل داده ها بخصوص در فازهای شناخت داده و آماده سازی داده استفاده می شود. همچنین تقریبا در اکثرفرآیند های داده کاوی از مفاهیم، روشها و تکنیک های آماری مثل روشهای میانگین گیری )ماهیانه، سالیانه و . . . (، روشهای محاسبه واریانس و انحراف معیار و تکنیک های محاسبه احتمال بهره برداری های فراوانی می شود. یکی دیگر از شاخه های علمی که به کمک داده کاوی آمده است هوش مصنوعی می باشد.
هدف هوش مصنوعی هوشمند سازی رفتار ماشینها است. می توان گفت تکنیک های هوش مصنوعی بطور گسترده ای در فرآیند داده کاوی به کار می رود بطوریکه بعضی از آماردانها ابزارهای داده کاوی را بعنوان هوش آماری مصنوعی معرفی می کنند.
قابلیت یادگیری بزرگترین فایده هوش مصنوعی است که بطور گسترده ای در داده کاوی استفاده می شود. تکنیک های هوش مصنوعی که در داده کاوی بسیار زیاد مورد استفاده قرار می گیرند عبارتند از شبکه های عصبی، روشهای تشخیص الگوی یادگیری ماشین و الگوریتمهای ژنتیک ونهایتا تکنیک ها و ابزارهای گرافیک کامپیوتری و مصور سازی که بشدت در داده کاوی بکار گرفته می شوند و به کمک آنها می توان داده های چند بعدی را به گونه ای نمایش داد که تجزیه وتحلیل نتایج برای انسان براحتی امکان پذیر باشد [Gupta 2006].

روشهای داده کاوی

عمده روشهای داده کاوی عبارتند از روشهای توصیف داده ها، روشهای تجزیه و تحلیل وابستگی، روشهای دسته بندی و پیشگویی، روشهای خوشه بندی، روشهای تجزیه و تحلیل نویز.
می توان روش های مختلف کاوش داده را در دو گروه روش های پیش بینی و روش های توصیفی طبقه بندی نمود. روش های پیش بینی در متون علمی به عنوان روش های با ناظر1 نیزشناخته می شوند. روش های دسته بندی2، رگرسیون3 و تشخیص انحراف4 از روشهای یادگیری مدل در داده کاوی با ماهیت پیش بینی هستند. در الگوریتم های دسته بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده های آموزشی5 و مجموعه داده های آزمایشی6 تقسیم می شود که با استفاده از مجموعه داده های آموزشی مدل ساخته می شود و از مجموعه داده های آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می شود. هررکورد شامل یک مجموعه ویژگی است.
یکی از ویژگی ها، ویژگی دسته نامیده می شود و در مرحله آموزش براساس مقادیر سایر ویژگی ها برای مقادیر ویژگی دسته، مدل ساخته می شود. روشهای توصیفی الگوهای قابل توصیفی را پیدا میکنند که روابط حاکم بر داده ها را بدون در نظرگرفتن هرگونه برچسب و یا متغیرخروجی تبیین نمایند. درمتون علمی روشهای توصیفی با نام روشهای بدون ناظر7 نیز شناخته می شوند ]صنیعی آباده 1391[.

روشهای توصیف داده ها8
هدف این روشها ارائه یک توصیف کلی از داده هاست که معمولا به شکل مختصر ارائه می شود. هر چند توصیف داده ها یکی از انواع روشهای داده کاوی است ولی معمولا هدف اصلی نیست واغلب از این روش برای تجزیه و تحلیل نیاز های اولیه و شناخت طبیعت داده ها و پیدا کردن خصوصیات ذاتی داده ها یا برای ارائه نتایج داده کاوی استفاده می شود [Sirikulvadhana 2002] .

مطلب مرتبط :   مقاله رایگان با موضوعجبران خسارت، ضمن عقد

روشهای تجزیه و تحلیل وابستگی 9
هدف این روشها پیدا کردن ارتباطات قابل توجه بین تعداد زیادی از متغیر ها یا صفات می باشد[Gupta 2006] . یکی از روشهای متداول برای کشف قواعد وابستگی مدل Apriori است که نسبت به سایر مدلهای کشف قواعد وابستگی سریعتر بوده و محدودیتی از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمی یکی از محتواهای اصلی تحقیقات داده کاوی در حال حاضر است
و خصوصا بر یافتن روابط میان آیتم های مختلف در پایگاه داده تاکید دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوریتم دیگر از قواعد وابستگی هستند.

روشهای دسته بندی و پیشگویی10
دسته بندی یک فرآیند یافتن مدل است که برای بخش بندی داده به کلاس های مختلف برطبق بعضی محدودیت ها استفاده شده است. به بیان دیگر ما می توانیم بگوییم که دسته بندی یک فرآیند تعمیم داده بر طبق نمونه های مختلف است. چندین نمونه اصلی الگوریتم های طبقه بندی شامل C4. 5 ، K نزدیکترین همسایه11، بیز ساده و SVM است [Kumar and Verna 2012].
یکی از این نوع الگوریتم ها نظریه بیز می باشد. این دسته بند از یک چارچوب احتمالی برای حل مساله استفاده می کند. یک رکورد مفروض با مجموعه ویژگی های (A1, A2…. An) را درنظر بگیرید. هدف تشخیص دسته این رکورد است. در واقع از بین دسته های موجود به دنبال دسته ای هستیم که مقدارP(C|A1, A2…. An) را بیشینه کند. پس این احتمال را برای تمامی دسته های موجود محاسبه کرده و دسته ای که این احتمال به ازای آن بیشینه شود را به عنوان دسته رکورد جدید در نظر می گیریم.
P(C│A)=(P(A│C) P(C))/P(A)
رگرسیون نیز نوع دیگری از این الگوریتم ها است. پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیر خطی رگرسیون نام دارد. درواقع یک بردار X داریم که به یک متغیر خروجی y نگاشت شده است. هدف محاسبه y یا همان F(X) است که از روی تخمین تابع مقدار آن محاسبه می شود.

درخت تصمیم12
درخت تصمیم از ابزارهای داده کاوی است که در رده بندی داده های کیفی استفاده می شود. در درخت تصمیم، درخت کلی به وسیله خرد کردن داده ها به گره هایی ساخته می شود که مقادیری از متغیر ها را در خود جای می دهند. با ایجاد درخت تصمیم بر اساس داده های پیشین که رده آنها معلوم است، می توان داده های جدید را دسته بندی کرد. روش درخت تصمیم به طور کلی برای دسته بندی استفاده می شود، زیرا یک ساختار سلسله مراتبی ساده برای فهم کاربر و تصمیم گیری است. الگوریتم های داده کاوی گوناگونی برای دسته بندی مبتنی بر شبکه عصبی مصنوعی، قوانین نزدیکترین همسایگی و دسته بندی بیزین در دسترس است اما درخت تصمیم یکی از ساده ترین تکنیک هاست [Patil et. al 2012] . از انواع درخت های تصمیم می توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.

2-3-5-شبکه عصبی13
روش پرکاربرد دیگر در پیشگویی نتایج استفاده از شبکه های عصبی می باشد. شبکه های عصبی مدل ساده شده ای است که بر مبنای عملکرد مغز انسان کار می کند. اساس کار این شبکه شبیه سازی تعداد زیادی واحد پردازشی کوچک است که با هم در ارتباط هستند. به هریک از این واحد ها یک نرون گفته می شود. نرون ها بصورت لایه لایه قرار دارند و در یک شبکه عصبی معمولا سه لایه وجود دارد [Gupta 2006] . اولین لایه )لایه ورودی ( ، دومین )لایه نهان (و سومین )لایه خروجی (. لایه نهان می تواند متشکل از یک لایه یا بیشتر باشد [Pradhan et. al 2011 ] .

2-3-6- استدلال مبتنی بر حافظه14
توانایی انسان در استدلال براساس تجربه، به توانایی او در شناخت و درک نمونه های مناسبی که مربوط به گذشته است، بستگی دارد. افراد در ابتدا تجارب مشابهی که در گذشته داشته را شناسایی و سپس دانشی که از آن ها کسب کرده است را برای حل مشکل فعلی به کار می گیرند. این فرآیند اساس استدلال مبتنی بر حافظه است. یک بانک اطلاعاتی که از رکوردهای شناخته شده تشکیل شده است مورد جستجو قرار می گیرد تارکوردهای از قبل طبقه بندی شده و مشابه با رکورد جدید یافت شود.
از این همسایه ها برای طبقه بند ی و تخمین زدن استفاده می شود. 15KNN یک نمونه از این الگوریتم هاست. فرض کنید که یک نمونه ساده شده با یک مجموعه از صفت های مختلف وجود دارد، اما گروهی که این نمونه به آن متعلق است نامشخص است. مشخص کردن گروه می تواند از صفت هایش تعیین شود. الگوریتم های مختلفی می تواند برای خودکار سازی فرآیند دسته بندی استفاده بشود. یک دسته بند نزدیک ترین همسایه یک تکنیک برای دسته بندی عناصر است مبتنی بردسته بندی عناصر در مجموعه آموزشی که شبیه تر به نمونه آزمایشی هستند.
باتکنیک Kنزدیکترین همسایه، این کار با ارزیابی تعداد K همسایه نزدیک انجام می شود. [Tan et al 2006] . تمام نمونه های آموزشی در یک فضای الگوی چند بعدی ذخیره شده اند. وقتی یک نمونه ناشناخته داده می شود، یک دسته بند نزدیکترین همسایه در فضای الگو برای K نمونه آموزشی که نزدیک به نمونه ناشناخته هستند جستجو می کند. نزدیکی بر اساس فاصله اقلیدسی تعریف می شود [Wilson and Martinez 1997] .

مطلب مرتبط :   منبع پایان نامه ارشد درموردفاصله قدرت

2-3-7-ماشین های بردار پشتیبانی
SVM 16 اولین بار توسط Vapnik در سال 1990 معرفی شد و روش بسیار موثری برای رگرسیون و دسته بندی و تشخیص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان یک دسته بند خوب در نظر گرفته می شود زیرا کارایی تعمیم آن بدون نیاز به دانش پیشین بالاست حتی وقتیکه ابعاد فضای ورودی بسیار بالاست. هدف SVM یافتن بهترین دسته بند برای تشخیص میان اعضای دو کلاس در مجموعه آموزشی است [Kumar and Verna 2012] .
رویکرد SVM به این صورت است که در مرحله آموزش سعی دارد مرز تصمیم گیری را به گونه ای انتخاب نماید که حداقل فاصله آن با هر یک از دسته های مورد نظر را بیشینه کند. این نوع انتخاب مرز بر اساس نقاطی بنام بردارهای پشتیبان انجام می شوند.

2-3-8-روشهای خوشه بندی 17
هدف این روشها جداسازی داده ها با خصوصیات مشابه است. تفاوت بین دسته بندی و خوشه بندی این است ک
ه در خوشه بندی از قبل مشخص نیست که مرز بین خوشه ها کجاست و برچسبهای هر خوشه از پیش تعریف شده است ولی در دسته بندی از قبل مشخص است که هر دسته شامل چه نوع داده هایی می شود و به اصطلاح برچسب های هر دسته از قبل تعریف شده اند. به همین دلیل به دسته بندی یادگیری همراه با نظارت و به خوشه بندی یادگیری بدون نظارت گفته می شود [Osmar 1999] .

2-3-9- روش K-Means
یکی از روش های خوشه بندی مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصی خوشه، خوشه بندی می کند. روش کار آن به این صورت است که تعداد ثابتی خوشه در نظر میگیرد و رکوردها را به این خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظیم می کند تا زمانیکه بهترین خوشه بندی بدست آید[Xindong et al 2007].

2-3-10-شبکه کوهنن
شبکه کوهنن نوعی شبکه عصبی است که در این نوع شبکه نرون ها در دو لایه ورودی و خروجی قرار دارند و همه نرون های ورودی به همه نرون های خروجی متصل اندو این اتصالات دارای وزن هستند. لایه خروجی در این شبکه ها بصورت یک ماتریس دو بعدی چیده شده و به آن نقشه خروجی گفته می شود. مزیت این شبکه نسبت به سایر انواع شبکه های عصبی این است که نیاز نیست دسته یا خوشه داده ها از قبل مشخص باشد، حتی نیاز نیست تعداد خوشه ها از قبل مشخص باشد. شبکه های کوهنن با تعداد زیادی نرون شروع می شود و به تدریج که یادگیری پیش می رود، تعداد آنها به سمت یک تعداد طبیعی و محدود کاهش می یابد.

2-3-11-روش دو گام18
این روش در دو گام کار خوشه بندی را انجام می دهد. در گام اول همه داده ها یک مرور کلی می شوند و داده های ورودی خام به مجموعه ای از زیر خوشه های قابل مدیریت تقسیم می شوند. گام دوم با استفاده از یک روش خوشه بندی سلسله مراتبی بطور مداوم زیر خوشه ها را برای رسیدن به خوشه های بزرگتر با هم ترکیب می کند بدون اینکه نیاز باشد که جزئیات همه داده ها را مجددا مرور کند.

2-3-12-روشهای تجزیه و تحلیل نویز19
بعضی از داده ها که به طور بارز و مشخصی از داده های دیگر متمایز هستند اصطلاحاً بعنوان داده خطا یا پرت شناخته می شوند که باید قبل از ورود به فاز مدلسازی و در فاز آماده سازی داده ها برطرف شوند. با وجود این زمانیکه شناسایی داده های غیر عادی یا غیر قابل انتظار مانند موارد تشخیص تقلب هدف اصلی باشد، همین نوع داده ها مفید هستند که در این صورت به آنها نویز گفته می شود [Osmar 1999].

دسته های نامتعادل]صنیعی آباده 1391[.

مجموعه داده هایی که در آنها ویزگی دسته دارای توزیع نامتعادل باشد بسیار شایع هستند. مخصوصاً این مجموعه داده ها در کاربردها و مسائل واقعی بیشتر دیده می شوند.
در چنین مسائلی با وجود اینکه تعداد رکوردهای مربوط به دسته نادر بسیار کمتر از دسته های دیگر است، ولی ارزش تشخیص دادن آن به مراتب بالاتر از ارزش تشخیص دسته های شایع است. در داده کاوی برای برخورد با مشکل دسته های نامتعادل از دو راهکار استفاده می شود:
راهکار مبتنی بر معیار
راهکار مبتنی بر نمونه برداری

راهکار مبتنی بر معیار
در دسته بندی شای


دیدگاهتان را بنویسید