آشنایی با داده‌کاوی (Data Mining)

تفاوت داده (Data) و اطلاعات (Information) چیست؟

قبل از اینکه با مفهموم Data Mining آشنا شویم بهتر است ابتدا تعریف داده (Data) و اطلاعات (Information) را بشناسیم و پس از آن به سراغ داده‌کاوی و کاربردهای آن برویم.

داده (Data) که بعضا از آن با عنوان داده‌ ای خام نیز یاد می‌شود، گونه‌ای از اطلاعات به صورت خام و دست نخورده است که میتواند بسیار درهم و حتی به صورت عادی غیر قابل استفاده باشد، مجموعه‌ای از اعداد و ارقام درهم و شاید بدون معنای خاص می‌توانند به عنوان داده در نظر گرفته شوند، اما نتایج حاصل از پردازش و تجزیه و تحلیل این داده‌ها به عنوان اطلاعات تلقی می‌شوند، حتما متوجه شده‌اید که اطلاعات نیز می‌توانند مجددا به عنوان داده‌ ای ورودی سیستم مورد استفاده قرار گیرند.
بنابراین با توجه به توضیحات بالا در حالت کلی اطلاعات و ورودی‌های خام را داده (Data) و نتایج حاصل از پردازش داده‌های خام را اطلاعات (Information) می‌نامیم.

داده کاوی چیست؟

داده کاوی ترجمه عبارت Data Mining و به معنی کاویدن معادن داده است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده. می‌توانید داده کاوی (Data Mining) را نوعی روش حل مساله در نظر بگیرید که با تحلیل حجم زیادی از داده‌ها، الگوهای تکرار شونده را از آن‌ها استخراج می‌کند. سپس با پیدا کردن ارتباط بین این الگوها، برای چالش‌ها راه حل‌ ارائه می‌دهد. در واقع Data Mining با به دست آوردن نتایج مفید و ارزشمند از اطلاعات بی استفاده و بدون کاربرد، آن‌ها را به اطلاعات قابل استفاده تبدیل می‌کند.

فرایند انجام Data Mining

1) انتخاب داده های مورد نیاز از میان انبوه داده ها

2) پردازش اولیه و پاکسازی داده ها

3) تبدیل داده و کشف الگوها

4) انجام فرآیند داده کاوی

5) ارائه و نمایش اطلاعات

6) رسیدن به دانش مورد نیاز

همانگونه که در نمودار پایین مشاهده می‌کنید، داده‌کاوی به صورت کلی و عمومی در 6 مرحله‌ی اصلی انجام می‌شود، در ابتدا داده‌های مورد نیاز (داده‌های هدف) جمع‌آوری می‌شوند و مورد پردازش و پاکسازی قرار می‌گیرند، یعنی داده‌های اضافه حذف شده و تنها داده‌های مورد نیاز وارد سیستم می‌شوند.
در مرحله‌ی بعدالگوی میان داده‌ها کشف و ارزیابی و سپس الگوریتم و متد‌های Data Mining بر روی داده‌ها انجام خواهد شد.
در نهایت نیز اطلاعات به‌دست آمده از فرایند داده‌کاوی در قالب فرمت‌های قابل درک برای انسان مانند نمودار، تصویر، گزارش و… ارائه شده و دانش مورد نظر که از میان انبوه داده‌های خام استخراج شده‌است در اختیار سازمان قرار خواهد گرفت.

مشکلات اساسی که بر سر راه دیتاماینینگ وجود دارند

به طور کلی اکثر سیستم‌های داده‌کاوی با دو مشکل اساسی دست‌و‌پنجه نرم می‌کنند، این مشکلات عبارتند از:

حجم بالای داده‌های موجود در ورودی
عدم اطمینان کامل به اطلاعات خروجی
برای حل مشکل اول یعنی حجم بالای داده‌ها می‌توان از الگوریتم‌های سریع‌تر، روش‌های کاهش پیچیدگی زمانی، بهینه‌سازی، پردازش موازی و… استفاده کرد، همچنین می‌توانیم با استفاده از روش‌هایی مانند نمونه گیری، گسسته‌سازی، کاهش ابعاد و… حجم داده‌های ورودی را با توجه به نیاز داده‌کاوی کاهش دهیم و یا اینکه در نهایت با استفاده از قابلیت‌های ذخیره و بازیابی اطلاعات موجود در دیتابیس‌ها از روش‌های ارائه‌ی رابطه‌ای استفاده کنیم.

برای حل مشکل دوم یعنی عدم اطمینان کامل به اطلاعات خروجی باید ورودی خود را کنترل کنیم، در صورتی که در داده‌های ورودی اطلاعات کامل نباشند، یعنی در داده‌ها مشخصه‌هایی وجود داشته باشد که مقدار معتبری برای آن‌ها درج نشده است و یا اینکه اطلاعات ناسازگار باشند (داده‌ها با تداخل رو به رو شده باشند) و در نتیجه مقادیر ثبت‌شده با مقادیر واقعی یکسان نباشند، می‌تواند باعث ایجاد عدم اطمینان (عدم قطعیت) در اطلاعات خروجی گردد، که راه برطرف کردن آن بررسی صحت داده‌های ورودی می‌باشد.

برخی از پلتفرم‌های مورد استفاده در فرایند داده‌کاوی

داده‌کاوی معمولا در سازمان‌هایی مانند ادارات بیمه، مراکز آموزشی بزرگ، تولید کنندگان، بانک‌ها و سازمان‌های مالی، خرده فروشی‌ها و… کاربردهای بسیاری دارد، اکثر سازمان‌های از ابزارهای زیر برای انجام فرایند داده‌کاوی استفاده می‌کنند:

زبان برنامه‌نویسی آر (R)
زبان برنامه‌نویسی پایتون
زبان برنامه‌نویسی متلب
نرم‌افزار SPSS
نرم‌افزار Weka
نرم‌افزار RapidMiner

امکان ارسال دیدگاه وجود ندارد!

خانه تماسفروشگاه ارتباط با ما