تفاوت داده (Data) و اطلاعات (Information) چیست؟
قبل از اینکه با مفهموم Data Mining آشنا شویم بهتر است ابتدا تعریف داده (Data) و اطلاعات (Information) را بشناسیم و پس از آن به سراغ دادهکاوی و کاربردهای آن برویم.
داده (Data) که بعضا از آن با عنوان داده ای خام نیز یاد میشود، گونهای از اطلاعات به صورت خام و دست نخورده است که میتواند بسیار درهم و حتی به صورت عادی غیر قابل استفاده باشد، مجموعهای از اعداد و ارقام درهم و شاید بدون معنای خاص میتوانند به عنوان داده در نظر گرفته شوند، اما نتایج حاصل از پردازش و تجزیه و تحلیل این دادهها به عنوان اطلاعات تلقی میشوند، حتما متوجه شدهاید که اطلاعات نیز میتوانند مجددا به عنوان داده ای ورودی سیستم مورد استفاده قرار گیرند.
بنابراین با توجه به توضیحات بالا در حالت کلی اطلاعات و ورودیهای خام را داده (Data) و نتایج حاصل از پردازش دادههای خام را اطلاعات (Information) مینامیم.
داده کاوی چیست؟
داده کاوی ترجمه عبارت Data Mining و به معنی کاویدن معادن داده است. داده کاوی یعنی استخراج اطلاعات گرانبها از حجم عظیم معادن داده. میتوانید داده کاوی (Data Mining) را نوعی روش حل مساله در نظر بگیرید که با تحلیل حجم زیادی از دادهها، الگوهای تکرار شونده را از آنها استخراج میکند. سپس با پیدا کردن ارتباط بین این الگوها، برای چالشها راه حل ارائه میدهد. در واقع Data Mining با به دست آوردن نتایج مفید و ارزشمند از اطلاعات بی استفاده و بدون کاربرد، آنها را به اطلاعات قابل استفاده تبدیل میکند.

فرایند انجام Data Mining
1) انتخاب داده های مورد نیاز از میان انبوه داده ها
2) پردازش اولیه و پاکسازی داده ها
3) تبدیل داده و کشف الگوها
4) انجام فرآیند داده کاوی
5) ارائه و نمایش اطلاعات
6) رسیدن به دانش مورد نیاز
همانگونه که در نمودار پایین مشاهده میکنید، دادهکاوی به صورت کلی و عمومی در 6 مرحلهی اصلی انجام میشود، در ابتدا دادههای مورد نیاز (دادههای هدف) جمعآوری میشوند و مورد پردازش و پاکسازی قرار میگیرند، یعنی دادههای اضافه حذف شده و تنها دادههای مورد نیاز وارد سیستم میشوند.
در مرحلهی بعدالگوی میان دادهها کشف و ارزیابی و سپس الگوریتم و متدهای Data Mining بر روی دادهها انجام خواهد شد.
در نهایت نیز اطلاعات بهدست آمده از فرایند دادهکاوی در قالب فرمتهای قابل درک برای انسان مانند نمودار، تصویر، گزارش و… ارائه شده و دانش مورد نظر که از میان انبوه دادههای خام استخراج شدهاست در اختیار سازمان قرار خواهد گرفت.

مشکلات اساسی که بر سر راه دیتاماینینگ وجود دارند
به طور کلی اکثر سیستمهای دادهکاوی با دو مشکل اساسی دستوپنجه نرم میکنند، این مشکلات عبارتند از:
حجم بالای دادههای موجود در ورودی
عدم اطمینان کامل به اطلاعات خروجی
برای حل مشکل اول یعنی حجم بالای دادهها میتوان از الگوریتمهای سریعتر، روشهای کاهش پیچیدگی زمانی، بهینهسازی، پردازش موازی و… استفاده کرد، همچنین میتوانیم با استفاده از روشهایی مانند نمونه گیری، گسستهسازی، کاهش ابعاد و… حجم دادههای ورودی را با توجه به نیاز دادهکاوی کاهش دهیم و یا اینکه در نهایت با استفاده از قابلیتهای ذخیره و بازیابی اطلاعات موجود در دیتابیسها از روشهای ارائهی رابطهای استفاده کنیم.
برای حل مشکل دوم یعنی عدم اطمینان کامل به اطلاعات خروجی باید ورودی خود را کنترل کنیم، در صورتی که در دادههای ورودی اطلاعات کامل نباشند، یعنی در دادهها مشخصههایی وجود داشته باشد که مقدار معتبری برای آنها درج نشده است و یا اینکه اطلاعات ناسازگار باشند (دادهها با تداخل رو به رو شده باشند) و در نتیجه مقادیر ثبتشده با مقادیر واقعی یکسان نباشند، میتواند باعث ایجاد عدم اطمینان (عدم قطعیت) در اطلاعات خروجی گردد، که راه برطرف کردن آن بررسی صحت دادههای ورودی میباشد.
برخی از پلتفرمهای مورد استفاده در فرایند دادهکاوی
دادهکاوی معمولا در سازمانهایی مانند ادارات بیمه، مراکز آموزشی بزرگ، تولید کنندگان، بانکها و سازمانهای مالی، خرده فروشیها و… کاربردهای بسیاری دارد، اکثر سازمانهای از ابزارهای زیر برای انجام فرایند دادهکاوی استفاده میکنند:
زبان برنامهنویسی آر (R)
زبان برنامهنویسی پایتون
زبان برنامهنویسی متلب
نرمافزار SPSS
نرمافزار Weka
نرمافزار RapidMiner