داده های بزرگ ترکیبی از داده های ساختاری ، نیمه ساختار یافته و بدون ساختار است که توسط سازمان هایی جمع آوری شده است که می توانند اطلاعات استخراج کنند و در پروژه های یادگیری ماشینی ، مدلسازی پیش بینی و سایر برنامه های کاربردی پیشرفته تحلیلی مورد استفاده قرار دهند.
داده های بزرگ از تجزیه و تحلیل ریاضی، بهینه سازی، آمار استقرایی و مفاهیم شناسایی سیستم غیر خطی، قوانین استنباطی (رگرسیون ، روابط غیر خطی و تأثیرات علی) از مجموعه های بزرگی از داده ها با تراکم اطلاعات پایین برای آشکار کردن روابط و وابستگی ها یا انجام پیش بینی نتایج استفاده می کنند.