👨🏼💻معمولا منابع اطلاعاتی و دادههایی که در اختیار یک متخصص
#علوم_داده (
Data Scientist) قرار میگیرد، متفاوت هستند.
🔹برای مثال، مقداری از اطلاعات از شبکههای اجتماعی، بخشی از خروجی سیستم فروش، قسمتی از اطلاعات از سیستم ارتباط با مشتری و برخی از باشگاه مشتریان استخراج میشود.
▪️تمیز کردن دادهها، حذف دادههای بیفایده، تغییر فرمت دادهها، یکپارچه کردن دادهها و خلاصه همهی آمادهسازیهای اولیه، یک مهارت محسوب میشود.
🔸۵ راه برای پاکسازی دادههای نامرتب عبارتند از:
▪️شناسایی و حذف دادههای تکراری
▪️استاندارد سازی اعداد
▪️استاندارد سازی زمانها و تاریخها
▪️استاندارد سازی نحوه نگارش کلماتی که چندین نوع نوشتاری دارند
▪️سراسری کردن استاندارد موارد حساس و تعیین کننده مانند نحوه ورود هزینهها
🔹هدف از پاکسازی دادهها استخراج اطلاعات دقیق میباشد چرا که دادههای نادرست یا ناسازگار میتواند بسیار پر هزینه تمام شده و منجر به نتیجهگیری غلط و شکست سرمایهگذاری شوند.
#Data_Fusion#Data_Munging#آموزشی @LifewebIR