🔺 یادگیری آماری 🔹 اصل و اساس علم داده، یادگیری براساس دادههای موجود است که از طریق
علم یادگیری آماری صورت میگیرد. ویکی پدیا نظریه یادگیری آماری را چارچوبی برای یادگیری ماشین میداند که بر مبنای آمار و تحلیل تابعی بنا شده است. طبق این تعریف،
یادگیری ماشین عبارتست از علم استفاده از تکنیکهای یادگیری آماری که توسط نرمافزارها و کتابخانههای گوناگون پیاده سازی شده است.
بنابراین در قدم اول در یادگیری ماشین، درک و آشنایی با مفاهیم یادگیری آماری است که در این نوشتار به مفاهیم مقدماتی آن خواهیم پرداخت.
یادگیری ماشین اشاره له ابزار و تکنیکهایی دارد که ما را قادر به درک بهتر دادهها میکند. اما درک بهتر دادهها به چه معناست؟ این موضوع هم نیاز به توضیح دارد. با موضوع نوع دادهها، بحث را شروع میکنیم. در حوزه یادگیری آماری، ما دو نوع داده داریم:
● دادههایی که میتواند مستقیما کنترل شود و مقدار آنها به متغیر دیگری وابسته نیست -
دادههای مستقل● دادههایی که تحت کنترل مستقیم ما نیستند و مقدار آنها وابسته به مقدار سایر دادههاست -
دادههای وابستهدادههایی که تحت کنترل ما نیستند و مقادیر آنها توسط سایر دادهها تعیین میشود نیاز به
پیشبینی و
تخمین دارند. کاری که یادگیری آماری برای انجام آن به کمک ما میآید.
درک بهتر دادهها، در حقیقت شناخت دادههای وابسته براساس دادههای مستقل است.
بهتر است مثالی بزنیم. فرض کنید که میخواهیم میزان فروش را براساس بودجهای که برای تبلیغات در نظر گرفتهایم، تخمین بزنیم. بودجه تبلیغات در اختیار ما است اما چیزی که نمیتوانیم کنترل کنیم تاثیر آن بر میزان فروش خواهد بود. بنابراین به دنبال راهی برای توصیف دادههایی هستیم که دست ما نیست (فروش) براساس تابعی از آنچه که در اختیار ما است (بودجه تبلیغات). در حقیقت به دنبال کشف رابطه پنهان بین این دو متغیر هستیم.
یادگیری آماری، روابط پنهان را آشکار میکند: روابط بین متغیرها و دادههای مستقل و وابسته 💎 @datascienceexpert