🌟 مبحث مهم دیگر بعد از توکن سازی و لماسازی، مبحث 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴 ها در پردازش زبان طبیعی (NLP) یا زبانشناسی رایانشی(CL) است. در این پست به زبانی ساده این مبحث مطرح می شود:
از آنجا که ماشین زبان طبیعی رو متوجه نمیشه، پس باید چیکار کنیم؟
🧐🌟راه حل:
امبدینگها بخش مهمی از پردازش زبان طبیعی (NLP) هستند. اونها متن رو به اعداد تبدیل میکنند تا بتونیم با مدلهای هوش مصنوعی، معانی و ارتباط بین کلمات رو بهتر درک کنیم و پردازش کنیم. این اعداد به مدلهای زبان بزرگ (LLM) مثل BERT و GPT داده میشن تا متن جدیدی تولید یا پردازش بشه.
بعد از توکن سازی و لماسازی که در پست های قبلی بهشون اشاره کردم، نوبت به امبدینگ یا بردارسازی کلمات می رسد.
👇🔢 𝗩𝗲𝗰𝘁𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 & 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀
حالا که توکنها آمادهان، باید اونها رو به عدد تبدیل کنیم. روشهای سادهای مثل "کدگذاری یکداغ" (one-hot) وجود داره، ولی این روشها نمیتونن ارتباطات پیچیده رو خوب نشون بدن. اما امبدینگها توکنها رو به یک فضای عددی متراکم و پیوسته نگاشت میکنن که میتونه هم روابط معنایی و هم نحوی رو درک کنه.
بذار یه مثال بزنم:
در فضای سهبعدی (ویژگیهای بالها، آسمان، موتور):
در واقع "Drone" و "Helicopter" به هم نزدیکن چون هر دو موتور دارن و در آسمان هستن.
- ولی "goose" و "rocket" فاصله بیشتری دارن، چون فقط ویژگی "آسمان" رو مشترک دارن.
تا همین چند سال پیش، مدلهایی مثل 𝗪𝗼𝗿𝗱𝟮𝗩𝗲𝗰 و 𝗚𝗹𝗼𝗩𝗲 برای آموزش اولیه امبدینگها استفاده میشدن. اما حالا مدلهایی مثل 𝗕𝗘𝗥𝗧 و LLMهای جدید مثل 𝗔𝗱𝗮 یا 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 رو داریم که خیلی پیشرفتهتر عمل میکنن.
خب الان متوجه اهمیت مبحث Embedding شدین؟
😊#هوش_مصنوعی@ComputationalLinguisticsNLP@NLPenthusiast