دیتاست MASSIVE آمازونخلاصهی کلام اینه که تیم الکسای شرکت آمازون یک دیتاست عظیم یک میلیونی چندزبانه برای درک زبانی (بخش intent prediction and slot annotation) بیرون داده که فارسی هم توش هست. این دیتاست مخصوص دو زیرتسک مهم چتباتهای وظیفهمحور که intent prediction و slot annotation باشند ارائه شده. توضیح مختصر این که وقتی میخواید یک چتبات وظیفه محور بزنید یک تسک اینه که اول تشخیص بدید که مقصود کاربر از یک پیام که میده چیه (مثلا میخواد بلیت قطار رزرو کنه، آهنگ خاصی براش پخش بشه، هتلای رزرو کنه و ...) و در گام بعد حالا که مقصود کاربر رو فهمیدیم بیایم آرگومانها یا به اصطلاح slotهای اون مقصود خاص رو در متن پیام تشخیص بدیم (مثلا اگر مقصود کاربر رزرو بلیت قطار باشه آرگومانهاش میشه مبدا و مقصد و تاریخ و ساعت)
این دیتاست به ۵۱ زبان (از جمله فارسی) اومده به صورت موازی یک سری عبارات رو لبیل زده. هر سطرش یک جملهست که مثلا گفته:
What is the temperature in New York?
بعد این رو باید در دستهی weather_query (یعنی intentاش میشه سوال آبوهوایی) قرار بگیره و موجودیتهای مرتبط (این slot است که آرگومانهای مرتبط با همون intent میشه) باهاش باید باشه:
weather_descriptor: temperature, place_name: new york
حالا متناظر با این در دیتای فارسی مثلا داریم:
دمای نیویورک چنده و موجودیتهای مرتبط مشخص شدند دما و نیویورک.
واسه هر زبون هم حدودا ۱۷ هزارتاست.
همون جملات رو واسه زبونهای مختلف گذاشتند که از مدلهای چندزبانه واسه یادگیری بشه استفاده کرد یعنی از representation جملات فارغ از زبان استفاده بشه. مثال خوبی از این مدلها LASER فیسبوکه.
بعد حالا دیتاست به این عظمت رو منتشر کردند و گفتند بیاید روش مدل ترین کنید و مسابقه برگزار کردند! این دیتاست با این هدف تولید شده که دستیار صوتی آمازون (الکسا) بتونه زبانهای بیشتری رو بفهمه و کلا همونطور که گفتیم ازش برای چتباتهای وظیفهمحور میشه استفاد کرد.
بلاگ توضیح دیتاست:
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understandingریپو دیتاست در گیت:
https://github.com/alexa/massive#dataset@nlp_stuff