NLP stuff

#dataset
Channel
Education
Technology and Applications
News and Media
Blogs
PersianIranIran
Logo of the Telegram channel NLP stuff
@nlp_stuffPromote
4.05K
subscribers
143
photos
1
video
270
links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی! شکرشکن شوند همه طوطیان هند زین قند پارسی که به بنگاله می‌رود اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید: @AliAkbarBadri @mmsamiei @MmahdiAghajani
دادگان PCoQA: Persian Conversational Question Answering

دادگان (دیتاست) جدیدی به نام PCoQA منتشر شده که شامل ۹۰۲۶ پرسش از ۸۷۰ صفحه ویکی‌پدیاست. هر گفتمان (conversation) روی یک صفحه ویکی‌پدیا انجام شده و طول هر گفتمان هم حدودا ۱۰ است. به منظور ارزیابی انسانی شبیه دادگان‌های گذشته مثل SQuAD و CoQA، برای هر پرسش در مجموعه‌ی ارزیابی و تست چندین پاسخ دراومده و دقت F1 انسان‌ها و چندین مدل بر روی پاسخ‌دهی به این پرسش‌ها بدست اومده که برای انسان حدودا ۸۶ درصده.

دو نوع مدل روی این داده تست شده. یکی با فقط فاین‌تیون کردن چند مدل زبانی ترنسفورمری روی همین دادگان و یک مدل دیگه هم با فاین‌تیون کردن مدل روی دادگان قبلی QA و بعد فاین تیون روی این دادگان و بعد تست گرفتن.

دو خصوصیت مهم این دیتاست:
- پرسش‌های این دادگان بیشتر open ended هستند، بر خلاف قبلی‌ها مثل CoQA و SQuAD که بیشتر به شکلی مصنوعی‌ بر روی named entity و noun phrase متمرکزند.
- سعی شده lexical overlap تا حد امکان کاهش داده بشه تا کیفیت بالاتر بیاد.

لینک مقاله: 
arxiv.org/abs/2312.04362

لینک گیت‌هاب:
github.com/HamedHematian/PCoQA

#dataset

@nlp_stuff
پیکره متنی ناب

پیکره متنی «ناب» دیتای plain فارسیه که حدود ۱۳۰ گیگه و شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه‌ست که به تازگی منتشر شده. دوست‌داران زبان فارسی می‌تونند برای آموزش مدل زبانی ازش استفاده کنند و مدل‌هایی رو آماده کنند که ملت هم ازش استفاده کنند.

پ.ن. با تشکر از آزمایشگاه دکتر صامتی در دانشگاه شریف که پیکره رو به صورت عمومی منتشر کردند. دعای خیر ما بدرقه راه‌شان!

لینک مقاله:
https://arxiv.org/abs/2208.13486

لینک هاگینگ‌فیس:
https://huggingface.co/datasets/SLPL/naab
https://huggingface.co/datasets/SLPL/naab-raw

#dataset

@nlp_stuff
دیتاست MASSIVE آمازون

خلاصه‌ی کلام اینه که تیم الکسای شرکت آمازون یک دیتاست عظیم یک میلیونی چندزبانه برای درک زبانی (بخش intent prediction and slot annotation) بیرون داده که فارسی هم توش هست. این دیتاست مخصوص دو زیرتسک مهم چت‌بات‌های وظیفه‌محور که intent prediction و slot annotation باشند ارائه شده. توضیح مختصر این که وقتی میخواید یک چت‌بات وظیفه محور بزنید یک تسک اینه که اول تشخیص بدید که مقصود کاربر از یک پیام که میده چیه (مثلا میخواد بلیت قطار رزرو کنه، آهنگ خاصی براش پخش بشه، هتل‌ای رزرو کنه و ...) و در گام بعد حالا که مقصود کاربر رو فهمیدیم بیایم آرگومان‌ها یا به اصطلاح slot‌های اون مقصود خاص رو در متن پیام تشخیص بدیم (مثلا اگر مقصود کاربر رزرو بلیت قطار باشه آرگومان‌هاش میشه مبدا و مقصد و تاریخ و ساعت)
این دیتاست به ۵۱ زبان (از جمله فارسی) اومده به صورت موازی یک سری عبارات رو لبیل زده. هر سطرش یک جمله‌ست که مثلا گفته:
What is the temperature in New York?
بعد این رو باید در دسته‌ی weather_query (یعنی intentاش میشه سوال آب‌وهوایی) قرار بگیره و موجودیت‌های مرتبط (این slot است که آرگومان‌های مرتبط با همون intent میشه) باهاش باید باشه:
weather_descriptor: temperature, place_name: new york
حالا متناظر با این در دیتای فارسی مثلا داریم:
دمای نیویورک چنده و موجودیت‌های مرتبط مشخص شدند دما و نیویورک.
واسه هر زبون هم حدودا ۱۷ هزارتاست.
همون جملات رو واسه زبون‌های مختلف گذاشتند که از مدل‌های چندزبانه واسه یادگیری بشه استفاده کرد یعنی از representation جملات فارغ از زبان استفاده بشه. مثال خوبی از این مدل‌ها LASER فیسبوکه.
بعد حالا دیتاست به این عظمت رو منتشر کردند و گفتند بیاید روش مدل ترین کنید و مسابقه برگزار کردند! این دیتاست با این هدف تولید شده که دستیار صوتی آمازون (الکسا) بتونه زبان‌های بیشتری رو بفهمه و کلا همونطور که گفتیم ازش برای چت‌بات‌های وظیفه‌محور میشه استفاد کرد.

بلاگ توضیح دیتاست:
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding

ریپو دیتاست در گیت:
https://github.com/alexa/massive

#dataset

@nlp_stuff
دیتاست OCR ارشاسب

دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متن‌های پیوسته‌ای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شده‌اند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کامل‌تر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.

لینک گیت‌هاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb

لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp

پ.ن. با تشکر از سازنده‌ی این دیتاست که به کانال این پست را ارسال کردند. شما هم می‌تونید با استار دادن در گیت‌هاب از این پروژه حمایت کنید.

#dataset
#irani

@nlp_stuff
خون اول. ParsTwiNER؛ دادگان عمومی توییتر فارسی برای NER از تیم اورفیت

خوشبختانه مقاله ما در ورکشاپ WNUT کنفرانس EMNLP 2021 پذیرفته شد و ارائه شفاهی هم دادیم. این مقاله درباره named entity recognition در فضای فارسی غیررسمیه. در این مقاله یه دادگان خوب هم از توییتر فارسی جمع‌آوری کردیم و تگ زدیم و حالا اون رو به‌صورت عمومی عرضه می‌کنیم تا اندکی از دین خودمون رو به جامعه فنی ادا کرده باشیم.

کیفیت عملکرد مدل ParsBert رو بر روی دادگان‌مون بررسی کردیم که افت شدید داشت و به f-score حدود ۶۹ درصد رسیده بود. پس در این مقاله یه راهکاری هم با استفاده از یادگیری موازی و data anealing ارائه دادیم تا عملکرد مدل رو به f-score حدودا ۸۲ درصدی برسونیم. اگر مدل شما نتایج بهتری روی این دیتاست گرفت، پول ریکوئست بدید که به ریپو اضافه کنیم.

قضیه از این قراره که دیتاست‌های مشهور فارسی در NER مثل پیما و آرمان، همه برروی فارسی رسمی جمع‌آوری شده‌اند. فضای زبان‌های غیررسمی یه محیط نویزیه و به همین دلیل مدل‌هایی که در فضای رسمی آموزش دیدند، اینجا رو خراب می‌کنند. در این مقاله یه انکودر برت رو به اشتراک گذاشتیم و برای دو تسک NER در فضای رسمی و غیررسمی دوتا دسته‌بند جدا بر روی انکودر به‌اشتراک‌گذاشته درنظرگرفتیم. حالا در هر دور یادگیری با احتمال لامدا از دیتاست خودمون به مدل میدیم. در ابتدای یادگیری این نسبت خیلی کوچیکه و بیشتر دادگان از فضای رسمی به مدل داده می‌شه (مثلا دیتاست پیما) اما رفته‌رفته این نسبت بزرگ می‌شه. علت این کار اینه که ساختار زبان غیررسمی درهم‌ریختگی داره و ممکنه مدل رو در ابتدای یادگیری گیج کنه. به خاطر همین باید ساختارهای اولیه رو از دیتای رسمی یاد بگیره و کم‌کم وارد فضای غیررسمی بشه. مدل‌های آموزش‌داده‌شده هم بر روی هاگینگ‌فیس دردسترس هستند.

پ.ن.۱: خداوکیلی هر پستی رو دست‌به‌دست نمی‌کنید این رو بکنید که به‌دست عاشقان و دلدادگان پردازش زبان طبیعی در فارسی برسه!

پ.ن.۲: و لطفا استار به ریپوی گیت‌هاب یادتون نره!

لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/

لینک دادگان در گیت‌هاب:
https://github.com/overfit-ir/parstwiner

لینک مدل‌ها:
https://huggingface.co/overfit/twiner-bert-base-mtl

#dataset
#read
#paper

@nlp_stuff
دادگان NLI مولتی مودال گوگل!

گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://t.me/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق می‌کنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه می‌ده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).

این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمی‌کنند چون جفتشون فقط میگن زمین این شکلی نیست.

این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیه‌ست.

https://github.com/google-research-datasets/recognizing-multimodal-entailment

#link
#dataset

@nlp_stuff
جمع‌آوری دادگان دست‌نوشته‌ی برخط فارسی

همین اولش بگیم که می‌تونید با هر امکاناتی در این جمع‌آوری دادگان مشارکت کنید.

دادگان آفلاین دست‌خط فارسی خیلی تا الان جمع‌آوری شده که کاربر روی کاغذ مینویسه و بعد نوشته‌اش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع می‌کنه، آنلاینه و برای اولین بار داره جمع‌آوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجه‌اش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم می‌تونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دست‌نوشته به نوشتار و تشخیص جعل‌شدگی امضا روی این دیتاست قابل انجامه.

پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمع‌آوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.

لینک سایت:
FarsiHandwriting.ir

#link
#irani
#dataset

@nlp_stuff
مجموعه داده‌ی FarsTail

مجموعه داده‌ی FarsTail، مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را می‌گیرد و در خروجی می‌گوید با توجه به جمله‌ی اول، جمله‌ی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمع‌آوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه داده‌ی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاست‌های معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچک‌تره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهم‌تر اینکه رایگان منتشرش کردند.

لینک مقاله:
https://arxiv.org/abs/2009.08820

لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail

پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.

#link
#irani
#dataset

@nlp_stuff
دادگان PersianQA

جمع‌آوری دادگان برای ایجاد محک بین مدل‌ها یکی از کارهای اساسی و بنایی برای هر مسأله هوشی محسوب میشه. آقای ایوبی و رفقاشون هم اومدن یک دیتاست پرسش و پاسخ فارسی به سبک squad رو با سایز ده هزار جفت پرسش و پاسخ جمع آوری کرده‌اند و به صورت رایگان (تو کشور ما اینش نکته مهمیه!!) در اختیار عموم قرار داده‌اند. با این که شاید حجمش نسبتا کم باشه و یا توش هم ترکیبی از نوشتار رسمی و هم محاوره‌ای باشه ولی در وضعیت فعلی و با توجه به سختی جمع کردن دیتاست، واقعا می‌تونه به عنوان یک محک و چالش مورد استفاده قرار بگیره.
برای اطلاعات بیشتر میتونین به لینک زیر سر بزنید و با استار بهشون انرژی بدید که این دیتاستشون رو روز به روز خفن‌تر کنند.

https://github.com/sajjjadayobi/PersianQA

با تشکر از آقای ایوبی بابت معرفی این دیتاست

#irani
#dataset

@nlp_stuff
دیتاست NLU فارسی

این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچ‌مارک در این زمینه داشته باشیم و مدل‌ها را مقایسه کنیم. سایز بعضی از قسمت‌هاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:

Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis

بعضی از ایده‌ها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیت‌شون در ادامه آوردیم. استار بدید حتما:

https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf

پ.ن. اگر می‌خواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.

#irani
#read
#paper
#dataset

@nlp_stuff
دیتاست ویکی‌پدیا فارسی شامل تمامی مقالات فارسی تا تاریخ ۱۲ مرداد ۱۳۹۹.
مخصوصا برای آموزش مدل زبانی خیلی به درد می‌خوره.

استار بدید لذتشو ببره.


https://github.com/miladfa7/Persian-Wikipedia-Dataset


#link
#irani
#dataset

@nlp_stuff