CL & NLP Enthusiasts

Channel
Logo of the Telegram channel CL & NLP Enthusiasts
@computationallinguisticsnlpPromote
227
subscribers
@NLPenthusiast :تماس با ادمین
دیتاست دیوان بزرگترین دیتاست متن باز شامل شبکه‌های اجتماعی

▪️دیتاست‌هایی که در پردازش زبان طبیعی (NLP) یا پردازش متن استفاده می‌شوند، شامل مجموعه‌ای از متون هستند که برای آموزش و ارزیابی مدل‌های یادگیری ماشین به کار می‌روند.

هدف اصلی استفاده از این دیتاست‌ها در پردازش متن، بهبود و توسعه مدل‌هایی است که قادر به درک، تحلیل و پردازش زبان انسانی باشند.

▫️لایف‌وب پس از تجربه موفق توسعه مدل‌های زبانی تهران و شیراز در صدد است تا دیتاست دیوان را به عنوان عامل موثر در بهبود کیفیت این مدل‌ها نسبت به رقبا در جهت اعتلای کیفیت عملکرد در حوزه پردازش زبان فارسی معرفی کند تا نقش اجتماعی خود را در این راستا ایفا سازد.

▪️مهم‌ترین ویژگی دیوان به عنوان گامی نو در پردازش زبان طبیعی فارسی، وجود حجم انبوهی از داده‌های شبکه‌های اجتماعی است که شامل متن‌های تکراری نیست. از نظر اندازه، ۱۰۰ میلیون رکورد داده از بسترهای مختلف جمع‌آوری شده است که در مجموع شامل بیش از ۸ میلیارد توکن است.

▫️در حال حاضر بسترهایی که در این دیتاست پوشش داده می‌شوند به شرح زیر هستند:
اخبار خبرگزاری‌ها
انواع بلاگ‌ها
توییر
اینستاگرام ( پست و کامنت)
تلگرام ( کانال و گروه)
دیجی کالا ( کامنت)
ایتا ( پست )
دیوار

هم‌اکنون افرادی که در حوزه پردازش زبان طبیعی مشغول به فعالیت هستند میتوانند اطلاعات این دیتاست را در صفحات لایف‌وب به آدرس
https://huggingface.co/datasets/lifeweb-ai/Divan و https://github.com/lifeweb-ir/Divan مشاهده کنند.

@ComputationallinguisticsNLP
Media is too big
VIEW IN TELEGRAM
سخنرانی آقای دکتر محمد بحرانی در هفتمین همایش زبانشناسی رایانشی، با عنوان مدل های بزرگ زبانی: ساختار و عملکرد. پارت ۱
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
Media is too big
VIEW IN TELEGRAM
سخنرانی آقای امین رحمانی در هفتمین همایش ملی زبانشناسی رایانشی
#همایش #زبانشناسی_رایانشی
@ComputationallinguisticsNLP
افزونه رسمی ChatGPT به طرز عجیبی خوب و قویه، امتحانش کنید

https://chromewebstore.google.com/detail/chatgpt-search/ejcfepkfckglbgocfkanmcdngdijcgld

به جای شما سرچ می‌کنه و نتایج رو تحلیل می‌کنه مقایسه می‌کنه نتایج مختلف رو ، جدول می‌کشه روی نقشه مرتب می‌کنه و مشاوره میده! کارهای یه هفته تون رو تو یه روز انجام میده

با این افزونه می‌تونید موتور جستجوی پیش‌فرض مرورگرتون رو به ChatGPT تغییر بدید و خیلی بهتر و‌ راحتتر جواب سرچ هاتونو بگیرید :)

برای استفاده ازش کافیه قبل از عبارت جستجوتون "!g" بذارید 🔍

توجه: اگر نذارید مستقیما میره توی سایت chatgpt و جوابتونو میده
@ComputationallinguisiticsNLP
This media is not supported in your browser
VIEW IN TELEGRAM
✍️✍️✍️نحوه اجرای کد پایتون از صفر تا 100

1️⃣ 𝗪𝗿𝗶𝘁𝗶𝗻𝗴 𝘁𝗵𝗲 𝗖𝗼𝗱𝗲:
تایپ کد پایتون در متن ویرایشگر و ذخیره فایل با پسوند '.py'
2️⃣ 𝗣𝘆𝘁𝗵𝗼𝗻 𝗜𝗻𝘁𝗲𝗿𝗽𝗿𝗲𝘁𝗲𝗿:
اجرای برنامه پایتون وارسال آن به دو بخش ذیل:
𝗖𝗼𝗺𝗽𝗶𝗹𝗲𝗿:
این کد بایت در یک فایل '.pyc' ذخیره می شود و به برنامه ما کمک می کند دفعه بعد سریعتر اجرا شود.
𝗣𝘆𝘁𝗵𝗼𝗻 𝗩𝗶𝗿𝘁𝘂𝗮𝗹 𝗠𝗮:
وقتی با خطا مواجه می شود.

3️⃣ 𝗟𝗶𝗯𝗿𝗮𝗿𝘆 𝗠𝗼𝗱𝘂𝗹𝗲𝘀:
اگر برنامه ما از ماژول های کتابخانه ای استاندارد پایتون یا جای دیگر استفاده می کند، این ماژول ها نیز به کد بایت تبدیل می شوند. سپس PVM اجازه می دهد تا از ویژگی های این ماژول ها استفاده کند.

4️⃣ 𝗙𝗿𝗼𝗺 𝗕𝘆𝘁𝗲 𝗖𝗼𝗱𝗲 𝘁𝗼 𝗠𝗮𝗰𝗵𝗶𝗻𝗱𝗲
کد بایت به کد ماشین، که یک سری از 1 و 0 است ، تبدیل می شود. این کد ماشین همان چیزی است که مغز کامپیوتر شما، CPU، مستقیماً می تواند آن را بفهمد.

5️⃣ 𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝘁𝗵𝗲 𝗣𝗿𝗼𝗴𝗿𝗮𝗺:
پس از آماده شدن کد ماشین، کامپیوتر شما از آن برای اجرای برنامه شما استفاده می کند. و شما آن را دارید! برنامه پایتون شما در حال اجراست.
@ComputationallinguisticsNLP
4_5846047709353481568 (1).pdf
1.5 MB
اسلایدهای سخنرانی مقاله «حافظ مدل زبانی پیشرفته فارسی برای تحلیل و پردازش متون علوم انسانی» نویسندگان: امین رحمانی، منصور حیدزاده، امید ابراهیم خانی،امیر مسعود ایروانی، سید محمدرضا سجادی، نیما استخری، و عبدالله مشیری
(با کسب اجازه از آقای مهندس رحمانی)
#همایش #زبانشناسی #رایانشی
@ComputationalLinguisticsNLP
🛑 به اطلاع کلیه علاقمندان شرکت در هفتمين همایش ملی زبان‌شناسی رایانشی می‌رساند به دلیل تداخل برنامه‌ها، زمان برگزاری همایش زبان‌شناسی رایانشی از ۳ آبان به چهارشنبه‌ ۹ آبان موکول شده است. برنامه سخنرانی های هفتمین همایش ملی زبان‌شناسی رایانشی و فایل ثبتنام اطلاع رسانی گردیده است.

زمان: چهارشنبه ۹ آبان ۱۴۰۳
مکان: پژوهشگاه علوم انسانی و مطالعات فرهنگی
نشانی: تهران، بزرگراه کردستان، خیابان ۶۴ غربی (آیینه وند)، سالن حکمت طبقه منفی یک

🛑 امکان شرکت در همایش بصورت مجازی نیز از طریق این لینک میسر گردیده است:
https://webinar.ihcs.ac.ir/rooms/jeg-lxe-6l5-tro/join
🛑 جهت اطلاع از نجوه ثبتنام، کانال انجمن زبانشناسی ایران و در صورت تمایل گروه تعاملی رایانه و زبان را دنبال نمایید:
https://t.center/Comp_Linguistics
https://t.center/lsiinfo
This media is not supported in your browser
VIEW IN TELEGRAM
این هوش مصنوعی بهش توضیحات پروژه رو میدین براتون اونو میسازه، و می‌تونید همونجا رانش کنید :


llamacoder.together.ai


@ComputationallinguisticsNLP
Media is too big
VIEW IN TELEGRAM
ریاضیات هوش مصنوعی، مدرس دکتر بهروز نصیحت کن مدرس دانشگاه خواجه نصیر طوسی🌸🌸
پر از نکات مهم❄️
#ریاضیات #هوش_مصنوعی #آمار
@ComputationallinguisticsNLP
دوره AI Python برای مبتدیان توسط آندرو برای یک مدت محدود
از جمله تسک ها یا وظایفی که در زبانشناسی رایانشی مرسوم است:
۱. ترجمه ماشینی: برگرداندن متن ها از یک زبان به زبان دیگر
۲. تشخیص موجودیت نامدار: تشخیص و طبقه بندی موجودیت ها مانند اسم ها، تواریخ، محل ها، نام سازمان ها در متن
۳. تحلیل احساسات: تشخیص احساسات بیان شده در یک متن
۴. طبقه بندی متن: تعیین کردن طبقه یا برچسب به متنی بر اساس محتوای آن
۵. خلاصه سازی متن: خلاصه کردن متن های طولانی
۶. مدلسازی موضوع: کشف موضوعات انتزاعی در مجموعه ای از مدارک یا داده ها

@ComputationalLinguisticsNLP
@NLPenthusiast
🌟 مبحث مهم دیگر بعد از توکن سازی و لماسازی، مبحث 𝗲𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴‌ ها در پردازش زبان طبیعی (NLP) یا زبانشناسی رایانشی(CL) است. در این پست به زبانی ساده این مبحث مطرح می شود:

از آنجا که ماشین زبان طبیعی رو متوجه نمیشه، پس باید چیکار کنیم؟ 🧐

🌟راه حل:
امبدینگ‌ها بخش مهمی از پردازش زبان طبیعی (NLP) هستند. اون‌ها متن رو به اعداد تبدیل می‌کنند تا بتونیم با مدل‌های هوش مصنوعی، معانی و ارتباط بین کلمات رو بهتر درک کنیم و پردازش کنیم. این اعداد به مدل‌های زبان بزرگ (LLM) مثل BERT و GPT داده می‌شن تا متن جدیدی تولید یا پردازش بشه.

بعد از توکن سازی و لماسازی که در پست های قبلی بهشون اشاره کردم، نوبت به امبدینگ یا بردارسازی کلمات می رسد.👇


🔢 𝗩𝗲𝗰𝘁𝗼𝗿𝗶𝘇𝗮𝘁𝗶𝗼𝗻 & 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀

حالا که توکن‌ها آماده‌ان، باید اون‌ها رو به عدد تبدیل کنیم. روش‌های ساده‌ای مثل "کدگذاری یک‌داغ" (one-hot) وجود داره، ولی این روش‌ها نمی‌تونن ارتباطات پیچیده رو خوب نشون بدن. اما امبدینگ‌ها توکن‌ها رو به یک فضای عددی متراکم و پیوسته نگاشت می‌کنن که می‌تونه هم روابط معنایی و هم نحوی رو درک کنه.

بذار یه مثال بزنم:

در فضای سه‌بعدی (ویژگی‌های بال‌ها، آسمان، موتور):

در واقع "Drone" و "Helicopter" به هم نزدیکن چون هر دو موتور دارن و در آسمان هستن.
- ولی "goose" و "rocket" فاصله بیشتری دارن، چون فقط ویژگی "آسمان" رو مشترک دارن.

تا همین چند سال پیش، مدل‌هایی مثل 𝗪𝗼𝗿𝗱𝟮𝗩𝗲𝗰 و 𝗚𝗹𝗼𝗩𝗲 برای آموزش اولیه امبدینگ‌ها استفاده می‌شدن. اما حالا مدل‌هایی مثل 𝗕𝗘𝗥𝗧 و LLM‌های جدید مثل 𝗔𝗱𝗮 یا 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 رو داریم که خیلی پیشرفته‌تر عمل می‌کنن.

خب الان متوجه اهمیت مبحث Embedding شدین؟ 😊

#هوش_مصنوعی
@ComputationalLinguisticsNLP
@NLPenthusiast
کتابخانه‌ها و ابزارهای مهمی برای پردازش زبان فارسی وجود دارند که می‌توانند در تحلیل متون فارسی بسیار مفید باشند. در ادامه چند نمونه از این ابزارها را معرفی می‌کنم:

1. Hazm:
   یک کتابخانه جامع برای پردازش زبان فارسی که شامل ابزارهایی مانند توکن‌سازی، ریشه‌یابی، استمینگ (تجزیه کلمات به ریشه)، و تبدیل اعداد فارسی به انگلیسی است.

2. ParsBERT:
   مدل پیش‌ساخته BERT برای زبان فارسی که در وظایف مختلف پردازش زبان طبیعی (NLP) مانند طبقه‌بندی متن، تحلیل احساسات و استخراج اطلاعات به کار می‌رود.

3. PersianNLP:
   مجموعه‌ای از ابزارها برای پردازش زبان فارسی که شامل توکن‌سازی، استمینگ، و برچسب‌گذاری بخش‌های مختلف کلام (POS tagging) است.

4. FarsiNLPTools:
   کتابخانه‌ای که ابزارهایی مانند برچسب‌گذاری بخش‌های کلام، تجزیه نحوی و تشخیص موجودیت‌های نام‌دار (NER) برای متون فارسی ارائه می‌دهد.

5. DeepPavlov (برای زبان فارسی):
   این کتابخانه معروف از مدل‌های مبتنی بر یادگیری عمیق استفاده می‌کند و برای زبان فارسی نیز مدل‌های از پیش آموزش‌داده‌شده دارد.

6. Stanza:
   کتابخانه‌ای چندزبانه برای پردازش زبان طبیعی که مدل‌های از پیش آموزش‌داده‌شده برای زبان فارسی را شامل می‌شود و قابلیت‌هایی مانند برچسب‌گذاری بخش‌های کلام، تجزیه نحوی و تحلیل موجودیت‌های نام‌دار را ارائه می‌دهد.

این ابزارها می‌توانند به‌صورت کارآمدی در پروژه‌های مرتبط با پردازش زبان فارسی به کار گرفته شوند.

#هوش_مصنوعی
@ComputationalLinguisticsNLP
👀@NLPenthusaist
⚜️زبان ماشین رو بشناس!
💠دنیای پردازش زبان طبیعی و یادگیری ماشین منتظرته.
🔷جدیدترین اخبار، آموزش‌ها و مقالات رو در کانال ما دنبال کن.
#زبان_شناسی_رایانشی #پردازش_زبان_طبیعی
#یادگیری_ماشینی
#NLP
@ComputationalLinguisticsNLP
Channel name was changed to «CL & NLP Enthusiasts»
Channel photo updated
Channel photo removed
Telegram Center
Telegram Center
Channel