📣 کلانپیکره متنباز زبان فارسی ترگمان ۴۰ میلیارد توکنی شد!
پیکرههای متنی به عنوان یکی از نیازهای اصلی توسعه مدلهای زبانی بزرگ (LLM)ها شناخته میشوند. شرکت ترگمان به عنوان یکی از شرکتهای دانشبنیان فعال در حوزه هوش مصنوعی و توسعه مدلهای زبانی بزرگ از مهرماه ۱۴۰۲ پروژهای را برای ایجاد کلانپیکره زبان فارسی آغاز نمود که نسخه اول آن با حجم حدود ۳۱ میلیارد توکن در اسفندماه ۱۴۰۲ منتشر شد.
اکنون پس از گذشت کمتر از ۳ ماه با افزایش چشمگیر تعداد سایتهای خزش شده به ۶۵۰ سایت و بهروزرسانی سایتهای خزششده قبلی حجم کلان پیکره فارسی ترگمان به ۴۰ میلیارد توکن افزایش یافته است.
شایان ذکر است کلان پیکره فارسی ترگمان به صورت آزاد و با حق بهرهبرداری CC-BY-NC-SA در اختیار عموم قرار گرفته است. همچنین با تفاهم میان شرکت ترگمان و ستاد توسعه فناوریهای هوش مصنوعی و رباتیک معاونت علمی، فناوری و اقتصاد دانشبنیان ریاست جمهوری حق بهرهبرداری تجاری از این پیکره در اختیار کلیه شرکتهای دانشبنیان ایرانی قرار دارد. بر این مبنا تاکنون نزدیک به ۲۰۰ فرد و شرکت ایرانی و خارجی مجوز بهرهبرداری از این پیکره را دریافت داشتهاند.
اطلاعات بیشتر در خصوص این پیکره در آدرس زیر در دسترس علاقمندان است.
https://oss.targoman.ir/TLPC/