🔔 اعلام برنامه جلسهی سیزدهم ژورنالکلاب مدلهای زبانی بزرگ
📚 موضوع: تقویت استدلال در مدلهای زبانی بزرگ با استفاده از یادگیری تقویتی با برنامهریزی معکوس👤ارائهدهنده: معین سلیمی🗓 زمان: یکشنبه ۱۴۰۳/۱۱/۰۷، ساعت ۲۰:۰۰ تا ۲۱:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari🔍 در این جلسه، روشی برای تقویت توانایی استدلال در مدلهای زبانی بزرگ معرفی میشود. با استفاده از یادگیری تقویتی و برنامهریزی معکوس، مدلها از نقاط سادهتر آموزش را آغاز کرده و به تدریج در انجام وظایف پیچیدهتر بهبود مییابند. این روش عملکرد مدلها را در حل مسائل چندمرحلهای به شکل قابلتوجهی بهبود میدهد.
منابع:
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learningکانال یوتیوب ژورنالکلابافزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.