ChatGPT‌ زود پیر شد!

پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی با مقایسه عملکرد مدل‌های زبانی بزرگ GPT-۳.۵ و GPT-۴ توسعه یافته توسط شرکت OpenAI ادعا می‌کنند که عملکرد و دقت ربات گفتگوگر ChatGPT در طول زمان کاهش یافته است.

جی پلاس، به نقل از استنفورد، به نظر می‌رسد که مرحله ماه عسل برای مدل‌های زبانی بزرگ(LLM) که با عجله برای نفوذ به فضای هوش مصنوعی مولد معرفی شدند، به پایان رسیده است، چرا که بر اساس مطالعه‌ای که توسط پژوهشگران دانشگاه استنفورد و کالیفرنیا برکلی انجام شده، عملکرد مدل‌های زبانی بزرگ شرکت OpenAI در طول زمان به طور قابل توجهی کاهش یافته است.

پژوهشگران با توجه به این که این مدل‌ها می‌توانند بر اساس داده‌ها، بازخورد کاربران و تغییراتِ طراحی، به‌روز شوند، می‌خواستند ببینند که آیا این مدل‌های زبانی بزرگ در حال بهبود هستند یا نه؟

این تیم رفتار نسخه‌های عرضه شده در ماه مارس ۲۰۲۳ و ماه ژوئن ۲۰۲۳ از مدل‌های GPT-۳.۵ و GPT-۴ را در چهار وظیفه ارزیابی کردند. اولی حل مسائل ریاضی، دومی پاسخ دادن به سوالات حساس یا خطرناک، سومی تولید کد و چهارمی ارزیابی مدل‌ها در استدلال بصری بود.

قابلیت‌های متنوع مدل‌های زبانی بزرگ

گزارش شرکت OpenAI هنگام معرفی GPT-۴ در ماه مه امسال ادعا کرد که GPT-۴ بسیار قابل اعتمادتر و خلاقانه‌تر است و ‌می‌تواند دستورالعمل‌های ظریف‌تری را نسبت به GPT-۳.۵ انجام دهد.

همچنین اخیراً نشان داده شد که GPT-۴ امتحانات دشواری را در حوزه‌های حرفه‌ای مانند پزشکی و حقوق با موفقیت پشت سر می‌گذارد.

با این حال، پژوهشگران دریافتند که عملکرد و رفتار GPT-۳.۵ و GPT-۴ در نسخه‌های مربوطه به ماه‌های مارس و ژوئن متفاوت است.

مدل GPT-۴ در نسخه مارس ۲۰۲۳، می‌توانست اعداد اول را با دقت ۹۷.۶ شناسایی کند، اما این تیم دریافت که در نسخه ژوئن ۲۰۲۳ در همان سؤالات با دقت غیر منتظره ۲.۴ درصد عملکرد بسیار ضعیفی داشت. همچنین نسخه ژوئن ۲۰۲۳ مدل GPT-۳.۵ در همان وظیفه بسیار بهتر از نسخه مارس ۲۰۲۳ بود.

این تیم همچنین دریافت که نسخه ماه ژوئن GPT-۴ نسبت به ماه مارس تمایل کمتری به پاسخگویی به سوالات حساس داشت و هر دو مدل GPT-۴ و GPT-۳.۵ در تولید کد در ژوئن نسبت به ماه مارس اشتباهات بیشتری داشتند.

افزایش نگرانی در مورد تمایل مدل‌های زبانی بزرگ به هذیان‌گویی

پژوهشگران می‌گویند خبر خوب این است که به‌روزرسانی GPT-۴ نسبت به حملات جیلبریک(Jailbreak) قوی‌تر از GPT-۳.۵ بود.

جیلبریک نوعی دستکاری است که در آن یک درخواست برای پنهان کردن یک سوال مخرب و فراتر رفتن از مرزهای حفاظتی ساخته می‌شود و اعلان مدل زبانی بزرگ را برای ایجاد پاسخ‌هایی دستکاری می‌کند که می‌تواند به ایجاد بدافزار کمک کند.

در حالی که جهان با ChatGPT مسحور شده است، این مطالعه یادآوری قدرتمندی است که توسعه دهندگان باید به طور مداوم رفتار مدل‌های زبانی بزرگ را در برنامه‌های تولیدی‌شان ارزیابی و نظارت کنند.

پژوهشگران می‌گویند: ما قصد داریم یافته‌های ارائه‌ شده در اینجا را در یک مطالعه طولانی‌مدت با ارزیابی منظم GPT-۳.۵، GPT-۴ و سایر مدل‌های زبانی بزرگ در وظایف مختلف در طول زمان به‌روزرسانی کنیم.

آنها افزودند: به کاربران یا شرکت‌هایی که به خدمات مدل‌های زبانی بزرگ در جریان کار مداوم خود متکی هستند، توصیه می‌کنیم که تحلیل نظارتی مشابهی را که ما در اینجا روی آنها انجام می‌دهیم، پیاده‌سازی کنند.

در مقابل، مطالعه دیگری توسط گروهی از پژوهشگران شرکت مایکروسافت که میلیاردها دلار در OpenAI سرمایه‌گذاری کرده انجام شده است و جالب اینجاست که نتایج آن مطالعه نشان می‌دهد که GPT-۴ گامی مهم به سوی هوش مصنوعی عمومی(AGI) است که بسیاری در صنعت هوش مصنوعی می‌گویند که ادعایی خطرناک است.