هوش مصنوعی جدید متا متن را به ویدیو تبدیل می کند

متا هوش مصنوعی جدیدی توسعه داده است که عملکردی شبیه به DALL-E دارد با این تفاوت که ورودی متنی را به ویدئو تبدیل می‌کند.

جی پلاس، اخیراً ابزارهای هوش مصنوعی برای تبدیل متن به عکس، به یکی از جذاب‌ترین موضوعات حوزه‌ی فناوری تبدیل شده‌اند. اکنون محققان درحال حرکت به‌سوی مرزهای بعدی این تکنولوژی هستند؛ استفاده از هوش مصنوعی برای تبدیل متن به ویدئو.

زومیت نوشت؛ تیمی از مهندسان واحد یادگیری ماشینی متا، از مدل هوش مصنوعی جدیدی به‌نام Make-A-Video رونمایی کرده‌اند. همان‌طور که از نام این ابزار پیدا است، به کاربران اجازه می‌دهد با ارائه‌ی توضیح متنی از صحنه‌ی موردنظر خود، ویدئوی کوتاهی مطابق با آن متن ایجاد کنند. درحال‌حاضر ویدئوهای تولیدشده با این مدل، مصنوعی به‌نظر می‌رسند و برخی المان‌های تاری و انیمیشن‌های ضعیف در آن‌ها دیده می‌شود، اما این فناوری پیشرفتی بسیار درخورتوجه در زمینه‌ی تولیدمحتوای مبتنی‌بر هوش مصنوعی محسوب می‌شود.

متا هوش مصنوعی جدید خود را با انتشار یک پست وبلاگی معرفی کرد. این شرکت می‌گوید:

تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانه را به‌جلو پیش خواهد برد. فقط با ارائه‌ی چند کلمه یا یک‌خط متن به Make-A-Video، این ابزار می‌تواند تخیل را زنده کرده و ویدئوهای منحصربه‌فردی را با رنگ‌ها و مناظر مختلف تولید کند.

مارک زاکربرگ، مدیرعامل متا در حساب کاربری فیسبوک خود، ابزار Make-A-Video را پیشرفتی شگفت‌انگیز توصیف کرد و اظهارداشت:

تولید ویدئو بسیار سخت‌تر از ساخت عکس‌ها است، زیرا سیستم در این شرایط علاوه‌بر تولید صحیح هر پیکسل، باید تغییر پیکسل‌ها را در طول زمان پیش‌بینی کند.

کلیپ‌هایی که Make-A-Video تولید می‌کند معمولاً بیشتر از پنج‌ثانیه نیست و صدا ندارند، اما این ابزار از گستره‌ی وسیعی از درخواست‌ها پشتیبانی می‌کند. بهترین روش برای قضاوت درمورد عملکرد مدل هوش مصنوعی جدید متا، تماشای برخی خروجی‌های آن است. ویدئوهایی که در ادامه مشاهده می‌کنید، همگی با Make-A-Video متا تولید شده‌اند. علاوه‌براین، دستور مورداستفاده برای ساخت این ویدئوها زیر آن‌ها شرح داده شده است. بااین‌حال، این ویدئوها ازطرف متا دراختیار ورج قرار داده شده است و فعلاً هیچ‌کس امکان دسترسی مستقیم به ابزار هوش مصنوعی جدید این شرکت را ندارد. این یعنی امکان دارد غول رسانه‌های اجتماعی جهان، بهترین نتیجه‌های به‌دست آمده از هوش مصنوعی جدید خود را ارائه کرده باشد.

اگرچه واضح است که ویدئوهای فوق با رایانه تولید شده‌اند، اما خروجی این نوع مدل‌های هوش مصنوعی در آینده‌ی نزدیک، به‌سرعت بهبود خواهد یافت. درمقام مقایسه، ابزارهای تولید تصویر مبتنی‌بر هوش مصنوعی فقط طی چندسال، از ایجاد تصاویر نامفهوم به مرحله‌ای رسیده‌اند که حالا عکس‌های واقعی و با کیفیتی تولید می‌کنند. اگرچه با توجه به پیچیدگی بسیار زیاد موضوع، احتمال دارد سرعت پیشرفت ایجاد ویدئو با هوش مصنوعی کندتر باشد، اما جایزه‌ی تولید یک‌پارچه‌ی ویدئو باعث انگیزه‌ی بسیاری از مؤسسات و شرکت‌ها خواهد شد تا منابع درخورتوجهی را روی این پروژه سرمایه‌گذاری کنند.

متا در پست وبلاگی خود پس از معرفی Make-A-Video، خاطرنشان می‌کند که ابزارهای تولید ویدئو مبتنی‌بر هوش مصنوعی می‌توانند برای تولیدکنندگان محتوا و هنرمندان بسیار ارزشمند باشند، اما مثل مدل‌های تبدیل متن به عکس، چشم‌اندازهای نگران‌کننده‌ای درمورد ابزار تبدیل متن به ویدئو نیز وجود دارد. خروجی این فناوری می‌تواند برای اطلاعات نادرست، تبلیغات و به‌احتمال زیاد، براساس آنچه در سیستم‌های تصویری مبتنی‌بر هوش مصنوعی و دیپ‌فیک دیده‌ایم، برای تولید هرزه‌نگاری یا آزار و اذیت و ارعاب مورد سواستفاده قرار گیرد.

متا می‌خواهد روی چگونگی ساخت سیستم‌های هوش مصنوعی جدید مثل ابزارهای تبدیل متن به ویدئو تمرکز کند و درحال‌حاضر مقاله‌ای درمورد مدل Make-A-Video منتشر کرده است. این شرکت تصمیم دارد نسخه‌ای از سیستم مذکور را ارائه دهد اما هیچ جزئیاتی درمورد تاریخ یا چگونگی دسترسی به آن به‌اشتراک نگذاشته است.

البته متا تنها شرکتی نیست که روی ابزارهای هوش مصنوعی تولید ویدئو کار می‌کند. اوایل سال جاری گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI) مدل تبدیل متن به ویدئو خود را با نام CogVideo معرفی کرد که اکنون دردسترس عموم قرار دارد. نمونه‌هایی از خروجی ابزار CogVideo در ادامه آورده شده است..

محققان متا در مقاله‌ی معرفی Make-A-Video خاطرنشان می‌کنند که این مدل درحال آموزش روی جفت‌تصاویر، زیرنویس‌ها و همچنین فیلم‌ها است. محتوای آموزشی از دومجموعه داده‌‌ (WebVid-10M و HD-VILA-100M) تهیه شده که جمعاً حاوی میلیون‌ها ویدئو و صدها هزار ساعت فیلم هستند. داده‌های ارائه‌شده برای آموزش این مدل شامل ویدئوهایی است که سایت‌هایی مثل Shutterstock آن‌ها را ایجاد کرده‌اند.

محققان متا خاطرنشان می‌کنند که محدودیت‌های فنی مدل هوش مصنوعی تبدیل متن به ویدئو آن‌ها فراتر از مشکلات کنونی مثل انیمیشن‌های ناهمگون یا ایجاد کلیپ‌های مبهم است. به‌عنوان مثال، روش‌های آموزشی آن‌ها نمی‌تواند اطلاعاتی که یک انسان از تماشای ویدئو استنباط می‌کند را یاد بگیرد. از دیگر مشکلات این مدل می‌توان به محدودیت در تولید ویدئوهای طولانی‌تر از پنج‌ثانیه با صحنه‌ها و رویدادهای متعدد و همچنین وضوح بالاتر اشاره کرد. Make-A-Video درحال‌حاضر ۱۶ فریم ویدئو را با وضوح ۶۴ در ۶۴ پیکسل تولید می‌کند که سپس با استفاده از یک مدل هوش مصنوعی مجزا، ابعاد آن‌ها را به ۷۶۸ در ۷۶۸ پیکسل ارتقا می‌دهد.

تیم متا همچنین اعلام کرده است Make-A-Video مثل سایر مدل‌های هوش مصنوعی که براساس داده‌های جمع‌آوری‌شده از وب آموزش دیده‌اند، سوگیری‌های اجتماعی و احتمالاً اغراق‌آمیز و موارد مضر را آموخته است. این سوگیری‌ها در مدل‌های تبدیل متن به تصویر، اغلب تعصبات اجتماعی را تقویت می‌کنند. بااین‌حال نمی‌توان گفت مدل متا بدون دسترسی آزاد، چه سوگیری‌های را آموخته است.

متا می‌گوید این تحقیقات را به‌همراه نتایج هوش مصنوعی جدید خود، با عموم کاربران به‌اشتراک خواهد گذاشت و این شرکت به استفاده از چارچوب هوش مصنوعی برای اصلاح و تکامل رویکرد خود در این فناوری نوظهور ادامه خواهد داد.