متا هوش مصنوعی جدیدی توسعه داده است که عملکردی شبیه به DALL-E دارد با این تفاوت که ورودی متنی را به ویدئو تبدیل میکند.
جی پلاس، اخیراً ابزارهای هوش مصنوعی برای تبدیل متن به عکس، به یکی از جذابترین موضوعات حوزهی فناوری تبدیل شدهاند. اکنون محققان درحال حرکت بهسوی مرزهای بعدی این تکنولوژی هستند؛ استفاده از هوش مصنوعی برای تبدیل متن به ویدئو.
زومیت نوشت؛ تیمی از مهندسان واحد یادگیری ماشینی متا، از مدل هوش مصنوعی جدیدی بهنام Make-A-Video رونمایی کردهاند. همانطور که از نام این ابزار پیدا است، به کاربران اجازه میدهد با ارائهی توضیح متنی از صحنهی موردنظر خود، ویدئوی کوتاهی مطابق با آن متن ایجاد کنند. درحالحاضر ویدئوهای تولیدشده با این مدل، مصنوعی بهنظر میرسند و برخی المانهای تاری و انیمیشنهای ضعیف در آنها دیده میشود، اما این فناوری پیشرفتی بسیار درخورتوجه در زمینهی تولیدمحتوای مبتنیبر هوش مصنوعی محسوب میشود.
متا هوش مصنوعی جدید خود را با انتشار یک پست وبلاگی معرفی کرد. این شرکت میگوید:
تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانه را بهجلو پیش خواهد برد. فقط با ارائهی چند کلمه یا یکخط متن به Make-A-Video، این ابزار میتواند تخیل را زنده کرده و ویدئوهای منحصربهفردی را با رنگها و مناظر مختلف تولید کند.
مارک زاکربرگ، مدیرعامل متا در حساب کاربری فیسبوک خود، ابزار Make-A-Video را پیشرفتی شگفتانگیز توصیف کرد و اظهارداشت:
تولید ویدئو بسیار سختتر از ساخت عکسها است، زیرا سیستم در این شرایط علاوهبر تولید صحیح هر پیکسل، باید تغییر پیکسلها را در طول زمان پیشبینی کند.
کلیپهایی که Make-A-Video تولید میکند معمولاً بیشتر از پنجثانیه نیست و صدا ندارند، اما این ابزار از گسترهی وسیعی از درخواستها پشتیبانی میکند. بهترین روش برای قضاوت درمورد عملکرد مدل هوش مصنوعی جدید متا، تماشای برخی خروجیهای آن است. ویدئوهایی که در ادامه مشاهده میکنید، همگی با Make-A-Video متا تولید شدهاند. علاوهبراین، دستور مورداستفاده برای ساخت این ویدئوها زیر آنها شرح داده شده است. بااینحال، این ویدئوها ازطرف متا دراختیار ورج قرار داده شده است و فعلاً هیچکس امکان دسترسی مستقیم به ابزار هوش مصنوعی جدید این شرکت را ندارد. این یعنی امکان دارد غول رسانههای اجتماعی جهان، بهترین نتیجههای بهدست آمده از هوش مصنوعی جدید خود را ارائه کرده باشد.
اگرچه واضح است که ویدئوهای فوق با رایانه تولید شدهاند، اما خروجی این نوع مدلهای هوش مصنوعی در آیندهی نزدیک، بهسرعت بهبود خواهد یافت. درمقام مقایسه، ابزارهای تولید تصویر مبتنیبر هوش مصنوعی فقط طی چندسال، از ایجاد تصاویر نامفهوم به مرحلهای رسیدهاند که حالا عکسهای واقعی و با کیفیتی تولید میکنند. اگرچه با توجه به پیچیدگی بسیار زیاد موضوع، احتمال دارد سرعت پیشرفت ایجاد ویدئو با هوش مصنوعی کندتر باشد، اما جایزهی تولید یکپارچهی ویدئو باعث انگیزهی بسیاری از مؤسسات و شرکتها خواهد شد تا منابع درخورتوجهی را روی این پروژه سرمایهگذاری کنند.
متا در پست وبلاگی خود پس از معرفی Make-A-Video، خاطرنشان میکند که ابزارهای تولید ویدئو مبتنیبر هوش مصنوعی میتوانند برای تولیدکنندگان محتوا و هنرمندان بسیار ارزشمند باشند، اما مثل مدلهای تبدیل متن به عکس، چشماندازهای نگرانکنندهای درمورد ابزار تبدیل متن به ویدئو نیز وجود دارد. خروجی این فناوری میتواند برای اطلاعات نادرست، تبلیغات و بهاحتمال زیاد، براساس آنچه در سیستمهای تصویری مبتنیبر هوش مصنوعی و دیپفیک دیدهایم، برای تولید هرزهنگاری یا آزار و اذیت و ارعاب مورد سواستفاده قرار گیرد.
متا میخواهد روی چگونگی ساخت سیستمهای هوش مصنوعی جدید مثل ابزارهای تبدیل متن به ویدئو تمرکز کند و درحالحاضر مقالهای درمورد مدل Make-A-Video منتشر کرده است. این شرکت تصمیم دارد نسخهای از سیستم مذکور را ارائه دهد اما هیچ جزئیاتی درمورد تاریخ یا چگونگی دسترسی به آن بهاشتراک نگذاشته است.
البته متا تنها شرکتی نیست که روی ابزارهای هوش مصنوعی تولید ویدئو کار میکند. اوایل سال جاری گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI) مدل تبدیل متن به ویدئو خود را با نام CogVideo معرفی کرد که اکنون دردسترس عموم قرار دارد. نمونههایی از خروجی ابزار CogVideo در ادامه آورده شده است..
محققان متا در مقالهی معرفی Make-A-Video خاطرنشان میکنند که این مدل درحال آموزش روی جفتتصاویر، زیرنویسها و همچنین فیلمها است. محتوای آموزشی از دومجموعه داده (WebVid-10M و HD-VILA-100M) تهیه شده که جمعاً حاوی میلیونها ویدئو و صدها هزار ساعت فیلم هستند. دادههای ارائهشده برای آموزش این مدل شامل ویدئوهایی است که سایتهایی مثل Shutterstock آنها را ایجاد کردهاند.
محققان متا خاطرنشان میکنند که محدودیتهای فنی مدل هوش مصنوعی تبدیل متن به ویدئو آنها فراتر از مشکلات کنونی مثل انیمیشنهای ناهمگون یا ایجاد کلیپهای مبهم است. بهعنوان مثال، روشهای آموزشی آنها نمیتواند اطلاعاتی که یک انسان از تماشای ویدئو استنباط میکند را یاد بگیرد. از دیگر مشکلات این مدل میتوان به محدودیت در تولید ویدئوهای طولانیتر از پنجثانیه با صحنهها و رویدادهای متعدد و همچنین وضوح بالاتر اشاره کرد. Make-A-Video درحالحاضر ۱۶ فریم ویدئو را با وضوح ۶۴ در ۶۴ پیکسل تولید میکند که سپس با استفاده از یک مدل هوش مصنوعی مجزا، ابعاد آنها را به ۷۶۸ در ۷۶۸ پیکسل ارتقا میدهد.
تیم متا همچنین اعلام کرده است Make-A-Video مثل سایر مدلهای هوش مصنوعی که براساس دادههای جمعآوریشده از وب آموزش دیدهاند، سوگیریهای اجتماعی و احتمالاً اغراقآمیز و موارد مضر را آموخته است. این سوگیریها در مدلهای تبدیل متن به تصویر، اغلب تعصبات اجتماعی را تقویت میکنند. بااینحال نمیتوان گفت مدل متا بدون دسترسی آزاد، چه سوگیریهای را آموخته است.
متا میگوید این تحقیقات را بههمراه نتایج هوش مصنوعی جدید خود، با عموم کاربران بهاشتراک خواهد گذاشت و این شرکت به استفاده از چارچوب هوش مصنوعی برای اصلاح و تکامل رویکرد خود در این فناوری نوظهور ادامه خواهد داد.