محققان اپل روش جدیدی برای آموزش مدلهای زبانی بزرگ (LLM) توسعه دادهاند که بهطور پیوسته اطلاعات متنی و بصری را ادغام میکند و قادر است تصاویر را با دقت بالایی توصیف کند.
یافتههای اپل که در مقالهای با عنوان «MM1: روشها، تحلیل و بینشها از پیشآموزش LLM چند وجهی» توضیح داده شده است، رویکرد جدیدی برای ایجاد سیستمهای هوش مصنوعی هوشمندتر و انعطافپذیرتر را نشان میدهد.
نویسندگان مقاله ادعا میکنند که با استفاده از مجموعهدادههای متن-تصویر شامل ترکیب عکس و توضیح مربوط به آن و دادههای متنی تنها برای تعلیم مدل MM1، استاندارد بهتری برای توانایی هوش مصنوعی در انجام وظایفی مانند شرح تصاویر، پاسخگویی به سؤالات بصری و استنباط زبان طبیعی با سطح دقت بالاتر را ایجاد کردهاند.
تحقیقات اپل بر ترکیب انواع مختلف دادههای آموزشی و معماریهای مدل تمرکز دارد که به هوش مصنوعی امکان میدهند زبان طبیعی را بر اساس ادغام نشانههای تصویری و زبانی درک و تولید کند. این قابلیت برای انجام وظایفی که نیازمند فهم عمیقتری از جهان هستند (مانند تفسیر عکسهای پیچیده یا پاسخگویی به سؤالاتی که عناصر بصری در آنها دخیلاند) حیاتی است.