جمهور - هوش مصنوعیMM1اپل معرفی شد

محققان اپل روش جدیدی برای آموزش مدل‌های زبانی بزرگ (LLM) توسعه داده‌اند که به‌طور پیوسته اطلاعات متنی و بصری را ادغام می‌کند و قادر است تصاویر را با دقت بالایی توصیف کند.
یافته‌های اپل که در مقاله‌ای با عنوان «MM1: روش‌ها، تحلیل‌ و بینش‌ها از پیش‌آموزش LLM چند وجهی» توضیح داده شده است، رویکرد جدیدی برای ایجاد سیستم‌های هوش مصنوعی هوشمندتر و انعطاف‌پذیرتر را نشان می‌دهد.
نویسندگان مقاله ادعا می‌کنند که با استفاده از مجموعه‌داده‌های متن-تصویر شامل ترکیب عکس و توضیح مربوط به آن و داده‌های متنی تنها برای تعلیم مدل MM1، استاندارد بهتری برای توانایی هوش مصنوعی در انجام وظایفی مانند شرح تصاویر، پاسخگویی به سؤالات بصری و استنباط زبان طبیعی با سطح دقت بالاتر را ایجاد کرده‌اند.
تحقیقات اپل بر ترکیب انواع مختلف داده‌های آموزشی و معماری‌های مدل تمرکز دارد که به هوش مصنوعی امکان می‌دهند زبان طبیعی را بر اساس ادغام نشانه‌های تصویری و زبانی درک و تولید کند. این قابلیت برای انجام وظایفی که نیازمند فهم عمیق‌تری از جهان هستند (مانند تفسیر عکس‌های پیچیده یا پاسخگویی به سؤالاتی که عناصر بصری در آن‌ها دخیل‌اند) حیاتی است.