به گفتهی یک افشاگر چینی، استارتاپ دیپسیک بهزودی مدل جدید خود با نام DeepSeek R2 را معرفی خواهد کرد. پس از موفقیت مدل R1 که نشان داد چین در توسعهی مدلهای هوش مصنوعی پیشرفته عقب نمانده است، R2 میتواند بار دیگر بازار جهانی را تحتتأثیر قرار دهد.
گفته میشود DeepSeek R2 از معماری ترکیبی Mixture of Experts (MoE) بهره میبرد که نسخهی پیشرفتهتری از معماریهای موجود محسوب میشود و احتمالاً شامل مکانیزمهای گیتینگ پیشرفته یا ترکیبی از لایههای MoE و Dense برای بهینهسازی عملکرد در پردازشهای سنگین خواهد بود. این مدل قرار است با ۱٫۲ تریلیون پارامتر عرضه شود؛ عددی که R2 را در سطح مدلهایی همچون GPT-4 Turbo و Gemini 2.0 Pro قرار میدهد.
ظاهراً هزینهی پردازش در R2 نسبت به GPT-4 بهطور قابل توجهی کاهش یافته است و برای هر یک میلیون توکن ورودی ۰٫۰۷ دالر و خروجی ۰٫۲۷ دالر خواهد بود. این کاهش هزینه میتواند DeepSeek R2 را به گزینهای بسیار مقرونبهصرفه برای سازمانها تبدیل کند.
از دیگر جزئیات فنی فاششده، استفادهی DeepSeek R2 از خوشهی پردازشی مبتنیبر تراشهی Ascend 910B هواوی با توان پردازشی ۵۱۲ پتافلاپس (با دقت FP16) است؛ موضوعی که نشان میدهد که DeepSeek با تکیه بر منابع داخلی، زنجیرهی تأمین هوش مصنوعی خود را بهطور کامل یکپارچه کرده است.
باید توجه داشت که اطلاعات موجود رسمی نیستند و ممکن است مشخصات نهایی مدل متفاوت باشد.