جمهور - کمپنی متا برای آموزش هوش مصنوعی خود ترابایت‌ها کتاب دزدی‌شده را تورنت کرده است

کمپنی متا برای آموزش هوش مصنوعی خود ترابایت‌ها کتاب دزدی‌شده را تورنت کرده است

ایمیل‌های افشاشده نشان می‌دهند که متا برای آموزش هوش مصنوعی، ترابایت‌ها کتاب الکترونیکی دارای حق کپی‌رایت را ازطریق تورنت دانلود کرده است.
ایمیل‌های درزکرده نشان می‌دهند که شرکت متا برای آموزش مدل‌های هوش مصنوعی خود، ترابایت‌ها کتاب‌های دزدی‌شده را ازطریق تورنت دانلود کرده است. این افشاگری در ادامه‌ دعوای حقوقی مطرح‌شده علیه متا صورت گرفته است که این شرکت را به استفاده غیرقانونی از کتاب‌های دارای حق کپی‌رایت برای آموزش مدل‌های هوش مصنوعی متهم کرده است.
جزئیات دادخواست و شواهد جدید
نئووین می‌نویسد که در جنوری سال جاری، گروهی از نویسندگان شکایتی علیه متا مطرح و ادعا کردند که این شرکت مدل‌های هوش مصنوعی خود را با استفاده از مجموعه داده‌ای شامل کتاب‌ها و مقالات دزدی‌شده آموزش داده است. در پی انتشار ایمیل‌های داخلی متا، مدارک بیشتری در تأیید این ادعاها ارائه شده است. این اسناد نشان می‌دهند که متا به‌طور آگاهانه و عامدانه از کتابخانه‌های غیرقانونی استفاده کرده است تا مدل‌های خود را با داده‌های دارای کپی‌رایت تغذیه کند.
براساس اسناد دادگاه، متا حداقل ۸۱/۷ ترابایت داده را ازطریق چندین کتابخانه سایه‌ای ازجمله Anna’s Archive دانلود کرده است. در این میان، ۳۵/۷ ترابایت داده از Z-Library و LibGen تأمین شده و متا پیش‌تر نیز ۸۰/۶ ترابایت دیگر را از LibGen دریافت کرده بود. این حجم عظیم از داده‌های غیرقانونی نشان‌دهنده استفاده گسترده متا از محتواهای دزدی‌شده است.
نویسندگان پرونده این اقدام را «حیرت‌انگیز» توصیف و تأکید کرده‌اند که حتی اقدامات بسیار کوچک‌تر سرقت داده‌ها، تنها ۰/۰۰۸ درصد از میزان آثار دارای حق کپی‌رایت که متا دزدی کرده، به ارجاع پرونده به دادستان‌های ایالات متحده برای تحقیقات کیفری منجر شده است.
ایمیل‌های فاش‌شده نشان می‌دهند که برخی از کارکنان متا از پیامدهای قانونی این اقدامات آگاه بوده‌اند. در آوریل ۲۰۲۳، نیکولای بشلیکوف، یکی از مهندسان تحقیقاتی متا، در ایمیلی داخلی هشدار داده است که تورنت‌کردن از لپ‌تاپ شرکتی احساس درستی ندارد.
با وجود این هشدارها، متا نه‌تنها این روند را متوقف نکرد؛ بلکه اقداماتی را برای پنهان‌کردن ردپای خود انجام داد. تا سپتامبر ۲۰۲۳، بشلیکوف اعتراضا‌های خود را افزایش داد و حتی با تیم حقوقی متا مشورت کرد. او در ایمیلی نوشت:
استفاده از تورنت‌ها به معنای Seed کردن فایل‌ها (اشتراک‌گذاری محتوا در خارج از سیستم) خواهد بود. این مسئله می‌تواند از‌نظر قانونی مشکل‌ساز باشد.
با‌این‌حال، طبق ادعای شاکیان، متا برای جلوگیری از ردیابی فعالیت‌های خود، تنظیمات دانلود را طوری تغییر داد که حداقل میزان ممکن از سیدینگ (اشتراک‌گذاری داده‌ها) انجام شود. همچنین، این شرکت تلاش کرد تا مانع از شناسایی هویت خود شود. به همین منظور، ابتدا داده‌ها را روی سرورهای غیرمتعلق به متا دانلود کرد تا کسی نتواند Seeder یا Downloader را به سرورهای متا ردیابی کند.
واکنش متا به افشاگری‌ها
متا تاکنون به این افشاگری‌ها واکنشی رسمی نشان نداده است؛ اما این پرونده می‌تواند پیامدهای قانونی سنگینی برای این شرکت به‌همراه داشته باشد. استفاده از داده‌های دارای حق کپی‌رایت بدون اجازه، نقض آشکار قوانین کپی‌رایت محسوب می‌شود و ممکن است متا را با جریمه‌های هنگفت و محدودیت‌های قانونی جدید مواجه کند.
با توجه به حجم گسترده‌ داده‌هایی که متا ازطریق منابع غیرقانونی دانلود کرده، این پرونده می‌تواند یکی از نمونه‌های بزرگ نقض کپی‌رایت در حوزه هوش مصنوعی باشد. حال باید دید که دادگاه چه تصمیمی درباره این تخلفات خواهد گرفت و متا برای این اقدامات غیرقانونی پاسخ‌گو خواهد بود یا خیر.