ضعف شدید هوش مصنوعی در طب

دوشنبه ۱۰ ثور ۱۴۰۳ ساعت ۱۴:۴۴

محققان دانشکده طب Icahn در شفاخانه مونت سینا کشف کرده‌اند که پیشرفته‌ترین سیستم‌های هوش مصنوعی به‌ویژه مدل‌های زبان بزرگ (LLM) ، در کدگذاری طبی ضعیف هستند.
مطالعه آنها که اخیراً در مجله NEJM AI منتشر شده است، بر ضرورت اصلاح و اعتبار سنجی این فناوری‌ها قبل از در نظر گرفتن اجرای بالینی تأکید می‌کند.
این مطالعه فهرستی از بیش از 27000 کد تشخیص و روش منحصر به فرد را از 12 ماه درمان معمول در سیستم صحت مونت سینا استخراج کرد، در حالی که داده‌های قابل شناسایی بیمار را حذف کرد. با استفاده از توضیحات مربوط به هر کد، محققان مدل هایی از OpenAI، گوگل و متا را به خروجی دقیق‌ترین کدهای طبی تشویق کردند. کدهای تولید شده با کدهای اصلی مقایسه شدند و خطاها برای هر الگوی مورد تجزیه و تحلیل قرار گرفتند.

محققان گزارش کردند که همه مدل‌های زبان بزرگ مورد مطالعه از جمله GPT-4، GPT-3.5، Gemini-pro، و Llama-2-70b، دقت محدودی (زیر 50 درصد) را در بازتولید کدهای طبی اصلی نشان دادند که نشان دهنده شکاف در مفید بودن آنها برای کدگذاری پزشکی است. GPT-4 بهترین عملکرد را با بالاترین نرخ تطابق دقیق برای ICD-9-CM (45.9 درصد)، ICD-10-CM (33.9 درصد) و کدهای CPT (49.8 درصد) نشان داد.
GPT-4 بیشترین نسبت کدهای نادرست را تولید کرد که همچنان معنای صحیح را منتقل می‌کردند. به عنوان مثال، زمانی که توصیف ICD-9-CM یا پروستات ندولار بدون انسداد ادراری داده شد، GPT-4 یک کد برای «پروستات گره‌دار» تولید کرد که درک نسبتاً ظریف خود را از اصطلاحات طبی نشان می‌دهد. با این حال، حتی با در نظر گرفتن این کدهای فنی صحیح، تعداد غیرقابل قبولی از خطاها باقی ماند.

مدل بعدی با بهترین عملکرد که GPT-3.5 بود، بیشترین میزان مبهم بودن را داشت. همچنین این مدل بالاترین نسبت کدهای نادرست تولید شده را داشت که در مقایسه با کدهای دقیق، دقیق اما عمومی‌تر بودند. در این مورد، زمانی که با توضیح کد ICD-9-CM «اثر نامطلوب بیهوشی» ارائه شد، GPT-3.5 کدی برای «سایر عوارض جانبی مشخص شده، که در جای دیگری طبقه‌بندی نشده» تولید کرد.

داکتر علی سروش، نویسنده مسئول این مطالعه می‌گوید: یافته‌های ما بر نیاز حیاتی برای ارزیابی دقیق و اصلاح قبل از استقرار فناوری‌های هوش مصنوعی در مناطق عملیاتی حساس مانند کدگذاری طبی تأکید می‌کند. اگرچه هوش مصنوعی پتانسیل بالایی دارد، باید با احتیاط با آن برخورد کرد تا از قابلیت اطمینان و کارایی آن در مراقبت‌های صحی اطمینان حاصل شود.
محققان می‌گویند که یکی از کاربردهای این مدل‌ها در طبی ، خودکار کردن تخصیص کدهای طبی برای بازپرداخت و اهداف تحقیقاتی بر اساس متن بالینی است.
سروش افزود: مطالعات قبلی نشان می‌دهد که مدل‌های زبان بزرگ جدیدتر با وظایف عددی دست و پنجه نرم می‌کنند. اما تاکنون میزان دقت آنها در تخصیص کدهای طبی از متن بالینی به‌طور کامل در مدل‌های مختلف مورد بررسی قرار نگرفته بود. بنابراین هدف ما ارزیابی این بود که آیا این مدل‌ها می‌توانند به‌طور مؤثر وظیفه اساسی تطبیق یک کد طبی با توضیحات متن رسمی مربوطه را انجام دهند یا خیر.
محققان می‌گویند که ادغام LLM با دانش تخصصی می‌تواند استخراج کد طبی را خودکار کند و به‌طور بالقوه دقت را افزایش داده و هزینه‌های اداری در سیستم‌های درمانی را کاهش دهد.

داکتر گیریش نادکارنی، یکی از نویسندگان ارشد این مطالعه می‌گوید: این مطالعه توانایی‌ها و موانع فعلی سر راه هوش مصنوعی در مراقبت‌های درمانی را نشان می‌دهد و بر نیاز به بررسی دقیق و اصلاح بیشتر قبل از پذیرش گسترده آنها تأکید می‌کند.
محققان هشدار می‌دهند که این مطالعه ممکن است به‌طور کامل سناریوهای دنیای واقعی که عملکرد LLM می‌تواند در آنها بدتر باشد را نشان ندهد.
در مرحله بعد، محققان قصد دارند ابزارهای LLM مناسب را برای استخراج دقیق داده‌های طبی و تخصیص کد صورتحساب، با هدف بهبود کیفیت و کارایی در عملیات مراقبت های صحی ، توسعه دهند.

ضعف شدید هوش مصنوعی در طب

عناوین منتخب

پربازدیدترین

آخرین اخبار