محققان دانشکده طب Icahn در شفاخانه مونت سینا کشف کردهاند که پیشرفتهترین سیستمهای هوش مصنوعی بهویژه مدلهای زبان بزرگ (LLM) ، در کدگذاری طبی ضعیف هستند.
مطالعه آنها که اخیراً در مجله NEJM AI منتشر شده است، بر ضرورت اصلاح و اعتبار سنجی این فناوریها قبل از در نظر گرفتن اجرای بالینی تأکید میکند.
این مطالعه فهرستی از بیش از 27000 کد تشخیص و روش منحصر به فرد را از 12 ماه درمان معمول در سیستم صحت مونت سینا استخراج کرد، در حالی که دادههای قابل شناسایی بیمار را حذف کرد. با استفاده از توضیحات مربوط به هر کد، محققان مدل هایی از OpenAI، گوگل و متا را به خروجی دقیقترین کدهای طبی تشویق کردند. کدهای تولید شده با کدهای اصلی مقایسه شدند و خطاها برای هر الگوی مورد تجزیه و تحلیل قرار گرفتند.
محققان گزارش کردند که همه مدلهای زبان بزرگ مورد مطالعه از جمله GPT-4، GPT-3.5، Gemini-pro، و Llama-2-70b، دقت محدودی (زیر 50 درصد) را در بازتولید کدهای طبی اصلی نشان دادند که نشان دهنده شکاف در مفید بودن آنها برای کدگذاری پزشکی است. GPT-4 بهترین عملکرد را با بالاترین نرخ تطابق دقیق برای ICD-9-CM (45.9 درصد)، ICD-10-CM (33.9 درصد) و کدهای CPT (49.8 درصد) نشان داد.
GPT-4 بیشترین نسبت کدهای نادرست را تولید کرد که همچنان معنای صحیح را منتقل میکردند. به عنوان مثال، زمانی که توصیف ICD-9-CM یا پروستات ندولار بدون انسداد ادراری داده شد، GPT-4 یک کد برای «پروستات گرهدار» تولید کرد که درک نسبتاً ظریف خود را از اصطلاحات طبی نشان میدهد. با این حال، حتی با در نظر گرفتن این کدهای فنی صحیح، تعداد غیرقابل قبولی از خطاها باقی ماند.
مدل بعدی با بهترین عملکرد که GPT-3.5 بود، بیشترین میزان مبهم بودن را داشت. همچنین این مدل بالاترین نسبت کدهای نادرست تولید شده را داشت که در مقایسه با کدهای دقیق، دقیق اما عمومیتر بودند. در این مورد، زمانی که با توضیح کد ICD-9-CM «اثر نامطلوب بیهوشی» ارائه شد، GPT-3.5 کدی برای «سایر عوارض جانبی مشخص شده، که در جای دیگری طبقهبندی نشده» تولید کرد.
داکتر علی سروش، نویسنده مسئول این مطالعه میگوید: یافتههای ما بر نیاز حیاتی برای ارزیابی دقیق و اصلاح قبل از استقرار فناوریهای هوش مصنوعی در مناطق عملیاتی حساس مانند کدگذاری طبی تأکید میکند. اگرچه هوش مصنوعی پتانسیل بالایی دارد، باید با احتیاط با آن برخورد کرد تا از قابلیت اطمینان و کارایی آن در مراقبتهای صحی اطمینان حاصل شود.
محققان میگویند که یکی از کاربردهای این مدلها در طبی ، خودکار کردن تخصیص کدهای طبی برای بازپرداخت و اهداف تحقیقاتی بر اساس متن بالینی است.
سروش افزود: مطالعات قبلی نشان میدهد که مدلهای زبان بزرگ جدیدتر با وظایف عددی دست و پنجه نرم میکنند. اما تاکنون میزان دقت آنها در تخصیص کدهای طبی از متن بالینی بهطور کامل در مدلهای مختلف مورد بررسی قرار نگرفته بود. بنابراین هدف ما ارزیابی این بود که آیا این مدلها میتوانند بهطور مؤثر وظیفه اساسی تطبیق یک کد طبی با توضیحات متن رسمی مربوطه را انجام دهند یا خیر.
محققان میگویند که ادغام LLM با دانش تخصصی میتواند استخراج کد طبی را خودکار کند و بهطور بالقوه دقت را افزایش داده و هزینههای اداری در سیستمهای درمانی را کاهش دهد.
داکتر گیریش نادکارنی، یکی از نویسندگان ارشد این مطالعه میگوید: این مطالعه تواناییها و موانع فعلی سر راه هوش مصنوعی در مراقبتهای درمانی را نشان میدهد و بر نیاز به بررسی دقیق و اصلاح بیشتر قبل از پذیرش گسترده آنها تأکید میکند.
محققان هشدار میدهند که این مطالعه ممکن است بهطور کامل سناریوهای دنیای واقعی که عملکرد LLM میتواند در آنها بدتر باشد را نشان ندهد.
در مرحله بعد، محققان قصد دارند ابزارهای LLM مناسب را برای استخراج دقیق دادههای طبی و تخصیص کد صورتحساب، با هدف بهبود کیفیت و کارایی در عملیات مراقبت های صحی ، توسعه دهند.