مطالعهای جدید از دانشگاه آکسفورد نشان میدهد که استفاده از چتباتهای هوش مصنوعی برای تشخیص بیماریها میتواند منجر به تصمیمگیریهای نادرست و خطرناک شود.
عملکرد ضعیف چتباتها در تشخیص
در این تحقیق، حدود ۱۳۰۰ شرکتکننده در بریتانیا با سناریوهای پزشکی مواجه شدند و از آنها خواسته شد با استفاده از چتباتهایی مانند GPT-4o (مدل پیشفرض ChatGPT)، Command R+ از Cohere و Llama 3 از Meta، بیماریها را تشخیص دهند و اقدامات لازم را پیشنهاد کنند. نتایج نشان داد که استفاده از این چتباتها نه تنها دقت تشخیص را کاهش میدهد، بلکه باعث کماهمیت جلوه دادن شدت بیماریها نیز میشود.
مشکلات در تعامل کاربر و چتبات
یکی از مشکلات اصلی، اظهار داشت که پاسخهای چتباتها اغلب ترکیبی از توصیههای صحیح و نادرست بودند و کاربران در تفسیر آنها دچار سردرگمی میشدند.
چالشهای هوش مصنوعی در حوزه سلامت

با افزایش استفاده از هوش مصنوعی در حوزه سلامت، این مطالعه نشان میدهد که مدلهای زبانی بزرگ (LLMs) مانند GPT-4o و Llama 3 در تعامل با کاربران انسانی عملکرد مناسبی ندارند. اگرچه این مدلها در آزمونهای پزشکی عملکرد خوبی دارند، اما در شرایط واقعی و در تعامل با کاربران، دقت و اثربخشی آنها کاهش مییابد.
محققان تأکید میکنند که ارزیابیهای فعلی برای چتباتها، پیچیدگی تعاملات انسانی را در نظر نمیگیرند. آنها پیشنهاد میکنند که سیستمهای چتبات مانند داروهای جدید، باید قبل از استفاده عمومی، در دنیای واقعی مورد آزمایش قرار گیرند.
نتیجهگیری
با توجه به یافتههای این مطالعه، اعتماد بیش از حد به چتباتهای هوش مصنوعی برای مشاورههای پزشکی میتواند خطرناک باشد. کاربران باید از منابع معتبر و متخصصان حوزه سلامت برای تصمیمگیریهای پزشکی استفاده کنند و توسعهدهندگان باید در طراحی و ارزیابی این ابزارها دقت بیشتری به خرج دهند.