مدل‌های جدید OpenAI؛ پیشرفت در استدلال، چالش در دقت اطلاعات

OpenAI به‌تازگی دو مدل جدید هوش مصنوعی با نام‌های o3 و o4-mini را معرفی کرده است. این مدل‌ها با هدف ارتقای توانایی‌های استدلال و تحلیل داده‌ها توسعه یافته‌اند. با این حال، آزمایش‌ها نشان می‌دهند که این مدل‌ها نسبت به نسخه‌های قبلی، بیشتر دچار «توهم» یا همان تولید اطلاعات نادرست می‌شوند.

عملکرد ضعیف‌تر در آزمون‌های دقت

نتایج آزمون PersonQA

طبق گزارش‌های داخلی OpenAI، مدل o3 در آزمون PersonQA که برای سنجش دانش مدل درباره افراد طراحی شده، در ۳۳٪ از پاسخ‌ها اطلاعات نادرست ارائه داده است. این میزان تقریباً دو برابر نرخ مدل‌های پیشین مانند o1 و o3-mini است که به ترتیب ۱۶٪ و ۱۴.۸٪ بوده‌اند.

از سوی دیگر، مدل o4-mini عملکرد ضعیف‌تری داشته و در ۴۸٪ از موارد دچار توهم شده است.

علت افزایش اطلاعات نادرست: عدم درک عمیق

OpenAI در گزارش فنی خود اعلام کرده است:

«تحقیقات بیشتری برای درک علت افزایش توهم در مدل‌های استدلالی در مقیاس بزرگ‌تر مورد نیاز است.»

این مدل‌ها اگرچه در حوزه‌هایی مانند برنامه‌نویسی و ریاضیات نتایج خوبی دارند، اما با تولید ادعاهای بیشتر (اعم از درست یا نادرست)، دقت کلی پاسخ‌ها را تحت تأثیر قرار می‌دهند.

چالش‌های عملیاتی و کاربردی

مدل‌های جدید OpenAI؛ پیشرفت در استدلال، چالش در دقت اطلاعات

ادعاهای نادرست درباره نحوه پاسخ‌دهی

طبق بررسی‌های آزمایشگاه تحقیقاتی Transluce، مدل o3 گاهی ادعا می‌کند که کدی را روی یک مک‌بوک پرو ۲۰۲۱ اجرا کرده و نتایج آن را در پاسخ لحاظ کرده است. در حالی‌که این مدل در واقع قادر به اجرای چنین عملی نیست. این رفتار می‌تواند اعتماد کاربران به مدل را تضعیف کند.

ریسک در کاربردهای حساس

مدل‌های استدلالی مانند o3 و o4-mini به دلیل نرخ بالای تولید اطلاعات نادرست، در حوزه‌هایی مانند حقوق، پزشکی و امور مالی که دقت اطلاعات حیاتی است، با محدودیت جدی مواجه‌اند. به‌عنوان نمونه، یک شرکت حقوقی نمی‌تواند به مدلی که ممکن است اطلاعات اشتباه وارد قراردادها کند، اعتماد کند.

راهکار پیشنهادی: استفاده از جستجوی وب

یکی از روش‌های پیشنهادشده برای کاهش نرخ توهم در مدل‌های هوش مصنوعی، افزودن قابلیت جستجوی وب است. برای مثال، مدل GPT-4o که از این قابلیت بهره می‌برد، موفق شده در آزمون SimpleQA به دقت ۹۰٪ دست پیدا کند.

البته این روش مشروط به آن است که کاربران اجازه دهند مدل به منابع خارجی دسترسی پیدا کند.

پیشرفت‌های فنی در مدل‌های جدید

مدل o3 به عنوان پیشرفته‌ترین مدل استدلالی OpenAI معرفی شده است. این مدل قابلیت تحلیل تصویر دارد و می‌تواند ورودی‌های بصری مانند نمودارها یا تخته‌های سفید را در فرآیند استدلال خود لحاظ کند.

علاوه بر این، مدل‌های جدید از روش‌های نوآورانه‌ای مانند استدلال شبیه‌سازی‌شده (Simulated Reasoning) و هم‌ترازی تأملی (Deliberative Alignment) برای بهبود دقت و ایمنی استفاده می‌کنند.

نتیجه‌گیری

مدل‌های o3 و o4-mini نمایانگر پیشرفت‌های قابل‌توجهی در زمینه استدلال و تحلیل داده‌ها هستند. اما افزایش نرخ تولید اطلاعات نادرست در آن‌ها، نگرانی‌هایی را به همراه داشته است. OpenAI تأکید کرده که تحقیقات بیشتری برای حل این مسئله نیاز است.

در حالی که این مدل‌ها در برخی حوزه‌ها عملکرد خوبی دارند، اما چالش‌های مرتبط با دقت اطلاعات ممکن است دامنه کاربرد آن‌ها را محدود کند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *