OpenAI بهتازگی دو مدل جدید هوش مصنوعی با نامهای o3 و o4-mini را معرفی کرده است. این مدلها با هدف ارتقای تواناییهای استدلال و تحلیل دادهها توسعه یافتهاند. با این حال، آزمایشها نشان میدهند که این مدلها نسبت به نسخههای قبلی، بیشتر دچار «توهم» یا همان تولید اطلاعات نادرست میشوند.
عملکرد ضعیفتر در آزمونهای دقت
نتایج آزمون PersonQA
طبق گزارشهای داخلی OpenAI، مدل o3 در آزمون PersonQA که برای سنجش دانش مدل درباره افراد طراحی شده، در ۳۳٪ از پاسخها اطلاعات نادرست ارائه داده است. این میزان تقریباً دو برابر نرخ مدلهای پیشین مانند o1 و o3-mini است که به ترتیب ۱۶٪ و ۱۴.۸٪ بودهاند.
از سوی دیگر، مدل o4-mini عملکرد ضعیفتری داشته و در ۴۸٪ از موارد دچار توهم شده است.
علت افزایش اطلاعات نادرست: عدم درک عمیق
OpenAI در گزارش فنی خود اعلام کرده است:
«تحقیقات بیشتری برای درک علت افزایش توهم در مدلهای استدلالی در مقیاس بزرگتر مورد نیاز است.»
این مدلها اگرچه در حوزههایی مانند برنامهنویسی و ریاضیات نتایج خوبی دارند، اما با تولید ادعاهای بیشتر (اعم از درست یا نادرست)، دقت کلی پاسخها را تحت تأثیر قرار میدهند.
چالشهای عملیاتی و کاربردی
ادعاهای نادرست درباره نحوه پاسخدهی
طبق بررسیهای آزمایشگاه تحقیقاتی Transluce، مدل o3 گاهی ادعا میکند که کدی را روی یک مکبوک پرو ۲۰۲۱ اجرا کرده و نتایج آن را در پاسخ لحاظ کرده است. در حالیکه این مدل در واقع قادر به اجرای چنین عملی نیست. این رفتار میتواند اعتماد کاربران به مدل را تضعیف کند.
ریسک در کاربردهای حساس
مدلهای استدلالی مانند o3 و o4-mini به دلیل نرخ بالای تولید اطلاعات نادرست، در حوزههایی مانند حقوق، پزشکی و امور مالی که دقت اطلاعات حیاتی است، با محدودیت جدی مواجهاند. بهعنوان نمونه، یک شرکت حقوقی نمیتواند به مدلی که ممکن است اطلاعات اشتباه وارد قراردادها کند، اعتماد کند.
راهکار پیشنهادی: استفاده از جستجوی وب
یکی از روشهای پیشنهادشده برای کاهش نرخ توهم در مدلهای هوش مصنوعی، افزودن قابلیت جستجوی وب است. برای مثال، مدل GPT-4o که از این قابلیت بهره میبرد، موفق شده در آزمون SimpleQA به دقت ۹۰٪ دست پیدا کند.
البته این روش مشروط به آن است که کاربران اجازه دهند مدل به منابع خارجی دسترسی پیدا کند.
پیشرفتهای فنی در مدلهای جدید
مدل o3 به عنوان پیشرفتهترین مدل استدلالی OpenAI معرفی شده است. این مدل قابلیت تحلیل تصویر دارد و میتواند ورودیهای بصری مانند نمودارها یا تختههای سفید را در فرآیند استدلال خود لحاظ کند.
علاوه بر این، مدلهای جدید از روشهای نوآورانهای مانند استدلال شبیهسازیشده (Simulated Reasoning) و همترازی تأملی (Deliberative Alignment) برای بهبود دقت و ایمنی استفاده میکنند.
نتیجهگیری
مدلهای o3 و o4-mini نمایانگر پیشرفتهای قابلتوجهی در زمینه استدلال و تحلیل دادهها هستند. اما افزایش نرخ تولید اطلاعات نادرست در آنها، نگرانیهایی را به همراه داشته است. OpenAI تأکید کرده که تحقیقات بیشتری برای حل این مسئله نیاز است.
در حالی که این مدلها در برخی حوزهها عملکرد خوبی دارند، اما چالشهای مرتبط با دقت اطلاعات ممکن است دامنه کاربرد آنها را محدود کند.