تناقض بزرگ؛ کشف منابع توهمی هوش مصنوعی در مقالات معتبر NeurIPS

بررسی های اخیر در کنفرانس NeurIPS نشان دهنده نفوذ مراجع جعلی به مقالات علمی برتر است، پدیده ای که لزوم بازنگری در اعتماد به خروجی های مدل های زبانی و مدیریت منابع توهمی هوش مصنوعی را بیش از پیش آشکار می سازد.

استارتاپ تشخیص هوش مصنوعی GPTZero تمام 4841 مقاله پذیرفته شده در کنفرانس معتبر سیستم های پردازش اطلاعات عصبی (NeurIPS) رو که ماه گذشته در سن دیگو برگزار شد، بررسی کرده. این شرکت به تک کرانچ گفته که 100 مورد ارجاع خیالی رو در 51 مقاله پیدا کرده که جعلی بودنشون تایید شده و این موضوع، نگرانی ها درباره منابع توهمی هوش مصنوعی را افزایش می دهد.

داشتن مقاله ای که در NeurIPS پذیرفته شده باشه، یک دستاورد بزرگ در رزومه هر کسی در دنیای هوش مصنوعی محسوب می شه. با توجه به اینکه این افراد جزو برترین ذهن های پژوهشی هوش مصنوعی هستن، شاید بشه حدس زد که برای انجام کار به شدت خسته کننده نوشتن ارجاعات، سراغ مدل های زبانی بزرگ (LLM) رفته باشن.

البته این یافته ها ملاحظاتی هم داره: وجود 100 ارجاع خیالی تایید شده در 51 مقاله، از نظر آماری چندان معنادار نیست. هر مقاله ده ها ارجاع داره، بنابراین از بین ده ها هزار ارجاع، این عدد عملا در آمار صفره.

آیا منابع توهمی هوش مصنوعی یک تهدید جدی هستند؟

این نکته هم مهمه که یک ارجاع نادرست، اعتبار کل پژوهش مقاله رو زیر سوال نمی بره. همون طور که NeurIPS به مجله فورچون (که اولین جایی بود که این تحقیق GPTZero رو گزارش کرد) گفته: «حتی اگه 1.1 درصد از مقالات به خاطر استفاده از LLMها یک یا چند رفرنس اشتباه داشته باشن، محتوای خود مقالات لزوما بی اعتبار نیست.» با این حال، اهمیت بررسی دقیق منابع توهمی هوش مصنوعی روز به روز بیشتر می شود.

اما با همه این ها، ارجاع جعلی هم موضوع بی اهمیتی نیست. NeurIPS به «انتشارات علمی دقیق در زمینه یادگیری ماشین و هوش مصنوعی» افتخار می کنه. علاوه بر این، هر مقاله توسط چندین نفر داوری (peer-reviewed) می شه که بهشون آموزش داده شده تا هرگونه مورد خیالی رو گزارش کنن. این موضوع در مورد شناسایی منابع توهمی هوش مصنوعی نیز صدق می کند.

ارجاعات برای پژوهشگران به نوعی مثل اعتبار و واحد پول هستن. از اون ها به عنوان معیاری در مسیر شغلی استفاده می شه تا نشون بدن کار یک پژوهشگر چقدر بین همکارانش تاثیرگذار بوده. وقتی هوش مصنوعی اون ها رو از خودش درمیاره، ارزش این معیار پایین میاد و این باعث ایجاد مشکل در شناسایی منابع توهمی هوش مصنوعی می شود.

چالش های تشخیص منابع توهمی هوش مصنوعی

با توجه به حجم بالای مقالات، کسی نمی تونه داوران رو به خاطر پیدا نکردن چند ارجاع ساخته شده توسط هوش مصنوعی سرزنش کنه. GPTZero هم خودش سریع به این نکته اشاره کرده. این استارتاپ در گزارش خودش می گه که هدف از این کار، ارائه داده های دقیق درباره این بوده که چطور محتوای بی کیفیت تولیدشده توسط هوش مصنوعی از طریق «تسونامی ارسال مقالات» وارد می شه و «فرایند داوری این کنفرانس ها رو به مرز انفجار رسونده». تشخیص دقیق منابع توهمی هوش مصنوعی در این شرایط به چالشی بزرگ تبدیل شده است. GPTZero حتی به مقاله ای متعلق به اردیبهشت 1404 (مه 2025) با عنوان «بحران داوری در کنفرانس های هوش مصنوعی» اشاره می کنه که در اون به این مشکل در کنفرانس های تراز اول مثل NeurIPS پرداخته شده.

با این حال، چرا خود پژوهشگران صحت کارهای LLM رو بررسی نکردن؟ مطمئنا اون ها باید لیست دقیق مقالاتی رو که برای کارشون استفاده کردن، بدونن.

کل این ماجرا به یک نتیجه گیری بزرگ و طنزآمیز ختم می شه: اگه برجسته ترین متخصصان هوش مصنوعی جهان، با وجود اینکه اعتبارشون در میونه، نمی تونن دقت استفاده خودشون از LLMها رو در جزئیات تضمین کنن، این برای بقیه ما چه معنایی داره؟ این سوال به وضوح نشان می دهد که مقابله با خطرات چت بات برای نوجوانان و منابع توهمی هوش مصنوعی یک مسئولیت جمعی است.

این وضعیت نشان دهنده شکاف عمیقی میان توانایی های فنی فعلی هوش مصنوعی و نیاز مبرم به دقت و صحت در دنیای آکادمیک است. در حالی که ابزارهای نوین می توانند به سرعت تولید محتوا کمک کنند، اما نظارت انسانی همچنان رکن اصلی در حفظ اعتبار و تداوم دانش بشری باقی می ماند.

Irony alert: Hallucinated citations found in papers from NeurIPS, the prestigious AI conference