یادگیری کار تیمی توسط هوش مصنوعی دیپ مایند به کمک بازی‌های آنلاین

هوش مصنوعی دیپ مایند
هوش مصنوعی دیپ مایند

چندین دهه است که کامپیوتر می‌تواند انسان را در بازی‌هایی مثل شطرنج شکست بدهد. اما این جنبه انفرادی دارد و هوش مصنوعی نتوانسته به صورت تیمی در بازی آنلاین پیروز بشود. اکنون به لطف محققان پروژه دیپ مایند (DeepMind) گوگل این دستاورد محقق شده است. دانشمندان گوگل به بازیکنان هوش مصنوعی دیپ مایند یاد داده‌اند با انسان‌ها و سایر کامپیوترها به صورت تیمی کار کنند و به رقابت در بازی ویدیویی Quake III Arena بپردازند.

وقتی هوش مصنوعی فقط یک رقیب داشته باشد، خیلی خوب عمل می‌کند چون فقط باید حرکات احتمالی یک ذهن را پیش‌بینی کند. اما ماجرای کار تیم کاملا متفاوت است چون شامل اقداماتی می‌شود که کامپیوترها در آن چندان ماهر نیستند؛ مثل پیش‌بینی نحوه رفتار یک گروه. برای اینکه هوش مصنوعی واقعا کارآمد بشود، باید یاد بگیرد چطور با هوش‌های دیگر مشارکت کند.

تیم هوش مصنوعی دیپ مایند اهمیت این دستاورد را اینگونه توضیح می‌دهد:

«میلیاردها نفر در این سیاره زندگی می‌کنند که هر کدام اهداف و اقدامات فردی خودشان را دارند اما باز هم می‌توانند به شکل تیم‌ها، سازمان‌ها و جوامع کنار هم قرار بگیرند و نمایش چشمگیری از هوش جمعی ارائه بدهند. این موقعیتی است که ما به آن یادگیری چندعاملی می‌گوییم: چندین عامل منفرد باید به صورت جداگانه عمل کنند و در عین حال تعامل و مشارکت با سایر عامل‌ها را هم یاد بگیرند. این مسئله‌ای فوق‌العاده دشوارست چون با این عامل‌های همساز، دنیا همیشه در حال تغییر است.»

بازی‌های ویدیویی چند نفره و شخص اول که در آنها تیم‌ها در دنیای مجازی به هم شلیک می‌کنند یا نارنجک پرتاب می‌کنند، محلی ایده‌آل برای آموزش پیچیدگی‌های کار تیمی به هوش مصنوعی محسوب می‌شود. هر بازیکن باید به صورت منفرد عمل کند و تصمیماتی بگیرد که به نفع کل تیم باشد.

تیم گوگل برای این مطالعه، هوش مصنوعی دیپ مایند برای فتح پرچم در پلتفرم Quake III Arena آموزش دادند. قوانین بازی بسیار ساده‌ هستند: دو تیم در یک میدان نبرد شبیه به مارپیچ با هم روبرو می‌شوند. هدف بازی فتح بیشترین تعداد از پرچم‌های دشمن با محافظت از پرچم‌های تیم خودیست. هر تیمی که در عرض پنج دقیقه پرچم‌های بیشتری فتح کند، برنده است. اما در عمل، این کار می‌تواند به سرعت پیچیده بشود.

هوش مصنوعی دیپ مایند چطور برای بازی گروهی آموزش می‌بیند؟

تیم دیپ مایند ۳۰ الگوریتم شبکه عصبی ساختند و تیم‌ها را در مجموعه‌ای از نقشه‌های بازی تصادفی مقابل یکدیگر قرار دادند. ربات‌ها با فتح پرچم‌ها امتیاز کسب می‌کردند و بازیکنان دیگر را شکست می‌دادند، آنها را به نقطه شروع مجدد می‌فرستادند تا کارکترشان ری‌بوت بشود.

در ابتدا، اقدامات ربات‌ها به صورت تصادفی ظاهر شدند. اما هرچه بیشتر بازی می‌کردند، کارشان بهتر شد. هر شبکه عصبی که باخت‌های مداوم داشت، حذف می‌شد و با نسخه بهبودیافته هوش مصنوعی برنده جایگزین می‌شد. در پایان ۴۵۰هزار بازی، تیم هوش مصنوعی دیپ مایند یک شبکه عصبی را با نام برای پیروزی (FTW) به عنوان برنده انتخاب کرد.

گروه دیپ مایند الگوریتم FTW را در مقابل ربات‌های معکوس (که مهارت‌های یادگیری هوش مصنوعی را نداشتند) و سپس تیم‌های انسانی بازی دادند. الگوریتم FTW از همه این چالش‌ها با موفقیت بیرون آمد.

سپس تورنومنتی طراحی کردند که در آن ۴۰ انسان به صورت تصادفی به عنوان هم‌تیمی و رقیب ربات‌ها انتخاب می‌شدند. از منظر این بازیکنان، ربات‌ها نسبت به انسان‌های هم‌تیمی مشارکت بهتری داشتند. بازیکنانی که با عامل‌های FTW تیم شده بودند، توانایی شکست مبارزان سایبری در ۵ درصد مسابقات را داشتند.

همینطور که یادگیری ادامه داشت، ربات‌ها برخی از استراتژی‌های به کار رفته توسط انسان‌ها را یاد گرفتند. مثل منتظر ماندن نزدیک نقطه شروع مجدد یک پرچم و فتح آن به محض ظاهر شدن. تیم‌های FTW یک باگ هم در بازی پیدا کردند و از آنها به نفع خودشان استفاده کردند: اگر به هم‌تیمی خودشان شلیک کنند، سرعتشان بیشتر می‌شود و می‌توانند از این به نفع تیم بهره ببرند.

مکس جادربرگ یکی از محققان ارشد هوش مصنوعی دیپ مایند است و درباره مشاهده شکل‌گیری این رفتارها می‌گوید:

«جالبترین چیز در طول پیشبرد این پروژه، مشاهده پیدایش برخی از این رفتارهای پیشرفته و سطح بالا بود. اینها چیزهایی مشابه رفتار انسان‌ها در این بازی هستند.»

یکی از دلایل اصلی برتری ربات‌ها نسبت به انسان‌ها اینست که آنها تیراندازان سریع و دقیقی هستند. همین آنها را در یک دست بازی نسبت به رقیبانشان سریع‌تر می‌کند. اما این تنها عامل موفقیت‌شان نبود. وقتی محققان در زمان واکنش ربات‌ها ربع ثانیه تاخیر ایجاد کردند، بهترین انسان‌ها هم فقط ۲۱ درصد مواقع موفق به شکست ربات‌ها شدند.

از زمان مطالعه اولیه روی مهارت بازی آنلاین و گروهی هوش مصنوعی دیپ مایند، الگوریتم FTW و نسل‌های بعدی آن در میدان مبازره بازی Quake III Arena باقی مانده‌اند و نشان داده‌اند می‌توانند با ترفندها و جزییات بیشتر به مهارت‌های پیچیده‌تری هم برسند. محققان پروژه دیپ مایند همچنین رباتی ساخته‌اند که می‌تواند در بازی استراتژیکی-فضایی فوق پیچیده Starcraft II هم نمایش بی‌نظیری داشته باشد.

البته هدف این محققان ساخت الگوریتم‌های بازی ویدیویی بهتر نیست. یادگیری درباره کار تیمی هوش مصنوعی در نهایت به کاربرد این فناوری در ناوگان‌های ماشین خودران می‌کند. حتی می‌تواند منجر به ساخت دستبار رباتیکی بشود که نیازهای جراحان در اتاق عمل را پیش‌بینی می‌کند!

اگر با خواندن این مطلب فکر می‌کنید ربات‌های موفق در بازی ویدیویی در کار تیمی هم موفق خواهند بود، بیایید با مخالفانتان آشنا شوید. مارک ریدل یکی از محققان هوش مصنوعی در جورجیا تک یکی از آنهاست. او معتقد است علت موفقیت ربات‌ها در بازی‌های ویدیویی، قابلیت درک عمیق استراتژی‌ها از سوی تک تک آنهاست. این لزوما نمی‌تواند به معنی مشارکت و همکاری باشد چون تیم‌های هوش مصنوعی از یکی از عناصر حیاتی شبکه‎های انسانی محرومند: ارتباطات و همکاری آگاهانه و عمدی.

نظر شما درباره این موفقیت هوش مصنوعی دیپ مایند چیست؟ در اینکه موفقیت ربات‌ها در بازی‌های آنلاین و تیمی منجر به پیشرفت فناوری هوش مصنوعی می‌شود، شکی نیست. اما وسعت این پیشرفت را تا کجا پیش‌بینی می‌کنید؟