چندین دهه است که کامپیوتر میتواند انسان را در بازیهایی مثل شطرنج شکست بدهد. اما این جنبه انفرادی دارد و هوش مصنوعی نتوانسته به صورت تیمی در بازی آنلاین پیروز بشود. اکنون به لطف محققان پروژه دیپ مایند (DeepMind) گوگل این دستاورد محقق شده است. دانشمندان گوگل به بازیکنان هوش مصنوعی دیپ مایند یاد دادهاند با انسانها و سایر کامپیوترها به صورت تیمی کار کنند و به رقابت در بازی ویدیویی Quake III Arena بپردازند.
وقتی هوش مصنوعی فقط یک رقیب داشته باشد، خیلی خوب عمل میکند چون فقط باید حرکات احتمالی یک ذهن را پیشبینی کند. اما ماجرای کار تیم کاملا متفاوت است چون شامل اقداماتی میشود که کامپیوترها در آن چندان ماهر نیستند؛ مثل پیشبینی نحوه رفتار یک گروه. برای اینکه هوش مصنوعی واقعا کارآمد بشود، باید یاد بگیرد چطور با هوشهای دیگر مشارکت کند.
تیم هوش مصنوعی دیپ مایند اهمیت این دستاورد را اینگونه توضیح میدهد:
«میلیاردها نفر در این سیاره زندگی میکنند که هر کدام اهداف و اقدامات فردی خودشان را دارند اما باز هم میتوانند به شکل تیمها، سازمانها و جوامع کنار هم قرار بگیرند و نمایش چشمگیری از هوش جمعی ارائه بدهند. این موقعیتی است که ما به آن یادگیری چندعاملی میگوییم: چندین عامل منفرد باید به صورت جداگانه عمل کنند و در عین حال تعامل و مشارکت با سایر عاملها را هم یاد بگیرند. این مسئلهای فوقالعاده دشوارست چون با این عاملهای همساز، دنیا همیشه در حال تغییر است.»
بازیهای ویدیویی چند نفره و شخص اول که در آنها تیمها در دنیای مجازی به هم شلیک میکنند یا نارنجک پرتاب میکنند، محلی ایدهآل برای آموزش پیچیدگیهای کار تیمی به هوش مصنوعی محسوب میشود. هر بازیکن باید به صورت منفرد عمل کند و تصمیماتی بگیرد که به نفع کل تیم باشد.
تیم گوگل برای این مطالعه، هوش مصنوعی دیپ مایند برای فتح پرچم در پلتفرم Quake III Arena آموزش دادند. قوانین بازی بسیار ساده هستند: دو تیم در یک میدان نبرد شبیه به مارپیچ با هم روبرو میشوند. هدف بازی فتح بیشترین تعداد از پرچمهای دشمن با محافظت از پرچمهای تیم خودیست. هر تیمی که در عرض پنج دقیقه پرچمهای بیشتری فتح کند، برنده است. اما در عمل، این کار میتواند به سرعت پیچیده بشود.
هوش مصنوعی دیپ مایند چطور برای بازی گروهی آموزش میبیند؟
تیم دیپ مایند ۳۰ الگوریتم شبکه عصبی ساختند و تیمها را در مجموعهای از نقشههای بازی تصادفی مقابل یکدیگر قرار دادند. رباتها با فتح پرچمها امتیاز کسب میکردند و بازیکنان دیگر را شکست میدادند، آنها را به نقطه شروع مجدد میفرستادند تا کارکترشان ریبوت بشود.
در ابتدا، اقدامات رباتها به صورت تصادفی ظاهر شدند. اما هرچه بیشتر بازی میکردند، کارشان بهتر شد. هر شبکه عصبی که باختهای مداوم داشت، حذف میشد و با نسخه بهبودیافته هوش مصنوعی برنده جایگزین میشد. در پایان ۴۵۰هزار بازی، تیم هوش مصنوعی دیپ مایند یک شبکه عصبی را با نام برای پیروزی (FTW) به عنوان برنده انتخاب کرد.
گروه دیپ مایند الگوریتم FTW را در مقابل رباتهای معکوس (که مهارتهای یادگیری هوش مصنوعی را نداشتند) و سپس تیمهای انسانی بازی دادند. الگوریتم FTW از همه این چالشها با موفقیت بیرون آمد.
سپس تورنومنتی طراحی کردند که در آن ۴۰ انسان به صورت تصادفی به عنوان همتیمی و رقیب رباتها انتخاب میشدند. از منظر این بازیکنان، رباتها نسبت به انسانهای همتیمی مشارکت بهتری داشتند. بازیکنانی که با عاملهای FTW تیم شده بودند، توانایی شکست مبارزان سایبری در ۵ درصد مسابقات را داشتند.
همینطور که یادگیری ادامه داشت، رباتها برخی از استراتژیهای به کار رفته توسط انسانها را یاد گرفتند. مثل منتظر ماندن نزدیک نقطه شروع مجدد یک پرچم و فتح آن به محض ظاهر شدن. تیمهای FTW یک باگ هم در بازی پیدا کردند و از آنها به نفع خودشان استفاده کردند: اگر به همتیمی خودشان شلیک کنند، سرعتشان بیشتر میشود و میتوانند از این به نفع تیم بهره ببرند.
مکس جادربرگ یکی از محققان ارشد هوش مصنوعی دیپ مایند است و درباره مشاهده شکلگیری این رفتارها میگوید:
«جالبترین چیز در طول پیشبرد این پروژه، مشاهده پیدایش برخی از این رفتارهای پیشرفته و سطح بالا بود. اینها چیزهایی مشابه رفتار انسانها در این بازی هستند.»
یکی از دلایل اصلی برتری رباتها نسبت به انسانها اینست که آنها تیراندازان سریع و دقیقی هستند. همین آنها را در یک دست بازی نسبت به رقیبانشان سریعتر میکند. اما این تنها عامل موفقیتشان نبود. وقتی محققان در زمان واکنش رباتها ربع ثانیه تاخیر ایجاد کردند، بهترین انسانها هم فقط ۲۱ درصد مواقع موفق به شکست رباتها شدند.
از زمان مطالعه اولیه روی مهارت بازی آنلاین و گروهی هوش مصنوعی دیپ مایند، الگوریتم FTW و نسلهای بعدی آن در میدان مبازره بازی Quake III Arena باقی ماندهاند و نشان دادهاند میتوانند با ترفندها و جزییات بیشتر به مهارتهای پیچیدهتری هم برسند. محققان پروژه دیپ مایند همچنین رباتی ساختهاند که میتواند در بازی استراتژیکی-فضایی فوق پیچیده Starcraft II هم نمایش بینظیری داشته باشد.
البته هدف این محققان ساخت الگوریتمهای بازی ویدیویی بهتر نیست. یادگیری درباره کار تیمی هوش مصنوعی در نهایت به کاربرد این فناوری در ناوگانهای ماشین خودران میکند. حتی میتواند منجر به ساخت دستبار رباتیکی بشود که نیازهای جراحان در اتاق عمل را پیشبینی میکند!
اگر با خواندن این مطلب فکر میکنید رباتهای موفق در بازی ویدیویی در کار تیمی هم موفق خواهند بود، بیایید با مخالفانتان آشنا شوید. مارک ریدل یکی از محققان هوش مصنوعی در جورجیا تک یکی از آنهاست. او معتقد است علت موفقیت رباتها در بازیهای ویدیویی، قابلیت درک عمیق استراتژیها از سوی تک تک آنهاست. این لزوما نمیتواند به معنی مشارکت و همکاری باشد چون تیمهای هوش مصنوعی از یکی از عناصر حیاتی شبکههای انسانی محرومند: ارتباطات و همکاری آگاهانه و عمدی.
نظر شما درباره این موفقیت هوش مصنوعی دیپ مایند چیست؟ در اینکه موفقیت رباتها در بازیهای آنلاین و تیمی منجر به پیشرفت فناوری هوش مصنوعی میشود، شکی نیست. اما وسعت این پیشرفت را تا کجا پیشبینی میکنید؟
پاسخ دهید