‘स्टूडेंट ऑफ गेम्स’ विभिन्न प्रकार के खेलों में महारत हासिल करने वाला पहला एआई

शोधकर्ताओं ने पहला सामान्य प्रयोजन कृत्रिम बुद्धिमत्ता (एआई) एल्गोरिदम बनाया है जो विभिन्न प्रकार के खेलों में महारत हासिल कर सकता है – जिसे “स्टूडेंट ऑफ गेम्स” कहा जाता है।

गेम एल्गोरिदम आमतौर पर गो या शतरंज जैसे सूचना-परिपूर्ण गेम में महारत हासिल करने के लिए डिज़ाइन किए जाते हैं – जिसमें प्रत्येक खिलाड़ी के पास सभी जानकारी होती है – या पोकर जैसे सूचना-अपूर्ण गेम, जिसमें कुछ जानकारी अन्य खिलाड़ियों से छिपी होती है। ऐसा इसलिए है क्योंकि एल्गोरिदम को प्रशिक्षित करने की प्रक्रिया ऐतिहासिक रूप से दो प्रकार के खेलों के लिए भिन्न रही है: पहला खोज और सीखने का उपयोग करता है जबकि दूसरा गेम-सैद्धांतिक तर्क और सीखने का उपयोग करता है।

लेकिन साइंस एडवांसेज जर्नल में 15 नवंबर को प्रकाशित एल्गोरिदम का वर्णन करने वाले एक नए पेपर के अनुसार, नए स्टूडेंट ऑफ गेम्स एल्गोरिदम निर्देशित खोज, सेल्फ-प्ले लर्निंग और गेम-सैद्धांतिक तर्क को मिलाकर इस सीमा को पार कर जाता है।

जब परीक्षण किया गया, तो स्टूडेंट ऑफ गेम्स ने सूचना-परिपूर्ण शतरंज और गो, साथ ही सूचना-अपूर्ण टेक्सास होल्डम और स्कॉटलैंड यार्ड दोनों में अपना स्थान बनाया। हालाँकि, यह आमने-सामने के मुकाबलों में सर्वश्रेष्ठ, विशिष्ट एआई एल्गोरिदम को मात नहीं दे सका।

“यह और भी अधिक सामान्य एल्गोरिदम बनाने की दिशा में एक कदम है,” अध्ययन के प्रमुख लेखक और इक्विलीब्रे टेक्नोलॉजीज के सह-संस्थापक मार्टिन श्मिट ने लाइव साइंस को एक ईमेल में बताया।

“एक उपाय यह है कि कोई वास्तव में ऐसी तकनीक डिज़ाइन कर सकता है जो विशेष एल्गोरिदम के बजाय सही और अपूर्ण सूचना गेम दोनों के लिए काम कर सके। एक और दिलचस्प अवलोकन यह था कि महत्वपूर्ण कदमों में से एक नई औपचारिकता के साथ आना था, जो वास्तव में अनुमति देता है खोज आधारित एल्गोरिदम का सामान्य डिज़ाइन।”

गेम्स लंबे समय से एआई के क्षेत्र में प्रगति के लिए एक बेंचमार्क के रूप में काम करते रहे हैं। उदाहरण के लिए, 2016 में, डीपमाइंड के अल्फ़ागो ने एक पेशेवर मानव गो खिलाड़ी को हराया। अगले वर्ष, लाइब्रेटस प्रणाली ने 20-दिवसीय टेक्सास होल्डम टूर्नामेंट में दुनिया के सर्वश्रेष्ठ मानव पोकर खिलाड़ियों को हराया।

“गेम एक अच्छी तरह से परिभाषित बेंचमार्क हैं, और एआई प्रगति का एक लंबा इतिहास है जो गेम के लिए एआई में मील के पत्थर से जुड़ा हुआ है,” श्मिड ने समझाया। “खेलों को कभी-कभी एआई की फल मक्खियों के रूप में जाना जाता है, जो त्वरित विकास और क्रमिक प्रगति की अनुमति देता है।”

लेकिन सूचना-परिपूर्ण और अपूर्ण खेलों के बीच हमेशा एक विभाजन रहा है। इससे निजात पाने के लिए, टीम ने अपने सामान्य-उद्देश्य वाले एल्गोरिदम को ग्रोइंग-ट्री काउंटरफैक्टुअल रिग्रेट मिनिमाइजेशन (जीटी-सीएफआर) एल्गोरिदम के रूप में जाना जाता है, का उपयोग करके प्रशिक्षित किया, जो व्यापक रूप से उपयोग किए जाने वाले एल्गोरिदम का एक रूप है जिसमें एक एआई सिस्टम बार-बार खुद के खिलाफ खेलकर सीखता है।

टीम ने विभिन्न प्रकार के गेम-प्लेइंग एल्गोरिदम बनाने के लिए उपयोग की जाने वाली तकनीकों को संयोजित किया, अल्फ़ाज़ेरो से – अल्फ़ागो का एक अधिक उन्नत संस्करण – डीपस्टैक तक – टेक्सास होल्डम पोकर में मानव पेशेवरों को मात देने वाला पहला कंप्यूटर प्रोग्राम।

सूचना-परिपूर्ण श्रेणी में, टीम ने पाया कि स्टूडेंट ऑफ गेम्स ने मानव विशेषज्ञों या पेशेवरों के साथ-साथ अच्छा प्रदर्शन किया, लेकिन अल्फाज़ीरो जैसे विशेष एल्गोरिदम की तुलना में आमने-सामने के खेल में यह काफी कमजोर था।


R.O. No.12702/2
DPR ADs

Back to top button
रुपाली गांगुली ने करवाया फोटोशूट सुरभि चंदना ने करवाया बोल्ड फोटोशूट मौनी रॉय ने बोल्डनेस का तड़का लगाया चांदनी भगवानानी ने किलर पोज दिए क्रॉप में दिखीं मदालसा शर्मा टॉपलेस होकर दिए बोल्ड पोज जहान्वी कपूर का हॉट लुक नरगिस फाखरी का रॉयल लुक निधि शाह का दिखा ग्लैमर लुक