-चिन्मय गवाणकर (माहिती तंत्रज्ञान विशेषज्ञ)
नोव्हेंबर २०२२मध्ये चॅटजीपीटी नावाचे ‘खेळणे’ आपल्या आयुष्यात अवतरले आणि बघता बघता कृत्रिम बुद्धिमत्ता अर्थात AIचे तंत्रज्ञान विद्यापीठांच्या आणि तंत्रज्ञान कंपन्यांच्या प्रयोगशाळांमधून थेट प्रत्येक हातातल्या मोबाइल फोनमध्ये अवतरले. सर्वत्र एआयची चर्चा सुरू झाली. काहींनी सूर लावला, की सगळ्या नोकऱ्या आणि उद्योगधंदे हे AI खाऊन टाकेल! काहींचे मत होते की, एआयमुळे तर मानवाची उत्पादकता कितीतरी पटीने वाढेल! AIच्या धुमाकुळामुळे मानवी इतिहासातील पाचव्या औद्योगिक क्रांतीची सुरुवात झाली. प्रारंभी या AIच्या जगावर काही मूठभर अमेरिकन तंत्रज्ञान कंपन्यांचे राज्य होते. चॅटजीपीटीची पालक ओपन AI बरोबर भागीदारी करून आपल्या क्लाउडवर चॅट जीपीटी उपलब्ध करून देणारी मायक्रोसॉफ्ट, गुगलची पालक अल्फाबेट, या सर्व AI मॉडेल्सना ट्रेनिंगसाठी लागणाऱ्या स्पेशल कॉम्प्युटर चीप्स म्हणजे जीपीयू बनवणारी आणि गेल्या दीड वर्षात जिच्या शेअरची किंमत तब्ब आठपट वाढली ती NVIDIA; या अमेरिकन वर्चस्वाचे कारण होते अर्थातच त्यांच्याकडे असणारे राक्षसी भांडवल !
AIसाठी लागणाऱ्या लार्ज लँग्वेज मॉडेल्स (LLM) ना ‘शिकवायला’ हजारो कोटी रुपयांची गुंतवणूक करावी लागते. कारण, त्यासाठी भरपूर माहिती संच आणि विदा (डेटा), अजस्त्र जीपीयू सर्व्हर फार्म्स आणि उच्चशिक्षित मनुष्यबळ लागते, असे या कंपन्यांचे म्हणणे होते.
चॅटजीपीटीच्या मागे असणारे जीपीटी -४ LLM शिकवायला किमान १०० मिलियन डॉलर्स म्हणजे ८५० कोटी रुपये आणि गुगलचे जेमिनी अल्ट्रा मॉडेल शिकवायला १९१ मिलियन अमेरिकन डॉलर्स म्हणजे साधारण १७०० कोटी रुपये खर्च आला, असे म्हणतात.
ओपन AIचा संस्थापक सॅम अल्टमन २०२३मध्ये एका कार्यक्रमासाठी भारतात आला असताना त्याला प्रश्न विचारला गेला की, भारतातील हुशार अभियंते कमी खर्चात म्हणजे साधारण ८० -१०० कोटी रुपयांत असे मूलभूत LLM बनवू शकतील का?
- तेव्हा काहीशा प्रौढीने सॅम म्हणाला, ‘हे शक्यच नाही आणि भारताने त्या भानगडीत न पडता ‘आमची मॉडेल्स’ वापरून सॉफ्टवेअर अप्लिकेशन बनवावे!’
-त्यानंतर अवघ्या दोन वर्षात चिनी अभियंत्यांनी संशोधन करून त्यांचे ‘डीपसीक R -१’ हे संपूर्णपणे चिनी बनावटीचे ओपन सोर्स LLM बाजारात उतरवले! पण, या डीपसीकने अशी काय जादू केली, की अमेरिकेतील दिग्गज तंत्रज्ञान कंपन्यांची झोप उडाली आहे, शेअर बाजारात मोठी उलथापालथ झाली?
तेच आपण अधिक विस्ताराने समजून घेणं आवश्यक आहे.
तर मुख्य प्रश्न असा आहे की हे LLM बनतात कसे? आपण लहानपणी मुलांना सर्वप्रथम बाराखडी शिकवतो. मग शब्द बनवणे, मग वाक्यात उपयोग, त्यानंतर माध्यमिक शाळेत निबंध लेखन शिकवतो.
LLM ला मात्र असे टप्प्याटप्प्याने न शिकवता एकदम खूप मोठा डेटा, म्हणजे छापील मजकूर (टेक्स्ट) आणि प्रोग्रामिंग कोड दाखवला जातो आणि एकलव्यासारखे “हे बघ आणि शिक बाबा“ असे प्रोग्रॅम लिहिले जातात. म्हणजे LLM ला ‘माझी शाळा’ यावर निबंध लिहायला सांगितले, तर ते आधी इंटरनेटवरचे ‘माझी शाळा’चे हजारो निबंध वाचेल, त्यातून व्याकरण, वाक्यरचना, विषय कसा मांडावा, हे शिकेल आणि निबंध लिहील.
हे मॉडेल जितके मोठे तितके ते जास्त डेटा हाताळू शकते आणि म्हणूनच जास्त हुशार मानले जाते. असा लाखो ओळींचा इंटरनेटवर उपलब्ध असलेला डेटा जीपीटी ४ आणि जेमिनीसारख्या महाग अमेरिकन मॉडेल्समध्ये ‘भरलेला’ हे मॉडेल मग ‘सर्वज्ञ’ होते आणि तेच मॉडेल मग कविता करू शकते, लेख लिहू शकते, गणिते सोडवू शकते, पुस्तके अनुवादित करू शकते.
हे सगळे करायला खूप पैसा आणि खूपच उर्जा लागते! गुगलचे जेमिनी २५,००० जीपीयू वापरून शिकले आहे आणि असा एक जीपीयू किमान दोन लाख रुपयांचा असू शकतो. एका तासाच्या मॉडेल ट्रेनिंगसाठी १,३०० घरांना एका वर्षभर पुरेल इतकी उर्जा खर्च होते! हे LLM ट्रेन करायला खूप शक्तिशाली जीपीयू लागतात आणि NVIDIA चे जीपीयू या कामासाठी सर्वोत्तम मानले जातात.
अमेरिकेत AI मध्ये असे करोडो डॉलर्स ओतले जात असताना अमेरिकेने चीन आपल्या वरचढ होऊ नये म्हणून आधीच हे अत्याधुनिक जीपीयूच्या चीनला निर्यात करण्यावर बंदी घातली. त्यामुळे चिनी अभियंत्यांना जुन्या जीपीयूमध्ये काम चालवणे भाग होते. पण, गरज ही शोधाची जननी असते.
चीनच्या ‘डीपसीक’ने मॉडेल ट्रेनिंग करायची एक नवीन पद्धत शोधली, ज्याला Machine Learning Acceleration (MLA) म्हणतात. डीपसीकने या LLM ला कमी वेळात, कमी खर्चात शिकण्याचा शॉर्टकट शिकवला आहे. त्यांनी मॉडेलच्या ट्रेनिंगसाठी लागणाऱ्या संगणकीय शक्तीचा कार्यक्षमतेने वापर केला. हा शॉर्टकट डीपसीकने कसा शोधला?
ओपन सोर्स करता येईल म्हणजे 'सोर्स कोड' कुणालाही फुकट देता येईल इतके 'डीपसीक' Al स्वस्त आहे, हे आपण पाहिले. हे चीनला कसे जमले? एक उदाहरण घ्या! समजा, आजारी पडून तुम्ही रुग्णालयात गेलात. तिथे एकच सुपरस्पेशालिस्ट डॉक्टर असेल तर त्याला खूप वेळ आणि पैसे खर्च करून वर्षानुवर्षे अभ्यास करून वैद्यकशास्त्रातील सगळे ज्ञान शिकावे लागेल. मग रुग्णाला सर्दी झाली असो वा हृदयविकार, तो सारखीच महागडी फी घेईल.
समजा, तुम्हाला सर्दी-खोकला झालाय, तर हृदयरोगतज्ज्ञाची फी देण्याची गरज काय? कुणीही साधा फॅमिली डॉक्टर किरकोळ फी घेऊन तुम्हाला औषधे देऊ शकेलच की। अमेरिकन LLM हे असे आहे. AI ला 'शिकवण्या' साठी लार्ज लेंग्वेज मॉडेल्स (LLM) लागतात. अमेरिकन LLM कडे 'सर्वज्ञ' होण्याचा अट्टाहास असल्याने ही मॉडेल्स जास्त डेटा, जास्त ऊर्जा वापरून इंटरनेटवर उपलब्ध असलेल्या सर्व माहिती-संचात संचार करून उत्तरं घेऊन येतात. हे प्रकरण भलते महाग पडते. हा खर्च वसूल करण्यासाठी मग या कंपन्या आपली आज्ञावली अर्थात कोड गुपित ठेवतात.
डीपसीकने 'मिश्रण विशेषज्ञ' (Mixture of Experts) पद्धत वापरली. डीपसीकच्या तत्त्वावर चालणाऱ्या रुग्णालयामध्ये एक जनरल एमएमबीएस डॉक्टर, एक फिजिशियन, एखादा हाडवैद्यक, एखादा स्त्रीरोगतज्ज्ञ, एखादा मधुमेह स्पेशालिस्ट असे विविध डॉक्टरांचे मंडळ आहे. त्यांना एकाच क्षेत्रात शिकायचे असल्याने शिकण्यासाठी वेळ आणि खर्च कमी लागल्याने त्यांची फीसुद्धा कमी आहे. रुग्णाला कोणत्या 'एक्सपर्ट'कडे पाठवायचे हे फॅमिली डॉक्टर ठरवतो. हीच संकल्पना डीपसीकने आपल्या मॉडेल्सना शिकवायला आणि मॉडेल्सकडून कमी वेळात, कमी खर्चात उत्तरे मिळविण्यास वापरली. फक्त २०४८ जीपीयू वापरून फक्त ४८ कोटी रुपयांत डीपसिक R-१ हे मॉडेल बनवले, जे तगड्या अमेरिकन मॉडेल्सएवढेच अचूक आणि विचारपूर्वक उत्तरे देते. ते गुगलच्या ३५ पट स्वस्त आणि ओपन AI च्या १६ पट स्वस्त आहे.
डीपसीकने हे मॉडेल चक्क ओपन सोर्स म्हणजे जगभरच्या संशोधकांना फुकट उपलब्ध करून दिले आहे. कुणीही संशोधक त्यांचा सोर्स कोड वापरून आपले अॅप्लिकेशन बनवू शकतो. हे मॉडेल ओपन सोर्स असल्यामुळे लहान स्टार्टअप्स आणि संशोधकांना LLM च्या क्षेत्रात काम करण्याची संधी मिळू शकते. यामुळे एखादा छोटा व्यवसाय स्वतःच्या गरजेनुसार 'टेलर मेड' LLM स्वस्तात तयार करू शकेल, एखादा डॉक्टर आपल्या रुग्णांच्या डेटावर आधारित AI टूल बनवू शकेल किंवा एखादा शिक्षक आपल्या विद्यार्थ्यांसाठी खास शैक्षणिक साहित्य तयार करू शकेल.
यामुळे वेगवेगळ्या क्षेत्रांमध्ये AI चा वापर वाढेल आणि नवनवीन कल्पनांना चालना मिळेल. डीपसीकच्या स्वस्तातल्या ओपन सोर्स मॉडेलची अचूकता साधारण मोठ्या मॉडेल्सएवढी आहे. हाच AI संशोधनातील खूप महत्त्वाचा मैलाचा दगड आहे. डीपसीकचे मूळ चीनमध्ये असल्याने त्यांच्या 'बोलविता धन्या'बद्दल कुजबुज सुरू झाली आहे. त्यांचा विदा संग्रह नक्की त्यांनी कुठून घेतला याबद्दल जगभरात मतमतांतरे आहेत. चीन सरकारसाठी 'अडचणी'च्या असणाऱ्या विषयांवर सध्या डीपसीकचा चॅट बॉट 'अर्थपूर्ण मौन' बाळगतोय (डीपसीकला मी स्वतः तिआनमेन चौकात १९८९ साली काय झाले, असे विचारले तेव्हा त्याने उत्तर दिले नाही). डीपसीकच्या मागे हा चीन सरकारचा 'अदृश्य हात' असल्याने त्याचा वापर चीनबाहेर खरोखर होईल का, किती आणि त्यांना दिलेली विदा चिनी परिप्रेक्ष्यामध्ये सुरक्षित राहील का, या प्रश्नांची उत्तरे येणारा काळच देईल.
भारताने मात्र यातून खूप काही शिकले पाहिजे. स्वदेशी क्रायोजनिक इंजिन, स्वदेशी अणुभट्टी, स्वदेशी परम महासंगणक बनविणाऱ्या आणि हॉलिवूड सिनेमाच्या बजेटच्या १० टक्के खर्चात मंगळावर स्वारी करणाऱ्या भारतीय अभियंत्यांनी मनात आणले तर त्यांना काहीही अशक्य नाही!
ता.क.: अलीबाबा या दुसऱ्या तगड्या चिनी कंपनीने आपले क्वेन २.५ मॅक्स हे LLM जाहीर केले जे डीपसीकच्या तत्त्वावर चालते आणि डीपसीकपेक्षा अचूक आहे असा त्यांचा दावा आहे! म्हणजे ही शर्यत आता अजून रंजक होणार!Chinmaygavankar@gmail.com