मशीनी अनुवाद की पद्धतियां / प्रविधियां

मशीनी अनुवाद कंप्यूटर साॅफ्टवेयर द्वारा किया जाने वाला अनुवाद है और मशीनी अनुवाद प्रणाली एक कंप्यूटर प्रोग्राम है जो ‘इनपुट’ के तौर पर स्रोतभाषा का पाठ लेता है और उसका लक्ष्यभाषा के पाठ में अनूदित परिणाम (आउटपुट) देता है। यह स्पष्ट है कि मशीनी अनुवाद के मुख्य मुद्दे एक मशीन अर्थात् कंप्यूटर प्रोग्राम को प्राकृतिक भाषा समझने में सक्षम बनाने से संबंधित हैं।

मशीनी अनुवाद की पद्धतियां

भारत एक बहुभाषिक देश होने के चलते इसमें भाषाई विकास के लिए देश तथा विदेश में विविध प्रयास किए जा रहे हैं। इसका प्रतिफल है कि आज इन भाषाओं में कई मशीनी अनुवाद तंत्रों का निर्माण किया गया ताकि मनुष्य किसी भी सूचना को तुंरत प्राप्त कर सकें तथा उसका अनुवाद किसी भी भाषा में पढ़ सकें। इसके लिए मशीनी अनुवाद आज बहुत कारगर साबित हुआ है। मुख्यत मशीनी अनुवाद कृत्रिम बुद्धि और प्राकृतिक भाषा संसाधन का क्षेत्र है, जिसमें एक भाषा से दूसरी भाषा में अनुवाद के लिए कंप्यूटर का प्रयोग किया जाता है। आज अनुवाद के लिए कई मशीनी अनुवाद के तंत्र विकसित हुए है। लेकिन यह अनुवाद तंत्र अनुवाद करने के लिए पूर्णतया सफल नहीं है, इनसे अनुवाद में अक्सर गलतियाँ होती है।

अनुवाद केवल एक भाषा से दूसरे भाषा में रूपांतरण ही नहीं है बल्कि उसमें मूल भाषा के कथ्य का संप्रेषण लक्ष्य भाषा में होना चाहिए साथ ही अनुवाद बोधगम्य और अच्छी गुणवत्ता का होना चाहिए। इसलिए अनुवाद की गुणवत्ता को जाँचने के लिए कुछ मूल्यांकन पद्धतियों का विकास किया गया है।

वर्तमान में स्वचालित मूल्यांकन पद्धतियों का प्रयोग अधिक किया जा रहा है। विभिन्न प्रकार की कंप्यूटर अनुवाद पद्धतियों की विविधताओं ने मानव-मशीन सहयोग के स्वरूप और सीमा को उभारा है। अपनी कतिपय सीमाओं के बावजूद ये कंप्यूटर अनुवाद पद्धतियाँ सार्थक हैं। इन पद्धतियों ने वस्तुतः मानव-मशीन सहयोग की अवधारणा को पुष्ट किया है। ये पद्धतियाँ मानव-अनुवादक का परिश्रम और समय बचाती हैं तथा अपेक्षाकृत तीव्र गति से अनुवाद संभव बनाती हैं। इनकी सहायता से मनुष्य की अनुवाद क्षमता में अभिवृद्धि होती है। इन विविध प्रकार की मशीनी अनुवाद पद्धतियों को विकसित करने का मुख्य उद्देश्य यह रहा है कि कंप्यूटर की सहायता से किया गया अनुवाद अर्थ के स्तर पर ज्यादा समतुल्य हो और समुचित अर्थ संप्रेषण की दृष्टि से सार्थक सिद्ध हो। ऐसे में स्रोतभाषा सामग्री का लक्ष्यभाषा में सहज-स्वाभाविक भाव-संप्रेषण ही अनुवाद की यथातथ्यता और गुणवत्ता का आधार बन जाता है। इस कसौटी पर किसी भी मशीन अनुवाद प्रणाली की गुणवत्ता इस आधार पर आँकी जा सकती है कि वह कितनी तीव्र गति से और परिशुद्धता के साथ अनुवाद रूपी आउटपुट देने के साथ-साथ कितनी प्रयोक्ता-सहज है।

कंप्यूटर अनुवाद प्रणाली के क्रमिक विकास का अवलोकन मुख्य रूप से (1) प्रारंभिक और (2) आधुनिक चरणों के रूप में किया जा सकता है। प्रारंभिक चरण के अंतर्गत उन पद्धतियों का उल्लेख किया जाता है जिन्हें अनुसंधानकर्ताओं ने क्रमिक रूप में शुरू में अपनाया था। ये हैं -

प्रत्यक्ष मशीनी अनुवाद पद्धति (direct machine translation method)
अंतरण मशीनी अनुवाद पद्धति और (transfer machine translation method)
अंतरभाषिक मशीनी अनुवाद पद्धति’’ (interlingual machine translation method)

1. प्रत्यक्ष मशीनी अनुवाद-पद्धति

प्रत्यक्ष मशीनी अनुवाद पद्धति को ‘‘साक्षात् पद्धति’’ भी कहा जाता है। इसमें पद-निरूपण (पार्सिंग) सिद्धांतों अथवा भाषायी सैद्धांतिक विश्लेषण आदि की कोई खास जरूरत नहीं होती। इसमें वस्तुतः किसी विशिष्ट भाषा वैज्ञानिक सिद्धांत का सहारा न लेकर स्रोतभाषा सामग्री का विश्लेषण करने के बाद उसके शब्दों के स्थान पर लक्ष्यभाषा के वाक्य-विन्यास के अनुरूप शब्दों को संयोजित किया जाता है। इस पद्धति के मूल में यह धारणा निहित है कि वांछित दो भाषाओं (स्रोतभाषा और लक्ष्यभाषा) को कंप्यूटर द्वारा सीधे जोड़कर उनमें परस्पर अनुवाद करने का प्रयत्न किया जाता है। यदि उन दो भाषाओं से भिन्न भाषाओं के बीच कंप्यूटर के जरिए अनुवाद करने की आवश्यकता है तो तंत्र को उस रूप में परिवर्तित कर दिया जाता है।

इस पद्धति को मूलतः डाॅ. टोमा ने 1964 में विकसित किया था। इसे जाॅर्जटाउन विश्वविद्यालय द्वारा रूसी-अंग्रेजी अनुवाद के संदर्भ में विकसित किया गया था। इसकी गति 3,00,000 शब्द प्रति घंटे की थी। इस पद्धति में मूलतः इन दोनों भाषाओं के शब्दकोशों में उपलब्ध जानकारी, शब्द-रचना के स्थूल नियमों और स्थूल वाक्य-साँचों को आधार बनाया गया था। इसमें व्याकरणिक नियमों का समावेश नहीं था। इसके अलावा, पद-निरूपण (पार्सर) का विधान भी इसमें नहीं था। इसलिए इस विधि से प्राप्त अनुवाद अधिकांशतः मात्रा शाब्दिक अथवा कृत्रिम अनुवाद होता था। शाब्दिक अथवा कृत्रिम अनुवाद के कारण इसमें कई बार अर्थ का अनर्थ होने की संभावना रहती थी। बाद में इस पद्धति का और अधिक विकास हुआ।

प्रत्यक्ष मशीनी अनुवाद पद्धति के आधार पर 1964 में जाॅर्जटाउन विश्वविद्यालय ने रूसी-अंग्रेजी अनुवाद तंत्र GAT का विकास हुआ। इसी अनुवाद-तंत्र का परिष्कृत रूप ‘‘सिस्ट्राॅन’’ (SYSTRAN) पद्धति के रूप में 1976 में विकसित हुआ। इस अनुवाद-तंत्र की सहायता से ‘‘नासा’’ ने अपोलो-सोयूज सहयोग से संबंधित सामग्री को अनूदित किया था। यह विश्व का सर्वप्रथम व्यावसायिक मशीनी अनुवाद-तंत्र था।

प्रत्यक्ष मशीनी अनुवाद पद्धति के आधार पर हांगकांग के चीनी विश्वविद्यालय ने 1968 में ‘‘कल्ट’’ (CULT) नामक मशीनी अनुवाद-तंत्र को भी विकसित किया। इस अनुवाद-तंत्र की सहायता से गणित एवं भौतिकी विषयक चीनी शोधपत्र का अंग्रेजी अनुवाद किया गया। प्रत्यक्ष मशीनी अनुवाद पद्धति पर आधारित इन दोनों अनुवाद-तंत्रों (सिस्ट्राॅन और कल्ट) के अलावा टाइटस एवं लोगोस का नाम विशेष तौर पर उल्लेखनीय है।

इस पद्धति में स्रोतभाषा और लक्ष्यभाषा के पर्यायों को शामिल किया जाता है। यह मशीनी अनुवाद प्रणाली मुख्य रूप से तीन कारकों पर आधारित होती है। ये हैं - (1) उच्च-स्तरीय गुणवत्ता वाले कंप्यूटर कोश और रूपपरक विश्लेषण (2) अंतिम पाठ तैयार होने से पूर्व कच्चे अनुवाद का मानव-अनुवादक द्वारा पश्च संपादन और (3) पश्च संपादन और शब्दकोश नियंत्रण के लिए विकसित शब्द और पाठ संसाधक उपकरण (साॅफ्टवेयर)। इस प्रत्यक्ष मशीनी अनुवाद पद्धति में अनूद्य पाठ के प्रत्येक वाक्य को करीब 10 चरणों से गुजारा जाता है। इनमें से प्रत्येक चरण कुछ इस प्रकार का होता है कि पहला चरण दूसरे के लिए आधारभूत सामग्री प्रदान करता है यानी प्रत्येक चरण का ‘आउटपुट’ अगले चरण का ‘इनपुट’ होता है। इसे यों भी कह जा सकते हैं कि प्रत्येक चरण का आउटपुट अपने पूर्ववर्ती चरण की प्रक्रिया का परिणाम होता है। इस प्रकार सभी चरण एक-दूसरे पर परस्पर निर्भर होते हैं। कंप्यूटर में विकसित इस शब्दकोश को ‘कंप्यूटर आधारित शब्दकोश’ भी कहा जाता है। इस पद्धति में सर्वप्रथम अनुवाद किए जाने वाले पाठ वाक्य का कंप्यूटर में प्रविष्टिकरण किया जाता है। उसके बाद प्रविष्ट वाक्य जिन अवस्थाओं से गुजरता है, वे प्रमुख रूप से इस प्रकार हैं

स्रोतभाषा पाठ के लिए कोश देखना और उसका रूपपरक विश्लेषण।
समरूपों अथवा समलेखों की पहचान और उनका अर्थ निर्धारण।
संयुक्त/यौगिक संज्ञाओं ;ब्वउचवनदक दवनदेद्ध की पहचान।
संज्ञा पदबंध एवं क्रिया पदबंध की पहचान।
मुहावरों का विश्लेषण और उनके लिए सही पर्यायों की तलाश।
पूर्वसर्गों अथवा संबंधबोधकों के लिए सही पर्यायों की पहचान।
उद्देश्य एवं विधेय की पहचान।
वाक्यपरक द्विअर्थकता अथवा अनेकार्थता की पहचान।
स्रोतभाषा पाठ का लक्ष्यभाषा में संश्लेषण और उसकी रूपपरक संरचना को संसाधित करना।
शब्दों और पदबंधों का लक्ष्यभाषा में सही क्रम (वाक्यों के रूप) में संयोजन।

2. अंतरण मशीनी अनुवाद-पद्धति

कंप्यूटर-विज्ञानियों ने 19वीं शताब्दी के सत्तर के दशक के अंत में अंतरण मशीनी अनुवाद पद्धति का प्रयोग करना शुरू किया। इस पद्धति के अंतर्गत पद-विच्छेद करते हुए स्रोतभाषा के प्रत्येक शब्द की व्याकरणिक कोटि को निर्धारित करके उसके वाक्यों की आंतरिक संरचना का गठन किया जाता है। इसके बाद दोनों स्तरों -- शब्द और संरचना -- पर अंतरण की प्रक्रिया का आश्रय लिया जाता है। अंतरण मशीनी अनुवाद पद्धति के अंतर्गत अनुवाद की प्रक्रिया तीन चरणों से होकर गुजरती है। ये हैं - (1) विश्लेषण (2) अंतरण और (3) पुनर्गठन।

प्रत्यक्ष मशीनी ‘अनुवाद पद्धति’ की तुलना में ‘‘अंतरण पद्धति’’ बेहतर परिणाम उपलब्ध कराती है, क्योंकि प्रत्यक्ष मशीनी अनुवाद पद्धति में अनूद्य पाठ की संरचनात्मक जानकारी का उपयोग नहीं होता। ‘‘प्रत्यक्ष मशीनी अनुवाद पद्धति’’ और ‘‘अंतरण मशीनी अनुवाद पद्धति’’ में मूलभूत अंतर यही है कि पहली विधि में व्याकरण संबंधी सूचनाओं का उपयोग नहीं होता, जबकि दूसरी विधि में उनकी भूमिका अत्यधिक महत्वपूर्ण होती है। प्रत्यक्ष अनुवाद पद्धति में अनुवाद शाब्दिक होता है, क्योंकि इसमें अंतरण एक कोशीय प्रक्रिया है जो विश्लेषण और पुनर्गठन से भिन्न नहीं। विश्लेषण-पुनर्गठन के आधार पर बेहतर प्रस्तुति का प्रयास नहीं होता, जबकि अंतरण विधि में इसका अपना अलग अस्तित्व होता है। यही कारण है कि अंतरण पद्धति काफी लोकप्रिय हुई है।

विश्लेषण परिणाम अनुवाद प्रस्तुति (लक्ष्यभाषा पाठ) पुनर्गठन प्रक्रिया अंतरण प्रक्रिया विश्लेषित द्वारा स्रोतभाषा पाठ विश्लेषण अंतरण मशीनी अनुवाद पद्धति के आधार पर 1977 में टाॅम मेटो नामक एक मशीनी तंत्र विकसित किया गया। इस मशीनी अनुवाद तंत्र को मौसम संबंधी जानकारी का अंग्रेजी से फ्रांसीसी में अनुवाद करने के लिए कनाडा के मांट्रियल विश्वविद्यालय में विकसित किया था। यह तंत्र आज भी कार्यरत है। इसलिए इस अनुवाद पद्धति को आज भी विश्व की अत्यंत सफल पद्धतियों में माना जाता है। यह पूर्णतः स्वचालित मशीनी अनुवाद तंत्र है। इस तंत्र की आधारभूत शब्दावली बहुत सीमित है। इसमें लगभग 1500 शब्दों की प्रविष्टियाँ है। इन शब्दों में से भी आधे शब्द वास्तव में स्थानों के नाम हैं। वाक्य संरचनाएँ सरल और सीमित हैं। इसमें अनेकार्थकता की संभावना बिल्कुल नहीं है यानी प्रत्येक शब्द का अर्थ सुनिश्चित है। सीमित परिवेश, शब्दावली और वाक्य-विन्यास के कारण ही संभवतः यह पूर्णतः स्वचालित मशीनी अनुवाद पद्धति के रूप में सफल सिद्ध हुई है और इसे एक सफल अनुवाद तंत्र माना जाता है। इस सीमित किंतु स्वचालित मशीनी अनुवाद तंत्र की सफलता से प्रोत्साहित होकर एक व्यापक विषय ‘‘एविएशन’’ को लेकर भी अनुवाद तंत्र विकसित करने का प्रयास किया गया, किंतु विषय की व्यापकता के कारण यह मशीनी अनुवाद तंत्र सफल नहीं हो पाया। इसके अलावा, मांट्रियल विश्वविद्यालय ने टाॅम-71, टाॅम-73, टाॅम-76 नामक प्रायोगिक पद्धतियाँ भी विकसित की गई थीं।

इस अंतरण मशीनी अनुवाद पद्धति में और भी नई-नई कंप्यूटर पद्धतियाँ विकसित हुई हैं।

3. अंतरभाषिक मशीनी अनुवाद पद्धति

अंतरभाषिक मशीनी अनुवाद पद्धति का ‘अंतरण मशीनी अनुवाद पद्धति’ के विकल्प के रूप में विकास हुआ है। ‘मध्यस्थ भाषा’ इस पद्धति का सर्वाधिक महत्वपूर्ण अंग है। इस पद्धति में स्रोतभाषा और लक्ष्यभाषा के बीच एक अन्य ‘मध्यस्थ भाषा’ का सृजन किया जाता है। इस मध्यस्थ भाषा को ‘सार्वभौम भाषा’, ‘इंटरलिंगुआ’ अथवा ‘अंतरभाषा’ भी कहा जाता है। नियम आधारित मशीन अनुवाद प्रतिमान के अंतर्गत यह अंतरभाषिक मशीनी अनुवाद पद्धति, प्रत्यक्ष मशीनी अनुवाद और अंतरण मशीनी अनुवाद पद्धति का विकल्प है।

अंतरभाषिक मशीनी अनुवाद पद्धति के अनुसार स्रोतभाषा के पाठ या वाक्य को लक्ष्यभाषा के स्थान पर पहले मध्यस्थ भाषा से जोड़ा जाता है यानी स्रोतभाषा के पाठ या वाक्य को विश्लेषित करके मध्यस्थ भाषा में प्रस्तुत किया जाता है। यह मध्यस्थ भाषा सामान्य मानक भाषा न होकर औपचारिक गणितीय भाषा होती है। मध्यस्थ भाषा सभी भाषाओं के बीच आम मध्यस्थ का काम करती है। इसके लिए पहले प्रत्येक भाषा की समझ जरूरी है। उसके बाद ही उस समझ को मध्यस्थ भाषा में प्रस्तुत किया जाता है। भाषा-सर्जक मध्यस्थ भाषा के प्रस्तुतीकरण को लक्ष्यभाषा के पाठ या वाक्य में बदल देता है। इस तरह की व्यवस्था में भाषा-विश्लेषक और भाषा-सर्जक दो भिन्न-भिन्न स्थितियों से जुड़े होते हैं।

कहने का अभिप्राय यह है कि इस अनुवाद पद्धति में स्रोतभाषा के अर्थ का मध्य भाषा में निरूपण करते हुए इस निरूपित अर्थ को लक्ष्यभाषा की अभिव्यक्तियों के रूप में संयोजित-संश्लेषित किया जाता है। यह मध्यस्थ भाषा इस प्रकार की होनी चाहिए कि किसी भी स्रोतभाषा की उपलब्ध सामग्री के अर्थ का पूरी तरह से और सही-सही अर्थ निरूपित कर सके।

यहाँ यह संकेत करना उपयुक्त प्रतीत होता है कि मध्यस्थ भाषा कोई भाषा-विशेष न होकर एक किसी भाषा-निरपेक्ष भाषा होती है जिसमें विश्व-ज्ञान को अवधारणाओं को प्रतीकों के रूप में निरूपित किया जाता है। इन अवधारणाओं की कई कोटियाँ होती हैं और उनका अपना एक निश्चित पदक्रम होता है। ये कोटियाँ जाति-सदस्य संबंध, अंग-अंगी संबंध आदि कई प्रकार के संबंधों से परस्पर जुड़ी रहती हैं। उदाहरण के लिए, हाथ और शरीर का, सूँड और हाथी का, जड़ और पेड़ का अंग-अंगी संबंध। विश्व-ज्ञान का निरूपण और कोटिकरण करने के संबंध में एकाधिक विधियाँ हो सकती हैं, किंतु प्रत्येक कोटि को अर्थपरक लक्षणों के रूप में प्रस्तुत किया जाता है।

मशीनी अनुवाद की प्रविधियां

तकनीकों के आधार पर इन्हें मुख्यतः चार वर्गों में बाँटा जा सकता है:

प्रत्यक्ष अनुवाद
नियम आधारित,
काॅर्पस आधारित और
हाइब्रिड तकनीक।

1. प्रत्यक्ष अनुवाद

प्रत्यक्ष अनुवाद को नियम आधारित पद्धति का आरंभिक चरण भी कहा जा सकता है। यह मशीनी अनुवाद की प्रथम पीढ़ी थी। इसमें अनुवाद प्रक्रिया को कुछ चरणों में तोड़ा जाता है और प्रत्येक चरण एक निर्दिष्ट कार्य करता है। इस पद्धति में वाक्य स्तर की ‘पार्सिंग’ नहीं होती है और शब्द से शब्द स्तर का अनुवाद द्विभाषिक शब्दकोश के प्रयास से होता है। यह बहुत ही सतही रूपात्मक-वाक्यात्मक विश्लेषण करता है।

2. नियम आधारित पद्धति

नियम आधारित पद्धति भाषा व्याकरण के नियमों का प्रयोग कर स्रोतपाठ का विश्लेषण करने और लक्ष्यभाषा के व्याकरणिक नियमों के आधार पर लक्ष्य भाग को निर्मित करने का समर्थन करती है। प्रत्यक्ष अनुवाद या शब्दकोश आधारित अनुवाद प्रक्रिया को नियम आधारित अनुवाद पद्धति के आरंभिक चरण के रूप में देखा जाता है।

नियम आधारित प्रणाली शाब्दिक, वाक्यगत, अर्थगत और व्यावहारिक रीतियों में स्रोतभाषा का विश्लेषण करती है। इसमें रूपात्मक विश्लेषण, पाठ की पदव्याख्या, अर्थ स्पष्टता, ‘नामक’ तत्व की पहचान, बहु-संदेश अभिव्यक्तियों की पहचान और विश्व ज्ञान एवं व्यावहारिकता आदि सम्मिलित हैं। ठीक उसी प्रकार लक्ष्य पक्ष उत्पादन अर्थात् विश्लेषण का विपर्याय किया जाता है। उत्पादक पक्ष में परंपरागत रूप से पदव्याख्या वृक्ष-अंतरण (ज्तमम.जतंदेमित), रूपात्मक संश्लेषण, नामक तत्वों, प्रथमाक्षरों से और बहु-संदेश अभिव्यक्तियों का अनुवाद या लिप्यंतरण, शाब्दिक अंतरण आदि के माध्यम से समतुल्य उत्पादन सम्मिलित है। इन दो महत्वपूर्ण चरणों (विश्लेषण और उत्पादन) के बीच एक मध्यस्थ प्रतीकात्मक निरूपण उत्पादित होता है। मध्यस्थ निरूपण की प्रकृति के आधार पर इस पद्धति को अंतरभाषिक मशीन अनुवाद या अंतरण आधारित मशीन अनुवाद कहा जाता है। नियम आधारित पद्धति रूपात्मक, वाक्यगत और अर्थगत जानकारी के साथ विस्तृत शब्दकोशों का प्रयोग करती है और नियमों के विस्तृत ढाँचे इसमें सहायता करते हैं।

3. काॅपॅस आधारित या प्रयोगाश्रित पद्धति

काॅर्पस आधारित पद्धति अनुवाद प्रस्तुत करने के लिए पूर्व अनूदित सामग्री के प्रयोग या सादृश्य के प्रयोग का समर्थन करता है।

4. हाइब्रिड मशीनी अनुवाद पद्धति

हाइब्रिड पद्धति मध्यम रास्ता अपनाती है और नियम आधारित और काॅर्पस आधारित दोनों पद्धतियों का लाभ लेने का प्रयास करती है। समय और शोधों के साथ यह सिद्ध हो चुका है कि कोई भी एक पद्धति पूर्ण मशीन अनुवाद अनुवाद के उद्देश्य तक नहीं पहुँच सकी है। हाइब्रिड मशीन अनुवाद (एच.एम.टी.) सांख्यिकीय और नियम आधारित अनुवाद की कार्यविधि की शक्तियों का प्रयोग करती है। विभिन्न एम.टी कंपनियाँ अपने प्रयास को इस ओर ले जा रही हैं। उदाहरण के लिए, एशिया आनलाइन और सिस्ट्राॅन नियम और सांख्यिकीय दोनों का प्रयोग करने वाली हाईब्रिड पद्धति विकसित करने का दावा करते हैं।

मशीनी अनुवाद की पद्धतियां / प्रविधियां