मशीनी अनुवाद की पद्धतियां / प्रविधियां | Methods / techniques of Machine Translation in hindi

मशीनी अनुवाद कंप्यूटर साॅफ्टवेयर द्वारा किया जाने वाला अनुवाद है और मशीनी अनुवाद प्रणाली एक कंप्यूटर प्रोग्राम है जो ‘इनपुट’ के तौर पर स्रोतभाषा का पाठ लेता है और उसका लक्ष्यभाषा के पाठ में अनूदित परिणाम (आउटपुट) देता है। यह स्पष्ट है कि मशीनी अनुवाद के मुख्य मुद्दे एक मशीन अर्थात् कंप्यूटर प्रोग्राम को प्राकृतिक भाषा समझने में सक्षम बनाने से संबंधित हैं। 

मशीनी अनुवाद की पद्धतियां (Methods of Machine Translation)

भारत एक बहुभाषिक देश होने के चलते इसमें भाषाई विकास के लिए देश तथा विदेश में विविध प्रयास किए जा रहे हैं। इसका प्रतिफल है कि आज इन भाषाओं में कई मशीनी अनुवाद तंत्रों का निर्माण किया गया ताकि मनुष्य किसी भी सूचना को तुंरत प्राप्त कर सकें तथा उसका अनुवाद किसी भी भाषा में पढ़ सकें। इसके लिए मशीनी अनुवाद आज बहुत कारगर साबित हुआ है। मुख्यत मशीनी अनुवाद कृत्रिम बुद्धि और प्राकृतिक भाषा संसाधन का क्षेत्र है, जिसमें एक भाषा से दूसरी भाषा में अनुवाद के लिए कंप्यूटर का प्रयोग किया जाता है। आज अनुवाद के लिए कई मशीनी अनुवाद के तंत्र विकसित हुए है। लेकिन यह अनुवाद तंत्र अनुवाद करने के लिए पूर्णतया सफल नहीं है, इनसे अनुवाद में अक्सर गलतियाँ होती है। 

अनुवाद केवल एक भाषा से दूसरे भाषा में रूपांतरण ही नहीं है बल्कि उसमें मूल भाषा के कथ्य का संप्रेषण लक्ष्य भाषा में होना चाहिए साथ ही अनुवाद बोधगम्य और अच्छी गुणवत्ता का होना चाहिए। इसलिए अनुवाद की गुणवत्ता को जाँचने के लिए कुछ मूल्यांकन पद्धतियों का विकास किया गया है। 

वर्तमान में स्वचालित मूल्यांकन पद्धतियों का प्रयोग अधिक किया जा रहा है। विभिन्न प्रकार की कंप्यूटर अनुवाद पद्धतियों की विविधताओं ने मानव-मशीन सहयोग के स्वरूप और सीमा को उभारा है। अपनी कतिपय सीमाओं के बावजूद ये कंप्यूटर अनुवाद पद्धतियाँ सार्थक हैं। इन पद्धतियों ने वस्तुतः मानव-मशीन सहयोग की अवधारणा को पुष्ट किया है। ये पद्धतियाँ मानव-अनुवादक का परिश्रम और समय बचाती हैं तथा अपेक्षाकृत तीव्र गति से अनुवाद संभव बनाती हैं। इनकी सहायता से मनुष्य की अनुवाद क्षमता में अभिवृद्धि होती है। इन विविध प्रकार की मशीनी अनुवाद पद्धतियों को विकसित करने का मुख्य उद्देश्य यह रहा है कि कंप्यूटर की सहायता से किया गया अनुवाद अर्थ के स्तर पर ज्यादा समतुल्य हो और समुचित अर्थ संप्रेषण की दृष्टि से सार्थक सिद्ध हो। ऐसे में स्रोतभाषा सामग्री का लक्ष्यभाषा में सहज-स्वाभाविक भाव-संप्रेषण ही अनुवाद की यथातथ्यता और गुणवत्ता का आधार बन जाता है। इस कसौटी पर किसी भी मशीन अनुवाद प्रणाली की गुणवत्ता इस आधार पर आँकी जा सकती है कि वह कितनी तीव्र गति से और परिशुद्धता के साथ अनुवाद रूपी आउटपुट देने के साथ-साथ कितनी प्रयोक्ता-सहज है।

कंप्यूटर अनुवाद प्रणाली के क्रमिक विकास का अवलोकन मुख्य रूप से (1) प्रारंभिक और (2) आधुनिक चरणों के रूप में किया जा सकता है। प्रारंभिक चरण के अंतर्गत उन पद्धतियों का उल्लेख किया जाता है जिन्हें अनुसंधानकर्ताओं ने क्रमिक रूप में शुरू में अपनाया था। ये हैं - 
  1. प्रत्यक्ष मशीनी अनुवाद पद्धति (direct machine translation method)
  2. अंतरण मशीनी अनुवाद पद्धति और (transfer machine translation method)
  3. अंतरभाषिक मशीनी अनुवाद पद्धति’’ (interlingual machine translation method)

1. प्रत्यक्ष मशीनी अनुवाद-पद्धति (Direct machine translation method)

प्रत्यक्ष मशीनी अनुवाद पद्धति को ‘‘साक्षात् पद्धति’’ भी कहा जाता है। इसमें पद-निरूपण (पार्सिंग) सिद्धांतों अथवा भाषायी सैद्धांतिक विश्लेषण आदि की कोई खास जरूरत नहीं होती। इसमें वस्तुतः किसी विशिष्ट भाषा वैज्ञानिक सिद्धांत का सहारा न लेकर स्रोतभाषा सामग्री का विश्लेषण करने के बाद उसके शब्दों के स्थान पर लक्ष्यभाषा के वाक्य-विन्यास के अनुरूप शब्दों को संयोजित किया जाता है। इस पद्धति के मूल में यह धारणा निहित है कि वांछित दो भाषाओं (स्रोतभाषा और लक्ष्यभाषा) को कंप्यूटर द्वारा सीधे जोड़कर उनमें परस्पर अनुवाद करने का प्रयत्न किया जाता है। यदि उन दो भाषाओं से भिन्न भाषाओं के बीच कंप्यूटर के जरिए अनुवाद करने की आवश्यकता है तो तंत्र को उस रूप में परिवर्तित कर दिया जाता है। 

इस पद्धति को मूलतः डाॅ. टोमा ने 1964 में विकसित किया था। इसे जाॅर्जटाउन विश्वविद्यालय द्वारा रूसी-अंग्रेजी अनुवाद के संदर्भ में विकसित किया गया था। इसकी गति 3,00,000 शब्द प्रति घंटे की थी। इस पद्धति में मूलतः इन दोनों भाषाओं के शब्दकोशों में उपलब्ध जानकारी, शब्द-रचना के स्थूल नियमों और स्थूल वाक्य-साँचों को आधार बनाया गया था। इसमें व्याकरणिक नियमों का समावेश नहीं था। इसके अलावा, पद-निरूपण (पार्सर) का विधान भी इसमें नहीं था। इसलिए इस विधि से प्राप्त अनुवाद अधिकांशतः मात्रा शाब्दिक अथवा कृत्रिम अनुवाद होता था। शाब्दिक अथवा कृत्रिम अनुवाद के कारण इसमें कई बार अर्थ का अनर्थ होने की संभावना रहती थी। बाद में इस पद्धति का और अधिक विकास हुआ।

प्रत्यक्ष मशीनी अनुवाद पद्धति के आधार पर 1964 में जाॅर्जटाउन विश्वविद्यालय ने रूसी-अंग्रेजी अनुवाद तंत्र GAT का विकास हुआ। इसी अनुवाद-तंत्र का परिष्कृत रूप ‘‘सिस्ट्राॅन’’ (SYSTRAN) पद्धति के रूप में 1976 में विकसित हुआ। इस अनुवाद-तंत्र की सहायता से ‘‘नासा’’  ने अपोलो-सोयूज सहयोग से संबंधित सामग्री को अनूदित किया था। यह विश्व का सर्वप्रथम व्यावसायिक मशीनी अनुवाद-तंत्र था। 

प्रत्यक्ष मशीनी अनुवाद पद्धति के आधार पर हांगकांग के चीनी विश्वविद्यालय ने 1968 में ‘‘कल्ट’’ (CULT) नामक मशीनी अनुवाद-तंत्र को भी विकसित किया। इस अनुवाद-तंत्र की सहायता से गणित एवं भौतिकी विषयक चीनी शोधपत्र का अंग्रेजी अनुवाद किया गया। प्रत्यक्ष मशीनी अनुवाद पद्धति पर आधारित इन दोनों अनुवाद-तंत्रों (सिस्ट्राॅन और कल्ट) के अलावा टाइटस एवं लोगोस का नाम विशेष तौर पर उल्लेखनीय है।

इस पद्धति में स्रोतभाषा और लक्ष्यभाषा के पर्यायों को शामिल किया जाता है। यह मशीनी अनुवाद प्रणाली मुख्य रूप से तीन कारकों पर आधारित होती है। ये हैं - (1) उच्च-स्तरीय गुणवत्ता वाले कंप्यूटर कोश और रूपपरक विश्लेषण (2) अंतिम पाठ तैयार होने से पूर्व कच्चे अनुवाद का मानव-अनुवादक द्वारा पश्च संपादन और (3) पश्च संपादन और शब्दकोश नियंत्रण के लिए विकसित शब्द और पाठ संसाधक उपकरण (साॅफ्टवेयर)। इस प्रत्यक्ष मशीनी अनुवाद पद्धति में अनूद्य पाठ के प्रत्येक वाक्य को करीब 10 चरणों से गुजारा जाता है। इनमें से प्रत्येक चरण कुछ इस प्रकार का होता है कि पहला चरण दूसरे के लिए आधारभूत सामग्री प्रदान करता है यानी प्रत्येक चरण का ‘आउटपुट’ अगले चरण का ‘इनपुट’ होता है। इसे यों भी कह जा सकते हैं कि प्रत्येक चरण का आउटपुट अपने पूर्ववर्ती चरण की प्रक्रिया का परिणाम होता है। इस प्रकार सभी चरण एक-दूसरे पर परस्पर निर्भर होते हैं। कंप्यूटर में विकसित इस शब्दकोश को ‘कंप्यूटर आधारित शब्दकोश’ भी कहा जाता है। इस पद्धति में सर्वप्रथम अनुवाद किए जाने वाले पाठ वाक्य का कंप्यूटर में प्रविष्टिकरण किया जाता है। उसके बाद प्रविष्ट वाक्य जिन अवस्थाओं से गुजरता है, वे प्रमुख रूप से इस प्रकार हैं
  1. स्रोतभाषा पाठ के लिए कोश देखना और उसका रूपपरक विश्लेषण।
  2. समरूपों अथवा समलेखों की पहचान और उनका अर्थ निर्धारण।
  3. संयुक्त/यौगिक संज्ञाओं ;ब्वउचवनदक दवनदेद्ध की पहचान।
  4. संज्ञा पदबंध एवं क्रिया पदबंध की पहचान।
  5. मुहावरों का विश्लेषण और उनके लिए सही पर्यायों की तलाश।
  6. पूर्वसर्गों अथवा संबंधबोधकों के लिए सही पर्यायों की पहचान।
  7. उद्देश्य एवं विधेय की पहचान।
  8. वाक्यपरक द्विअर्थकता अथवा अनेकार्थता की पहचान।
  9. स्रोतभाषा पाठ का लक्ष्यभाषा में संश्लेषण और उसकी रूपपरक संरचना को संसाधित करना।
  10. शब्दों और पदबंधों का लक्ष्यभाषा में सही क्रम (वाक्यों के रूप) में संयोजन।

2. अंतरण मशीनी अनुवाद-पद्धति (Transfer machine translation method)

कंप्यूटर-विज्ञानियों ने 19वीं शताब्दी के सत्तर के दशक के अंत में अंतरण मशीनी अनुवाद पद्धति का प्रयोग करना शुरू किया। इस पद्धति के अंतर्गत पद-विच्छेद करते हुए स्रोतभाषा के प्रत्येक शब्द की व्याकरणिक कोटि को निर्धारित करके उसके वाक्यों की आंतरिक संरचना का गठन किया जाता है। इसके बाद दोनों स्तरों -- शब्द और संरचना -- पर अंतरण की प्रक्रिया का आश्रय लिया जाता है। अंतरण मशीनी अनुवाद पद्धति के अंतर्गत अनुवाद की प्रक्रिया तीन चरणों से होकर गुजरती है। ये हैं - (1) विश्लेषण (2) अंतरण और (3) पुनर्गठन। 

प्रत्यक्ष मशीनी ‘अनुवाद पद्धति’ की तुलना में ‘‘अंतरण पद्धति’’ बेहतर परिणाम उपलब्ध कराती है, क्योंकि प्रत्यक्ष मशीनी अनुवाद पद्धति में अनूद्य पाठ की संरचनात्मक जानकारी का उपयोग नहीं होता। ‘‘प्रत्यक्ष मशीनी अनुवाद पद्धति’’ और ‘‘अंतरण मशीनी अनुवाद पद्धति’’ में मूलभूत अंतर यही है कि पहली विधि में व्याकरण संबंधी सूचनाओं का उपयोग नहीं होता, जबकि दूसरी विधि में उनकी भूमिका अत्यधिक महत्वपूर्ण होती है। प्रत्यक्ष अनुवाद पद्धति में अनुवाद शाब्दिक होता है, क्योंकि इसमें अंतरण एक कोशीय प्रक्रिया है जो विश्लेषण और पुनर्गठन से भिन्न नहीं। विश्लेषण-पुनर्गठन के आधार पर बेहतर प्रस्तुति का प्रयास नहीं होता, जबकि अंतरण विधि में इसका अपना अलग अस्तित्व होता है। यही कारण है कि अंतरण पद्धति काफी लोकप्रिय हुई है।

विश्लेषण परिणाम अनुवाद प्रस्तुति (लक्ष्यभाषा पाठ) पुनर्गठन प्रक्रिया अंतरण प्रक्रिया विश्लेषित द्वारा स्रोतभाषा पाठ विश्लेषण अंतरण मशीनी अनुवाद पद्धति के आधार पर 1977 में टाॅम मेटो नामक एक मशीनी तंत्र विकसित किया गया। इस मशीनी अनुवाद तंत्र को मौसम संबंधी जानकारी का अंग्रेजी से फ्रांसीसी में अनुवाद करने के लिए कनाडा के मांट्रियल विश्वविद्यालय में विकसित किया था। यह तंत्र आज भी कार्यरत है। इसलिए इस अनुवाद पद्धति को आज भी विश्व की अत्यंत सफल पद्धतियों में माना जाता है। यह पूर्णतः स्वचालित मशीनी अनुवाद तंत्र है। इस तंत्र की आधारभूत शब्दावली बहुत सीमित है। इसमें लगभग 1500 शब्दों की प्रविष्टियाँ है। इन शब्दों में से भी आधे शब्द वास्तव में स्थानों के नाम हैं। वाक्य संरचनाएँ सरल और सीमित हैं। इसमें अनेकार्थकता की संभावना बिल्कुल नहीं है यानी प्रत्येक शब्द का अर्थ सुनिश्चित है। सीमित परिवेश, शब्दावली और वाक्य-विन्यास के कारण ही संभवतः यह पूर्णतः स्वचालित मशीनी अनुवाद पद्धति के रूप में सफल सिद्ध हुई है और इसे एक सफल अनुवाद तंत्र माना जाता है। इस सीमित किंतु स्वचालित मशीनी अनुवाद तंत्र की सफलता से प्रोत्साहित होकर एक व्यापक विषय ‘‘एविएशन’’ को लेकर भी अनुवाद तंत्र विकसित करने का प्रयास किया गया, किंतु विषय की व्यापकता के कारण यह मशीनी अनुवाद तंत्र सफल नहीं हो पाया। इसके अलावा, मांट्रियल विश्वविद्यालय ने टाॅम-71, टाॅम-73, टाॅम-76 नामक प्रायोगिक पद्धतियाँ भी विकसित की गई थीं।

इस अंतरण मशीनी अनुवाद पद्धति में और भी नई-नई कंप्यूटर पद्धतियाँ विकसित हुई हैं। 

3. अंतरभाषिक मशीनी अनुवाद पद्धति (Interlingual machine translation method)

अंतरभाषिक मशीनी अनुवाद पद्धति का ‘अंतरण मशीनी अनुवाद पद्धति’ के विकल्प के रूप में विकास हुआ है। ‘मध्यस्थ भाषा’ इस पद्धति का सर्वाधिक महत्वपूर्ण अंग है। इस पद्धति में स्रोतभाषा और लक्ष्यभाषा के बीच एक अन्य ‘मध्यस्थ भाषा’ का सृजन किया जाता है। इस मध्यस्थ भाषा को ‘सार्वभौम भाषा’, ‘इंटरलिंगुआ’ अथवा ‘अंतरभाषा’ भी कहा जाता है। नियम आधारित मशीन अनुवाद प्रतिमान के अंतर्गत यह अंतरभाषिक मशीनी अनुवाद पद्धति, प्रत्यक्ष मशीनी अनुवाद और अंतरण मशीनी अनुवाद पद्धति का विकल्प है।

अंतरभाषिक मशीनी अनुवाद पद्धति के अनुसार स्रोतभाषा के पाठ या वाक्य को लक्ष्यभाषा के स्थान पर पहले मध्यस्थ भाषा से जोड़ा जाता है यानी स्रोतभाषा के पाठ या वाक्य को विश्लेषित करके मध्यस्थ भाषा में प्रस्तुत किया जाता है। यह मध्यस्थ भाषा सामान्य मानक भाषा न होकर औपचारिक गणितीय भाषा होती है। मध्यस्थ भाषा सभी भाषाओं के बीच आम मध्यस्थ का काम करती है। इसके लिए पहले प्रत्येक भाषा की समझ जरूरी है। उसके बाद ही उस समझ को मध्यस्थ भाषा में प्रस्तुत किया जाता है। भाषा-सर्जक मध्यस्थ भाषा के प्रस्तुतीकरण को लक्ष्यभाषा के पाठ या वाक्य में बदल देता है। इस तरह की व्यवस्था में भाषा-विश्लेषक और भाषा-सर्जक दो भिन्न-भिन्न स्थितियों से जुड़े होते हैं। 

कहने का अभिप्राय यह है कि इस अनुवाद पद्धति में स्रोतभाषा के अर्थ का मध्य भाषा में निरूपण करते हुए इस निरूपित अर्थ को लक्ष्यभाषा की अभिव्यक्तियों के रूप में संयोजित-संश्लेषित किया जाता है। यह मध्यस्थ भाषा इस प्रकार की होनी चाहिए कि किसी भी स्रोतभाषा की उपलब्ध सामग्री के अर्थ का पूरी तरह से और सही-सही अर्थ निरूपित कर सके।

यहाँ यह संकेत करना उपयुक्त प्रतीत होता है कि मध्यस्थ भाषा कोई भाषा-विशेष न होकर एक किसी भाषा-निरपेक्ष भाषा होती है जिसमें विश्व-ज्ञान को अवधारणाओं को प्रतीकों के रूप में निरूपित किया जाता है। इन अवधारणाओं की कई कोटियाँ होती हैं और उनका अपना एक निश्चित पदक्रम होता है। ये कोटियाँ जाति-सदस्य संबंध, अंग-अंगी संबंध आदि कई प्रकार के संबंधों से परस्पर जुड़ी रहती हैं। उदाहरण के लिए, हाथ और शरीर का, सूँड और हाथी का, जड़ और पेड़ का अंग-अंगी संबंध। विश्व-ज्ञान का निरूपण और कोटिकरण करने के संबंध में एकाधिक विधियाँ हो सकती हैं, किंतु प्रत्येक कोटि को अर्थपरक लक्षणों के रूप में प्रस्तुत किया जाता है।

मशीनी अनुवाद की प्रविधियां (Machine translation techniques)

तकनीकों के आधार पर इन्हें मुख्यतः चार वर्गों में बाँटा जा सकता है: 
  1. प्रत्यक्ष अनुवाद
  2. नियम आधारित,
  3. काॅर्पस आधारित और 
  4. हाइब्रिड तकनीक।

1. प्रत्यक्ष अनुवाद

प्रत्यक्ष अनुवाद को नियम आधारित पद्धति का आरंभिक चरण भी कहा जा सकता है। यह मशीनी अनुवाद की प्रथम पीढ़ी थी। इसमें अनुवाद प्रक्रिया को कुछ चरणों में तोड़ा जाता है और प्रत्येक चरण एक निर्दिष्ट कार्य करता है। इस पद्धति में वाक्य स्तर की ‘पार्सिंग’ नहीं होती है और शब्द से शब्द स्तर का अनुवाद द्विभाषिक शब्दकोश के प्रयास से होता है। यह बहुत ही सतही रूपात्मक-वाक्यात्मक विश्लेषण करता है।

2. नियम आधारित पद्धति 

नियम आधारित पद्धति भाषा व्याकरण के नियमों का प्रयोग कर स्रोतपाठ का विश्लेषण करने और लक्ष्यभाषा के व्याकरणिक नियमों के आधार पर लक्ष्य भाग को निर्मित करने का समर्थन करती है। प्रत्यक्ष अनुवाद या शब्दकोश आधारित अनुवाद प्रक्रिया को नियम आधारित अनुवाद पद्धति के आरंभिक चरण के रूप में देखा जाता है। 

नियम आधारित प्रणाली शाब्दिक, वाक्यगत, अर्थगत और व्यावहारिक रीतियों में स्रोतभाषा का विश्लेषण करती है। इसमें रूपात्मक विश्लेषण, पाठ की पदव्याख्या, अर्थ स्पष्टता, ‘नामक’ तत्व की पहचान, बहु-संदेश अभिव्यक्तियों की पहचान और विश्व ज्ञान एवं व्यावहारिकता आदि सम्मिलित हैं। ठीक उसी प्रकार लक्ष्य पक्ष उत्पादन अर्थात् विश्लेषण का विपर्याय किया जाता है। उत्पादक पक्ष में परंपरागत रूप से पदव्याख्या वृक्ष-अंतरण (ज्तमम.जतंदेमित), रूपात्मक संश्लेषण, नामक तत्वों, प्रथमाक्षरों से और बहु-संदेश अभिव्यक्तियों का अनुवाद या लिप्यंतरण, शाब्दिक अंतरण आदि के माध्यम से समतुल्य उत्पादन सम्मिलित है। इन दो महत्वपूर्ण चरणों (विश्लेषण और उत्पादन) के बीच एक मध्यस्थ प्रतीकात्मक निरूपण उत्पादित होता है। मध्यस्थ निरूपण की प्रकृति के आधार पर इस पद्धति को अंतरभाषिक मशीन अनुवाद या अंतरण आधारित मशीन अनुवाद कहा जाता है। नियम आधारित पद्धति रूपात्मक, वाक्यगत और अर्थगत जानकारी के साथ विस्तृत शब्दकोशों का प्रयोग करती है और नियमों के विस्तृत ढाँचे इसमें सहायता करते हैं। 

3. काॅपॅस आधारित या प्रयोगाश्रित पद्धति 

काॅर्पस आधारित पद्धति अनुवाद प्रस्तुत करने के लिए पूर्व अनूदित सामग्री के प्रयोग या सादृश्य के प्रयोग का समर्थन करता है। 

4. हाइब्रिड मशीनी अनुवाद पद्धति 

हाइब्रिड पद्धति मध्यम रास्ता अपनाती है और नियम आधारित और काॅर्पस आधारित दोनों पद्धतियों का लाभ लेने का प्रयास करती है। समय और शोधों के साथ यह सिद्ध हो चुका है कि कोई भी एक पद्धति पूर्ण मशीन अनुवाद अनुवाद के उद्देश्य तक नहीं पहुँच सकी है। हाइब्रिड मशीन अनुवाद (एच.एम.टी.) सांख्यिकीय और नियम आधारित अनुवाद की कार्यविधि की शक्तियों का प्रयोग करती है। विभिन्न एम.टी कंपनियाँ अपने प्रयास को इस ओर ले जा रही हैं। उदाहरण के लिए, एशिया आनलाइन और सिस्ट्राॅन नियम और सांख्यिकीय दोनों का प्रयोग करने वाली हाईब्रिड पद्धति विकसित करने का दावा करते हैं।

Bandey

मैं एक सामाजिक कार्यकर्ता (MSW Passout 2014 MGCGVV University) चित्रकूट, भारत से ब्लॉगर हूं।

Post a Comment

Previous Post Next Post