– الفروق الموجودة بين اللغات:
– ترتيب الكلمات
- صعوبة إزالة مكامن اللّبس المرتبطة ارتباطا وثيقا بمنظومة الكتابة في أي لغة طبيعية وبالتالي تعقيد الخوارزميات المخول لها فك هذا اللبس.
- مشكلة الاشتراك اللفظي: يمكن لمفردة واحدة أن يكون لها عدة معاني ألم : أَلَمٌ – أَلَمْ- أَلَمَّ- ألِمَ
- مشكلة اختلاف المعاني (بين اللغة الأصل ولغة الوصل).
- مشكلة ربط الكلمات وتكوين الجمل: يصعب على الحاسوب على غرار المترجم البشري إيجاد نظائر للتراكيب اللغوية بين اللغة الأصلSource Language ولغة الوصلTarget Language ، دون إدخال تغيير ولو طفيف في الصيغة الأصلية لأن كل لغة تتميز بأساليبها الخاصة ولا يمكن فرض أسلوب اللغة الأصل على لغة الوصل لأن ذلك قد يؤثر سلبا على مستوى الترجمة.
- مشكلة ربط الجمل وتكوين الفقرات.
- المشكلات المرتبطة أساسا باللغة العربية العبارات المسكوكة Idioms: غياب معاجم مختصة في العبارات المسكوكة (التعابير الاصطلاحية) إضافة إلى غياب تقييس موحد للمصطلحات Terminology.
- استعمال العبارات المجازية: “فتحرير رقبة مؤمنة” ) سورة النساء الآية 92( إن ورود كلمة تحرير رقبة تعني تحرير المؤمن من الرق أو عتقه كما ورد في تفسير ابن كثير[1] وقد استعملت مجازا كلمة رقبة للتعبير عن النفس المملوكة.
- اللَّبْسُ النَّحْوِيُّ: في غياب حركات التشكيل
- مثال: يمكن أن تشير كلمة يعد إلى كلمة:
يَعِدُ: يلتزم بوعد She /he promises
- يَعُدُّ: يحصي He calculates /Computes
- يُعَدُّ: يُعْتَبَرُconsidered
- الإبهام الناتج عن تعقيد البنية التركيبية للنص الأصلي:
– مثال: ألم ألم ألم ألم بدائه *** إن آن آن آن آن أوانه
أَلَمٌ ألَمَّ أَلَمْ أُلِمَّ ب ِدَائِه *** إِنْ آنَ آنٌ آنَ آنُ أَوَانِهِ
في البيتين السابقين للمتنبي نلاحظ إبهاما على مستويين :المستوى الأول هو الإبهام الناتج عن الاشتراك اللفظي )نفس المتتالية الحرفية أو نفس اللفظ يعبر عن معاني متباينة ، أما المستوى الثاني من الابهام فهو راجع لاستعمال هذه الألفاظ كلها معا في نفس العبارة مما يضفي على النص تعقيدا يصعب المهمة على المترجم البشري ونظام الترجمة الآلية بدرجات متفاوتة من الصعوبة وما زاد الأمر تعقيدا غياب حركات التشكيل.
– اللبس الناتج عن المتلازمات اللفظية التي يفترض أن تترجم ” كمقطع واحد ” بدل أن ترجمة كل كلمة على حدة.
مثال: عبارة رَغِبَ بنفسه عن الشيء والتي تعني تَرَفَّعَ عن الشيء.
الترجمة البشرية: He rised above
نتيجة مترجم جوجل : Wishes for himself
نتيجة مترجم بينج: Same thing with the desired نلاحظ بان الترجمة الآلية في هذه الحالة بعيدة كل البعد عن الترجمة البشرية والسبب هو غياب متون لغوية ثرية لغويا وتتضمن المتلازمات اللفظية الواردة في اللغة العربية.
- نقل البنية التراكيبية للغات الأجنبية إلى اللغة العربية :
مثال: أكثر مهارة – عوض أمهر – more skilled
أكثر قدسية – عوض أقدس more sacred رغم أن الإيجاز الذي يميز اللغة العربية يجعل المتون اللغوية العربية أقل حجما من غيرها إلا أنه قد يكون سببا من أسباب اللبس التي تواجهها نظم الترجمة الآلية.
– ندرة استعمال علامات الوقف في النصوص العربية تصعب عملية تحديد نهاية الفقرات والجمل مما يؤثر على تحديد دلالة الفقرة/الجملة وبالتالي يؤثر حتما على الترجمة المنتجة.
– لا يوجد سبيل لتحديد أسماء العلم ضمن النصوص العربية، فخلافا للنصوص
العربية، نجد أن النصوص الإنجليزية أو الفرنسية تستعمل تفخيم الحرف الأول Capitalization للتمييز بين اسم العلم وباقي كلمات النص.
2- الانفجار المعرفيThe Knowledge Explosion :
أدخل عصر المعلومات Information Age تغييرا جذريا على كل مجالات الحياة وغير مفاهيم واستحدث أخرى فضلا عن أنه أثرى معاجم اللغة بمصطلحات جديدة مثل العالم الافتراضيvirtual world والشبكات الاجتماعية social networks، والمعطيات الضخمة Big Data. وقد عرفت البشرية نهضة علمية لا نظير لها في كل مجالات الحياة بفضل التقانات التي واكبت هذه الثورة المعلوماتية إضافة إلى الكم الهائل من المعلومات المتداولة على الشبكة والذي تتزايد نسبتها يوما عن يوم، وقد ورد في بحث )هيلبيرت ولوبيز2011-) Hilbert & Lopez،2011) ( أن نسبة النمو السنوي للمعلومات المخزنة بلغت 23% ولو عدنا قليلا إلى الوراء لوجدنا أن القدرة العالمية على تخزين المعلومات قد تضاعفت خلال الفترة الممتدة بين 1986 إلى 1996 بنسبة 800%، وبنسبة 4100% مع حلول سنة[2]2004.
إن التزايد المستمر لمخزون العالم المعلوماتي والمتبادل على الشبكة والمتنامي نموا أسيا
يمثل تحديا كبيرا أمام النظم المعلوماتية التي تتحكم في طرق تبادل وتسيير المعلومات غير أنها لا تتحكم كلية في طبيعة المعلومات وذلك ما أدى إلى استحداث برمجيات ذكية لتحليل المعطيات Big Data Analysis، وتكمن أهمية هذا النوع من البرمجيات في استعماله للطرق الاحصائية لتصنيف المعلومات ومن ثم استغلال المعطيات الناتجة للتنبؤ بالتوجهات السائدة في الأسواق العالمية او حتى لتحليل المشاعر ضمن الشبكات الاجتماعيةSentiment Analysis أو لاسترجاع المعلومات Information retrieval
3- المعطيات الضخمةBig Data واللغة العربية
بالرغم من ضخامة حجم المعلومات على الشابكة إلا أن نسبة المحتوى الرقمي باللغة العربية لا تفوق 3% ، نسبة ضئيلة لا تعكس بأي حال من الأحوال رصيدنا الفكري والحضاري لكنها ليست مسألة حتمية، وبإمكاننا استغلال التقانات المتوفرة وتطويعها لخدمة اللغة العربية فبالنسبة لنظم الترجمة الآلية الاحصائية مثلا والتي تعاني من شح الموارد اللغوية لتدريب نماذج الترجمة على غرار المتون اللغوية، يمكن استغلال الحجم الهائل للمعلومات المخزنة على الشابكة لإنشاء متون لغوية linguistics corpora أحادية اللغة وثنائية اللغة ومتون متخصصة.
ومن ناحية أخرى، يتعين على اللغويين وبمساعدة المختصين استحداث المصطلحات التي
تواكب التقانات المتقدمة وذلك من خلال استغلال الكلمات العربية الصحيحة والأوزان المناسبة.
- نظم الترجمة الآلية الاحصائية
تنتهج نظم الترجمة الاحصائية أسلوبا رياضيا في تعاملها مع الترجمة حيث أنها تستعمل متونا لغوية (ذخائر نصية) أحادية اللغة وثنائية اللغة مصفوفة على مستوى الجمل حيث يتم اسناد احتمال لكل ثنائية جمل تمثل ترجمة ممكنة. وتقوم منظومة الترجمة الآلية باختيار الثنائية التي أُسْنِدَ إليها أعلى احتمال من بين كل الثنائيات المتوفرة، لتشكل هذه الجملة في النهاية الترجمة المقترحة ضمن النص المُخْرَجِ.

1-4 مواطن القوة :
– تكمن في قدرتها على معالجة (ترجمة) كم هائل من المعلومات في وقت وجيز.
– نظم قابلة للتحديث: إن بنية النظم الاحصائية الغرضية التوجه object oriented
تسمح بترجمة أي ثنائية لغوية ويكفي توفير متن لغوي أحادي اللغة بالنسبة للغة الوصلtarget language إضافة إلى متن ثنائي اللغة مصفوف على مستوى الجمل.
– يمكن تحسين مستوى الترجمة بإدماج محلل صرفي ضمن نظام الترجمة الاحصائية.
– يمكن تحسين مستوى الترجمة من خلال استعمال متون لغوية موسومة annotated corpora .
2-4 مواطن الضعف:
– ترتبط نظم الترجمة الاحصائية ارتباطا وثيقا بالمتون اللغوية، فإذا كانت المتون اللغوية التي تم استعمالها لتدريب نماذج الترجمة محدودة لغويا وذات حجم صغير، فإن ذلك سيؤثر حتما على مستوى ترجمة النص المنتج، إضافة إلى ذلك فإن الكلمات الغير واردة في متن التدريب ووردت في النص المُدْخَل )نص اللغة الأصل Source language (لن تتم ترجمتها.
5- معايير تقييم الترجمة
وضع خبراء الترجمة الآلية معايير يتم على أساسها تقييم جودة النَصّْ المُتَرجَمِ وذلك من
خلال إسناد درجات لتقدير جودة الترجمة وهي كالتالي:
1- المعيار الأول هو مستوى بلاغة فصاحة النص المُتَرْجَمْ fluency أو ما يُسَمَّى تقنيا بمقاييس “التصويب النحوي”
2- المعيار الثاني هو “أمانة الترجمة” adequacy ويشير هذا المصطلح لترجمة أمينة، بلغ مستواها الحد الأمثل المقبول من التناسق مع النص الأصلي.
3- أمّا المعيار الثالث “الإفادة المعلوماتية” informativeness، فقد قامت وكالة مشاريع البحـث المتقدمة ARPA بإضافته، ويتمثل في تقدير كَمِّ المعلومات (القيمة المعلوماتية) المُحَالَةِ فِعْلِيًّا informativeness من قِبَلِ النص المُتَرْجَمِ – Informativeness measure .
6 – أمثلة عن مقاييس التقييم التلقائي
تم إنشاء هذه البرمجيات لحساب مدى التطابق بين جملة مترجمة آليا وترجمة بشرية تستعمل كمرجع. ونفترض أنه إذا كان الفرق ضئيلا بين الجملتين فإن ذلك يعني أن الترجمة جيدة. وتختلف طرق الحساب من مقياس تقييم آلي لآخر :
فبالنسبة لمقاييس: BLEU ، NIST ،GTM ، يتم حساب التطابق من خلال إحصاء عدد الكلمات المشتركة بين الجملة المنتجة من قبل نظام الترجمة الآلية والجملة المرجعية.
ويمثل مقياس TER، فبالإضافة إلى عمليات التنقيح (التعديل)edition والإدراج insertion والاستبدال substitution والحذف deletion تم استحداث عملية الإزاحة shift وتسمح هذه العملية بتغيير مواضع مجموعة من الكلمات المتجاورة contiguous عن طريق إزاحتها إلى اليمين أو إلى اليسار. وتُصَنَّفُ كل عملية إزاحةshift على أنها عملية تنقيح (تعديل) edition واحدة أيًّا كان عدد الكلمات المُزَاحَة، ومهما كان امتداد الإزاحةshift ، ويُرْمَزُ لعدد عمليات الإزاحة shift بـِ Nshf أمَّا صيغة حساب درجة المقياس TER فهي كالتالي :
عند توفر عدة ترجمات مرجعية ، تُحَدَّدُ درجة مقياسTER من جهة، من خلال التعديلات الواجب القيام بها لتعديل الفرق بين الترجمة المرشحة والترجمة المرجعية الأقرب لهذه الجملة، ومن جهة أخرى من خلال متوسط عدد الكلمات الواردة ضمن جمل الترجمة المرجعية.
ملاحظة
بالنسبة لبحثنا استعملنا مقياسBLEU لتقييم نتائج ترجمة Moses لثنائية اللغات (إنجليزي– فرنسي) بلغت نسبة 31.10% علما بأن المتن الذي اسْتُعْمِلَ لتدريب نماذج الترجمة يحتوي على 1.4 مليون جملة إنجــليزية مصفوفة مع ترجمتها باللغة الفرنسية وهي مأخوذة من محاضر جلسات البرلمان الأوروبي.
و قد بلغت نتائج تقييم ترجمة نموذجنا 31.35% بالرغم من استعمالنا لمتن محدود من حيث المضمون ومن حيث الحجم، فإننا نتوقع أن تكون نتائج الترجمة أفضل بكثير إذا توفر لدينا متن لغوي نظير غني ويعكس بحق ثراء ثنائية اللغات (إنجليزية-عربية) ويكون بمستوى وتنوع متن محاضر جلسات البرلمان الأوروبي.
7- الخلاصة و التوصيات
لم تشهد البشرية تدفقا للمعلومات بالحجم الهائل الذي تشهده اليوم ويرجع ذلك لتطور التقانات التي أصبحت اليوم تستوعب كل هذه المعلومات وتتيح تخزينها رغم حجمها الهائل، إضافة إلى تسهيل تنقلها عبر الشابكة بسرعة تتزايد باستمرار، وبناء على ما سبق، فإن التعامل مع هذه الأحجام الهائلة من المعلومات لا يمكن أن يكون إلاّ من خلال الطرق الإحصائية، هذه الطرق التي لا غنى عنها سواء تعلق الأمر بتحليل البيانات الضخمة Big Data ووصولا إلى الترجمة الآلية بمقاربة إحصائية. وقد سعى هذا البحث إلى دراسة آلية الترجمة ضمن نظم الترجمة الآلية الإحصائية مرورا بطرق التقييم الآلية لجودة الترجمة وقد وضحنا نقاط الضعف والقوة ضمن هذ النظم. وقد كانت نتائج البحث مشجعة مقارنة مع الموارد المحدودة التي تم استعمالها فقد بلغت نتيجة تقييم مقياس BLEU نسبة 31.35% بالرغم من استعمالنا لمتن محدود من حيث المضمون ومن حيث الحجم. وقد توصلنا إلى أن بعض الخطوات البسيطة من شأنها تحسين هذه النسبة:
- بإمكاننا إثراء نتائج هذا البحث من خلال تحسين نتائج التحليل اللغوي وعن طريق إدماج معاجم ثنائية اللغات ومتون لغوية موسومةannotated وباستعمال تقنيات تصفيف المتون النظيرة التي يتبناها الخبراء في نفس الإطار.
- لقد كانت نتائج ترجمة المحرك الإحصائي Mosesوالذي قمنا بتكييفه لدعم ثنائية اللغات (إنجليزية- عربية) مقبولة إلى حَدٍّ ما. غير أن طموحنا أكبر وقناعتنا أن وجود متون غنية وذات حجم كبير من شأنه إحداث قفزة نوعية على مستوى جودة الترجمة، وتجدر الإشارة إلى أنه قابل للتَّكَيُّفِ مع أي ثنائية للغات ويكفي فقط توفير المتون اللغوية الداعمة للثنائية التي نريد إنشاء النموذج من أجلها
- تواجه اللغة العربية تحديات كبيرة في عالم أضحى يتبنى لغة الأرقام في كل مجالات الحياة، وإذا كانت نسبة تمثيل المحتوى الرقمي العربي على الشابكة لا تعكس ثراءها ورصيدها الحضاري فإنها حتما تعكس هزالة الاستثمارات والمشاريع التي تسعى لتغيير هذا الوضع.
إن اختيارنا لهذا الموضوع ينبع من حرصنا على اللغة العربية ومن ثم أردنا ان نبين
أن طرق الذكاء الاصطناعي (MOSES) التي تم تطويرها في الأصل لثنائيات لغوية أخرى، يمكن تطويعها وتكييفها لتستوعب اللغة العربية غير أن الكفاءة العلمية لا تكفي في هذه الحالة لرأب الصدع وملء الفجوة العلمية التي تفصلنا عن العالم المتقدم وقد أدركت الدول المتقدمة خطورة الرهانات المتعلقة باللغة في عصر المعلومات وسارعت إلى تطويرها والاستثمار في البحوث التي من شأنها تأمين بقاء لغاتها على الشابكة إضافة إلى تعزيز مكانتها من خلال استحداث مصطلحات تواكب الانفجار المعرفي الذي يميز هذه الحقبة، ونأمل أن تحذو دولنا حذو هذه الدول .
[1] http://quran.ksu.edu.sa/tafseer/katheer/sura4-aya92.html
[2] The knowledge society: Surfing its tsunamis in data storage، communication http://www.wcu.edu/ceap/houghton/readings/tech-trend_information-explosion.html