1. التعرف الموضوعي
1.1. مدخل
التعرف الموضوعي هو العملية التي يتم بموجبها إرفاق لصيقة معيّنة (الموضوع أو الفئة) لكمٍّ من المعطيات النصية المكتوبة أو المنطوقة. وينقسم إلى نمطين: تصنيف المواضيع وكشف المواضيع. يعتمد الأوّل على فكرة تحديد مسبق لمجموعة من المواضيع، حيث يتمّ التعرّف على موضوع النص المكتوب (أو الكلام المنطوق) بتحديد انتمائه إلى موضوع واحد من هذه المجموعة، ولذلك يطلق على هذه العملية التصنيف وحيد اللصيقة. بينما يطلق على كشف المواضيع اسم التصنيف متعدد اللصائق حيث يتمّ الكشف عن وجود أو غياب عدد من المواضيع وليس موضوعا واحدا. وفي بعض الحالات يتم تصنيف النصوص دون اللجوء إلى معرفة مواضيعها، بالاعتماد على درجة التشابه بينها، إلى مجموعات أو إلى أشجار متدرجة وتسمى هذه العملية التجميع الموضوعي Topic Clustering.
ونحن بصدد دراسة التعرف الموضوعي يتوجب علينا أن نشير إلى أن تعريف الموضوع ليس ثابتا بل يتفرّع إلى تعريفات متنوّعة وذلك حسب طبيعة المهمّة أو التطبيق. ففي علم الصرف يعتبر الجذر ولواحقه موضوعا. أمّا بالنسبة لميدان العلاج الآلي للمواضيع، فنجد اختلافا في الاصطلاح، إذ يطلق الباحثان سيمور ورزنفلد اسم موضوع على الكلمات المفاتيح [1]، بينما يعتبر الموضوع بالنسبة لِيَاماشيتا [2] وكذلك بالنسبة للأبحاث المعروضة في [3] و [4] شيئا أكبر وأعم من ذلك بكثير مثل سياسة واقتصاد وغير ذلك .
2.1. بحوث حول التعرّف الموضوعي
في العقد السابق من الزمن، أنجز العديد من الأبحاث حول تصنيف النصوص: المصنفـات البايسيانية [5 ،6 ،7]، أشجار القرار [5 ،6 ،8]، شبكات العصبونات [9، 10]، خوارزمية أقرب جار [11 ،12]. وهناك بعض الطرق التي أنجزت بالاعتماد على الأنظمة الخبيرة، ونذكر على سبيل المثال نظام كونسترو[1] الذي طوره فريق كارنيجي من جامعة كارنيجي ميلون بالولايات المتحدة الأمريكية.
وقد حازت اللغة الإنجليزية على اهتمام أغلب باحثي العالم في مجال تصنيف النصوص، بينما حظيت لغات أوروبية ببعض الاهتمام كالألمانية، الإسبانية والإيطالية [13]، وكذلك بعض اللغات الآسيوية كاليابانية والصينية [14]. أما اللغة العربية، فالقليل جدا من الأعمال تلك التي أنجزت. ويمكن ذكر البعض منها، ففي [15] لم يتعد أداء خوارزمية البايسيان الساذج 71.96 %من حيث التذكير. كما اقترح في [16] نظام آخر اعتمد على طرق إحصائية للتصنيف كتقنية الأنتروبي Entropy القصوى أدت إلى قيمة تذكير 84.2%، أما من حيث الدقة فكانت النتيجة50 %. كما أدى استعمال بعض الطرق التي اعتمدت على ما يسمى بقواعد الترابط Règles d’association والتي تم ذكرها في [17] إلى قيمة للتذكير تساوي 74.5%. وقد ذكر الباحث نفسُه في [18] نظاما أطلق عليه اسم عرب كات ArabCat، إذ يعتمد على تقنية الأنتروبي القصوى وأدّى إلى نتائج أفضل حيث بلغت كل من قيمتي التذكير والدقة 80.48% و 80.34% على التوالي. وللتوضيح فإنّ التذكير والدقّة طريقتان لقياس أداء المصنّفات.
بالإضافة إلى ما سبق فقد قامت شركة صخر العالمية بتطوير نظام تصنيف أدى إلى قيمة تذكير تساوي 73.78% بدقّة متدنّية 47.35%، إلا أنّه لا يوجد أي وصف دقيق لهذا النظام.
3.1. أهمية التعرف الموضوعي
لقد استخدمت نماذج اللغة العامة[2] في النظم الآلية التقليدية (للتعرف على الكلام -الشكل1- أو الترجمة الآلية) وبسبب تشعّب اللغة لم تكن النتائج جيدة. وتكمن أهمية التعرف الموضوعي بالنسبة لهذه النظم في كونها تساعد على أقلمة نماذج اللغة، مما يساعد على تحسين النتائج. وتتمثل بعض طرق الأقلمة في التعرف على موضوع النص المراد ترجمته أو التعرف عليه آليا، ثم استخدام النموذج الموضوعي [3] بدلا من النموذج العام . ويشير الدليل س إلى الموضوع س. على سبيل المثال، لو طلب من شخص أن يترجم أو يأتي بمعنى كلمة محيط فسيطلب معرفة السياق (الموضوع) حتما، وإلا سيضطر لإعطاء أكثر من ترجمة وذلك حسب معاني الكلمة التي قد تكون البحر أو الشيئ الذي يحيط بشيئ آخر.
وكذلك تحتاج النّظم الآلية المرتبطة باللغة، على سبيل المثال لا الحصر الترجمة الآلية ونظام التعرّف الآلي على الكلام، إلى تحديد موضوع النّص المراد معالجته للحصول على نتائج أحسن. ولإبراز علاقة التعرّف الموضوعي بتحسين أداء هذه النّظم الإحصائية، سنعطي شرحا وجيزا عن أحدها وهو نظام التّعرّف على الكلام.
يتكوّن نظام التّعرّف على الكلام من قسمين: النّموذج السمعي ونموذج اللغة. حيث يقوم النّموذج السمعي بتحويل الإشارة الصّوتية إلى سلسلة من الفونيمات المتتالية والتي تخضع إلى معالجة لغوية آلية بواسطة نموذج اللغة الذي يعطي في الأخير نصّا مفهوما يعبّر عن الإشارة المذكورة. وغالبا ما تستعمل نماذج اللغة ن-غرام لتوجيه البحث، حيث تتنبّأ بالكلمة الموالية اعتمادا على الكلمات السابقة والتي يتراوح عددها من 1 إلى 3. وهذا ما يجعل كفاءتها محدودة بسبب افتقادها إلى المعلومات السياقية ذات المدى البعيد. ولسدّ هذا النقص، يتمّ أقلمة هذه النماذج بطرق مختلفة منها التعرف الموضوعي. وبالتالي يستعمل نموذج اللغة الموضوعي حسب موضوع الكلام المراد التعرّف عليه بدل النموذج العامّ –الشكل 2 -. للتذكير، فإنّ بناء هذه النماذج يعتمد على مدونّات نصوص ضخمة كونها (أي النماذج) إحصائية. إنّ المثال التالي يوضّح بشيئ من التبسيط أهمّيّة النموذج الموضوعي، فلو فرضنا أنّنا وجدنا خلال مرحلة التدريب (انطلاقا من مجموعة كبيرة من النصوص) أنّ تواتر العبارة “كان الجمل” أكبر بكثير من تواتر “كان الجدل”، فإنّ نموذج اللغة العامّ يختار العبارة الأولى “كان الجمل” ويمرّرھا. ويعتبر هذا الاختيار صحيحا في حال ما إذا كانت العبارة معزولة. أما إذا علمنا بأن الجمل السابقة تحتوي كلمة “جدل” بتواتر مرتفع فهذا يعني أن الاختيار الصائب ھو العبارة “كان الجدل”. من ھنا تتّضح بشكل جيّد أهمّيّة معرفة سياق أو موضوع النص الذي يشكّل مدخل نظام التعرف الآلي[19].
- نظام التعرّف الموضوعي
يتطلب إنجاز نظام التعرّف الموضوعي تنفيذ الخطوات التالية [19 ،20]:
- جمع النصوص (المدونة) التي يتم استعمالها كمعطيات لتدريب خوارزمية التعرف.
- القيام بحوسبة هذه النصوص وبناء مجموعة المفردات.
- تدريب خوارزمية التعرف باستعمال المدونة ثم تقييم البرمجية باستعمال نصوص الاختبار.
يعتبر النقص المسجل في المدونات العربية أحد الأسباب التي لا زالت تشكل عائقا أمام تطور البحوث في مجال العلاج الآلي للغة العربية. وقد قمنا ببناء مدونتين هما خليج-2004 ووطن-2004[4] انطلاقا من الشابكة بغرض استعمالها في تدريب خوارزمية التعرف. حيث قمنا بتنزيل آلاف الصفحات واستخراج النصوص منها، وإزالة الشوائب كالفواصل والنقاط وعلامات الاستفهام والتعجب والرموز الأخرى التي لا نحتاج إليها.
نقصد بحوسبة النصوص حساب الكلمات المكونة للمدونة، تواتراتها (تواتر الكلمات في المدونة)، تواتر الوثيقة، المعلومة المتبادلة المتوسطة أو أي وسائط أخرى. وتسمى طريقة تمثيل نصوص المدونة كيس الكلمات Bag Of Words حيث تمثّل كل كلمة بقيمة معينة قد تكون تواتر الكلمة أو تواتر الوثيقة أو غير ذلك. وفي هذه المرحلة يتم تكوين مجموعة المفردات التي تشكّل المرجع في تمثيل الوثائق النصية.
- تدريب خوارزمية التعرف باستعمال المدونة
يوجد العديد من الطرق الإحصائية وخوارزميات تدرب الآلة التي تتطلب حجما معتبرا من المعطيات. ومن بين هذه الطرق التي تستخدم في التعرف الموضوعي وتصنيف النصوص، آلات الدعم الاتجاهي (آ.د.إ) وآلات الدعم الاتجاهي متعددة الفئات (آ.د.إ.م.ف) وتردد الوثيقة/عكس تردد الوثيقة (ت.و.ع.ت.و) ومصنف الزناد [19 ،20 ،21]. وقد قمنا باختبار المصنفات المذكورة التي أدّت إلى نتائج جيدة ويمكن تلخيصها في الجدول 1.
خوارزمية التعرف الموضوعي |
التذكير (%) |
الدقة( %) |
(ت.و.ع.ت.و) |
86 |
87 |
(آ.د.إ) |
97 |
97 |
(آ.د.إ.م.ف) |
84 |
81 |
مصنف الزناد |
90 |
87 |
الجدول 1. نتائج طرق التعرف الموضوعي
3. الخاتمة
أبرزنا من خلال هذا المقال أهمية التعرف الموضوعي في تحسين مردود النظم الآلية المرتبطة باللغة كنظم التعرف على الكلام والترجمة الآلية. وذلك بإدراج نموذج لغة موضوعي – أي حسب موضوع النص المراد التعرف عليه أو المراد ترجمته آليا- عوضا عن نموذج اللغة العامّ الذي باتت محدوديته جليّة في التعاطي مع النصوص على اختلاف مواضيعها. وقد تطرّقنا إلى وصف مراحل إنجاز نظام التعرف الموضوعي بإيجاز. كما أثبتنا عبر عدد من التجارب تفوّق آلات الدعم الاتجاهي على باقي الخوارزميات.
[1] Construe system
[2] Global Language Models
[3] يتم حساب النموذج الموضوعي بناء على المدونة الخاصة بالموضوع س وليس بناء على المدونة الكلية التي نحصل من خلالها على نموذج اللغة العام.
[4] تمكّنّا من جمع المدونتين بفضل وجود محتوى عربي على الشابكة رغم ضآلته مقارنة بلغات أخرى. للحصول على المدونتين يرجى زيارة الموقع: http://sites.google.com/site/mouradabbas9