المعالجة الآلية للغة العربية

Spread the love

المعالجة الآلية للغة العربية

(بواسطة : طلال السبيعي | بتاريخ : 16 أغسطس 2004 )

بسم الله الرحمن الرحيم

 

تكلمنا في درسنا السابق عن المبحث الرابع و هو تعريب لغات البرمجة و في هذا الدرس سوف نتطرق إلى المبحث الخامس وهو:

المبحث الخامس  ( المعالجة الآلية للغة العربية ) :

تعاريف:

    أولاً الصرف:

        هو العلم الذي يعنى بالكلمة بناءً و تحليلاً، (التشكيل، الأوزان، و يشمل حركات الكلمة ما عدا الحرف الأخير).

            و من الأمثلة على برامج تحتاج الصرف: المدقق الإملائي.

    ثانياً النحو:

        هو العلم الذي يعنى بالجملة بناءً و تحليلاً، و يدخل فيه ضبط أواخر الكلمات بالشكل.

            و من الأمثلة على برامج تحتاج النحو: المشكل الآلي، المدقق النحوي.

    ثالثاً المعنى:

        أو الدلالة، و هو يتناول كيفية فهم الجملة أو النص.

            و من الأمثلة التي تحتاج علم المعنى: المترجمات الآلية، الملخص الآلي.

    أولاً الصرف ( Morphology ) :

        فهو يدرس الكلمة بناء و تحليل، بناء أي من الجذر إلى الكلمة الأصلية؛ و التحليل من الكلمة إلى الجذر.

        و من تطبيقاتة:

            1. المدقق الإملائي، تحليلي.

                فمثلاً كلمة: “المكتبة” من جذر ( ك ت ب ) و هي على وزن مُفَعَّل و بها سابق (ال) التعريف و لاحق (ة).

            2. البحث: تحليل + توليد.

            3. مترجم المفردات.

       

    تعاريف “غير متفق عليها” :

        1. صوت اللين “Vowel“:

            – قصيرة: و هي الفتحة، الضمة، و الكسرة.

            – طويلة: و هي الحروف الألف، الواو، و الياء.

        2. المشتقات و الجوامد ≈ المتصرف و غير المتصرف:

            – المشتق: و هو المولد أو المتفرع من جذر، مثل: مكتبة مأخوذه من الجذر (ك ت ب).

            – الجامد: و هي التي ليس لها جذر، مثل: بئس، نِعم، إنسان …

        3. علامات الضبط بالشكل “Diacritics“:

            – وهي الفتحه، الضمة، الكسرة، السكون، الشدة، التنوين، و المدة.

        4. الجذر “Root” :

            – و طولة من 3-4 أحرف و الجذر هو الحروف الأصلية في الكلمة، و الجذر ليس بكلمة و إنما مجموعة من الحروف.

        5. الوزن “Measure” أو “Rule” أو “Pattern” :

            – الوزن = الجذر + حروف أو حركات ضبط بالشكل مزيدة.

     *أساليب التحليل و التوليد الصرفي:

        – الخوارزمية اللغوية التقليدية:

            الهدف هو تحديد نوع الكلمة و خصائصها الصرفية.

            فمثلاً كلمة:  ( المحللون ) فأل التعريف فيها هي مجرد سابق، و الواو و النون في الآخر هي مجرد لاحق و محلل هي الساق أو الـ Stem.

            و قبل البدأ في هذا الأسلوب نحتاج إلى:

                1. قائمة بجميع السوابق الممكنة، 10-11 سابق.  Prefix.

                2. قائمة بجميع اللواحق الممكنة.    Suffix.

                3. قائمة بجميع الجذور الثلاثية منها و الرباعية.

                4. قائمة بجميع الأوزان الأساسية.    Patterns.

                5. قائمة بجميع الكلمات الجامدة. و هي أقل من خمسمائة كلمة.

            و نحتاج أيضاً إلى مجموعة من الأعلام Flags و هي:

        1. Prefix_Invariable.   أي هل هو جامد قبلة سابق ؟

        2. Prefix_Pattern.

        3. Variable_Invariable.  أي هل الكلمة المعطاه قابلة لأن تكون جامد أو مشتق ؟

            و الآن الخوازرمية هي كالآتي:

        1. check if the word is invariable:

            1.1 using the prefix table remove the largest prefix associated with the word.

            1.2 if the remaining part of the word is in the list of invariable words then:

                    1.2.1 if the prefix is compatible with the word and the variable-invariable flag is false then return the type;

                            value; grammatical rule

                    1.2.2 else go to step 2 below.

        2.  Analyze the word assuming that is variable.

                    2.1 Using the suffix table remove the largest suffix associated with the word.

                    2.2 Using the morphology pattern list, locate patterns that match the word. A a pattern is said to match

                         a word if it satisfies the following conditions:

                            * the pattern is equal to the word in length.

                            * the root identified by the pattern is in the root table.

                            * the removed suffix and prefix is compatible with the selected pattern.

                            * the root is compatible with the pattern.

                    2.3 For each matching pattern return the type of the corresponding word, the root, the suffix and prefix.

                    2.4 Add the removed suffix back to the word letter by letter, starting with the first letter in the suffix. For each letter

                         added repeat steps 2.2 and  2.3.

                    2.5 Add the removed prefix  back to the word letter by letter, starting with the first letter in the prefix. For each letter

                         added repeat steps 1 and  2.

   

    – المقارنة التقريبية ( النوافذ المنزلقة ):

        الوزن + الجذر = الساق Stem.

        و فكرة هذه الطريقة هي أن نأخذ الكلمة المدخلة ثم نحاول إيجاد الوزن، و بعد أن نجده نبدأ المقارنة بين الوزن و المدخل حتى

        يتكافأن و من ثم ينتج الجذر.

        كمثال: لنأخذ كلمة “المرتبطون”، عندئذ سوف تمثل في نافذة مثل الرسم أدناه:

      

        الآن سنجرب أوزان كثيره منها الخاطئ و منها الوزن الصحيح “مفتعل” و سوف نجرب في مثالنا هذا الوزن الصحيح فقط

        للتسهيل، و سيمثل الوزن في النافذة كالتالي:

        الآن الحروف الزائده في هذا الوزن عن الوزن الأساسي “ف ع ل” هي حرف الميم و حرف التاء، إذاً سوف نقارن هذين الحرفين

       مع الحرف الذي فوقها من المدخل حتى يتطابقا. الآن سنزيح الوزن بمقدار واحد إلى اليسار كما في الرسم أدناه:

        فحرف الميم لم ينطبق مع اللام و حرف التاء لم ينطبق مع الراء إذا سنزيح الوزن لليسار أيضاً مقدار واحد كما في الرسم:

        عند المقارنة نلاحظ أن حرف الميم إنطبق مع الميم في المدخل.

      و حرف التاء أيضاً تطابق مع حرف التاء في المدخل كما هو واضح في الرسم أعلاه.

        الآن نأخذ الحروف في المدخل المقابلة لحروف الوزن الأساسي ( ف ع ل ) و هي حرف الراء الذي يعلو الفاء، و حرف الباء الذي يعلو

        حرف العين و حرف الطاء الذي يعلو حرف اللام و ننزلها كجذر في الخانة السفلى كما في الرسم:

        و صار عندنا الحذر ( ر ب ط ).

        و لكن هذه الطريقة لا تخلو من بعض المشاكل فمثلاً المدخل ( قيل ) لا يوجد لها وزن لأنه يجب إرجاعها إلى أصلها و هي ( قول ).

        و أيضاً الفعل (عِ) في الجملة (عِ درسك) أي “إنتبة للدرس” او “إحفظ الدرس” ففعل الأمر (عِ) لا تستطيع هذه الخوارزمية إيجاد جذرها.

    – الخوارزمية العددية الجبرية:

        هناك صعوبات في التعامل معها، و صعبة التطوير لغير مصمم البرنامج نفسة لأنه معقد، و فكرته أن يقوم بتحويل الحروف إلى أرقام

        و من ثم التعامل معها و تحويلها إلى جذر.

    – الخوارزمية التبادلية ( تباديل ):

        و عمل هذا البرنامج هو إيجاد مجموعة من التباديل من حروف الكلمة المدخلة، ثم يحاول التأكد من أن الجذر صحيح و من ثم التأكد

        من أن الحروف الباقية حروف زائدة.

        فمثلاً كلمة ( المرتبطون ) فسيأخذ الحروف و يجرب تباديلها فمثلاً سيجد “رتب” و لكنه سيجد من الحروف الباقية حرف الطاء و لكنه حرف

        غير زائد فسيعلم أن “رتب” ليست الجذر و سيأخذ “ربط” و سيجد أن باقي الحروف كلها مزيده إذاً “ربط” هو الجذر.

        و لكن عيب هذه الطريقة هي أنها مكلفة جداً للبرنامج و تأخذ وقت طويل خصوصاً إذا زادت طول الكلمة عن 4 أحرف.

    – الـ State Machine :

        و هذه الطريقة شبيهه بعمل برنامج الـ Lex في تكوين الـ Scanner الخاص بالكمبايلر، و هي تعتمد على مبدأ الـ State Machine .

الكاتب geek4arab

geek4arab

مواضيع متعلقة

التعليقات مغلقة