التعرف الضوئي على الكتابة العربية

Spread the love
التعرف الضوئي على الكتابة العربية (بواسطة : طلال السبيعي | بتاريخ : 9 أغسطس 2004 )
بسم الله الرحمن الرحيم

 

التعرف الضوئي  للكتابة العربية

(428 عال)

 

ينقسم التعرف الضوئي للكتابة إلى قسمين on-line and off-line.

 

1. on-line: يتم التعرف على الكتابة اليدوية مباشرة أثناء الكتابة باستخدام قلم ضوئي على شاشة خاصة مربوط بالحاسب أو باستخدام الفارة للكتابة يدويا على الشاشة. من الأمثلة في ذلك “القلم العربي” من شركة الأقصى (الكويت) و “القلم الضوئي العربي” من شركة دار حوسبة النص العربي (الأردن). رغم أن هذه الطريقة مخصصة للتعرف على الكتابة اليدوية، إلا أن النظام يمكنه التسجيل  اللحظي لكيفية وتسلسل الكتابة، مما يسهل التعرف. تطبيقات هذا النوع ليست كثيرة إلا أنه يريح المستخدم من لوحة المفاتيح.

 

2. off-line: التعرف على النص المكتوب (آليا أو يدويا) على الورق. أغلب الأبحاث هي في هذا المجال. من أمثلة البرامج التجارية “القارئ الآلي” من صخر.

 

من الثمانينيات من القرن الماضي، كان هناك بحث متزايد نحو التعرف على الأحرف العربية. إن هذا المجال مهم ليس فقط للدول الناطقة بالعربية بل حتى للغات المشابهة مثل الأوردو والفارسي، التي لها مجموعة حروف مشابهة. التقنيات المستخدمة للتعرف على الحروف اللاتينية والصينية لا يمكن تطبيقها بسهولة على اللغة العربية وذلك لطبيعة الكتابة العربية.

تكتب الكلمات العربية بحروف متصلة. هناك 28حرفاً في اللغة العربية وتكتب من اليمين إلى اليسار. الحرف الواحد قد يكون له أربعة أشكال اعتماداً على مكانه في الكلمة. كثير من الحروف مكونة من جزأين: الجسم وعدد من النقاط أو الأشكال فوقها أو تحتها أو بداخلها. عدد النقاط إما واحد أو اثنان أو ثلاثة. أما الأشكال فهي كثيرة منها الهمزة والمدة والشدة وعلامات الضبط بالشكل.

بدأت البحوث العربية في التعرف على الحروف العربية المعزولة. أما في الوقت الحاضر، فقد طورت طرق جديدة للتعرف على الكتابة اليدوية بدقة قد تصل إلى 95%.

 

الخطوات الأساسية للتعرف على الكتابة العربية

 

أغلب هذه الخطوات تنطبق على كلا الصنفين السابقين، إلا أن التركيز هنا على الصنف الثاني.

1. ما قبل المعالجة (pre-processing)

بعد الحصول على النص على شكل صورة (مثلا باستخدام الماسح الضوئي)، يتم تنقية الصورة من الشوائب غير النصية (مثل الرسوم والأطراف السوداء). يعتمد وضوح الصورة على عوامل عدة منها تاريخ الأصل وطريقة الطباعة (ليزر أو نقطية، مثلا)، وضوح البنط، جودة الورق، سلامة الأصل من التظليل والتخطيط. الخطوات التالية تعتبر من الخطوات المتبعة في المعالجة القبلية:

–                   التحويل الثنائي:الحالة المعتادة أن تكون الكتابة بخط أسود على خلفية بيضاء، ولذا يمكن تحويل كل نقطة (pixel) داكنة بدرجة معينة إلى 1 والفاتحة إلى 0. وهذا يساعد في تقليل التشويش الحاصل في الصورة.

–                   الملاسة: يمكن تحديد حالة نقطة معينة (pixel) من خلال النقاط الثمان المحيطة بها. بالإضافة إلى عمليات أخرى.

–                   التنحيف: وذلك بحذف النقاط العرضية الزائدة الواصلة بين نقطتين، فمثلا قد تكون الألف عبارة عن مستطيل ذو عرض معين فيحول إلى مستقيم عرضه نقطة واحة (pixel). فحذف النقاط الزائدة وحفظ أقل عدد من النقاط الضرورية للتعرف على الحرف يساعد في تسريع الخطوات اللاحقة وتوفير الذاكرة.

–                                                       التناغم بين حجم الحروف وتحويلها إلى حروف ذات حجم متساو.

–                   تحديد السطر المرجعي (baseline):

يحمل معلومات مهمة حول طبيعة الحرف ونقاط الاتصال بين الحروف.

    2. التقطيع (Segmentation)

التقطيع خطوة هامة لما بعدها من الخطوات، وينقسم إلى:

(أ‌)  التقطيع إلى سطور: من المهم تمييز كل سطر عن السطر الذي قبله والذي بعده. وهذه ليست عملية سهلة في اللغة العربية لكثرة النقط والأشكال الفوقية والتحتية والتي قد يكون فيها تداخل مع السطر القبلي أو البعدي.

(ب‌)    التقطيع إلى كلمات: الكلمة الواحدة في اللغة العربية قد تتكون من أجزاء منفصلة، لذا يجب تحديد المسافات الرأسية التي يمكن على ضوئها معرفة الفرق بين أجزاء الكلمة الواحدة و كلمتين منفصلتين. لعمل ذلك، يمسح كل سطر من اليمين إلى اليسار ويحدد عرض الفراغ. إذا كان أكبر من مقدار محدد فإنه يعتبر فراغ بين كلمة وأخرى وإذا كان أقل فإنه يعتبر فراغ بين الحروف.

(ت‌)    التقطيع إلى حروف أو أجزاء من الحرف: قد يكون من الصعب التعرف على الحروف المتصلة وذلك بسبب عدم معرفة النقطة الفاصلة بين نهاية الحرف وبداية الحرف الذي يليه (لا توجد هذه في اللغة الإنجليزية المطبوعة). يمكن التعرف على الحرف بتقطيعه إلى أجزائه الأولية (خطوط مستقيمة أو منحنيات وزوايا). لاحظ أن كثيرا من الحروف العربية تتكون من شكل رئيسي وشكل أو أشكال ثانوية (يمثل النقاط والحركات).

ملحوظة: بعض الأنظمة لا تقوم بعملية التقطيع إلى كلمات بل تأخذ الكلمة جملة واحدة، هذه الأنظمة موجهة في  العادة إلى التعرف على كلمات محدودة.

 

    3. استخلاص الخصائص والتصنيف (Feature extraction and Classification)

بعد عملية التقطيع يتم استخلاص الخصائص العامة للجزء الذي تحت الدراسة . من الخصائص الممكنة: الخصائص التركيبية (شكل الجزء)، الخصائص الإحصائية (مثل عدد النقاط في المنطق المختلفة من الجزء ومحور تمركزها)، التحويل (تحويل الجزء إلى متجهات مستقيمة بزوايا محددة)، التطابقية (مقارنة الجزء نقطة نقطة مع شكل محفوظ سلفا (template) ).

التصنيف هو عملية تحديد الحرف (أو مجموعة الحروف الممكنة). طريقة التصنيف تعتمد بشكل كبير على طبيعة عملية التقطيع (حرف أو أجزاء      من الحرف).

 

    4. ما بعد المعالجة

يستخدم المعجم العربي للفحص و التصحيح. إذا كانت صحيحة كان التعرف ناجحا وإلا صححت الكلمة، وغالباُ ما يتم التصحيح في حالة وجود كلمة مشابهة مع الفرق في حرف أو حرفين. فمثلا هناك تقارب كبير بين حرف الغين وحرف الفاء المتوسطة تستخدم لاختيار التفسير الأمثل للكلمة. وإذا لم توجد كلمة مشابهة قد يسأل المستخدم لإدخالها إلى المعجم إذا رغب في ذلك.

 

الكاتب geek4arab

geek4arab

مواضيع متعلقة

التعليقات مغلقة