الآخر الأسئلة

Sami Kayseri
  • 5
  • 5

بما أن هذا السؤال يدور حول موضوع يعتبر من صُلب إختصاصي فأعتقد أنني مؤهل للإجابة عليه بالتفصيل ولربما بعد قرائتك لهذه الإجابة تكون قادرا على أن تخطوا خطواتك الأولى في تطوير هذا النظام بنفسك وباللغة التي تريدها ولكن عليك أن تقرأ ما سأكتبه بتمعن وأتمنى أن يكون أسلوبي سلس في ...‫اقرأ المزيد

بما أن هذا السؤال يدور حول موضوع يعتبر من صُلب إختصاصي فأعتقد أنني مؤهل للإجابة عليه بالتفصيل ولربما بعد قرائتك لهذه الإجابة تكون قادرا على أن تخطوا خطواتك الأولى في تطوير هذا النظام بنفسك وباللغة التي تريدها ولكن عليك أن تقرأ ما سأكتبه بتمعن وأتمنى أن يكون أسلوبي سلس في كتابة الإجابة وأن تنال إعجابك.

بالبداية أنا أعمل على تطوير هكذا نظام منذ أكثر من عام وحتى الآن حيث أنني كُلفت بتصميم نظام قادر على فهم المدخلات الصوتية باللغة الألمانية وتحويلها إلى نص ومن ثم تصنيف هذا النص وتقديم إجابة مناسبة على شكل مخرجات صوتية أي ما أفعله بالتفصيل هو :

  1. تحويل المدخلات الصوتية إلى نصوص (speech to text)
  2. فهم النص وتصنيفه (text classification أو Intent classification)
  3. إيجاد النص الذي يعتبر إجابة مناسبة لذلك التصنيف
  4. تقديم الإجابة على شكل مخرجات صوتية (text to speech)

هذه الآلية تشبه تماما نظام أليكسا

ولكن سأكتفي بهذه الإجابة بشرح الخطوة الأولى فقط وإن تطلب الأمر سأعود لاحقا لشرح الخطوات المتبقية أيضا.

لن أستخدم الطريق الصعب لشرح هذا النظام حيث أنني سأعتبر أن غالبية من سيقرؤون هذه الإجابة لا يمتلكون أدنى معرفة بالنظام .

آلية العمل

شهدت هذه الأنظمة تطوراً ملحوظاً خلال السنوات القليلة الماضية وكان الفضل يعود إلى :

  • توفر البيانات الضخمة
  • توفر قدرات حسابية هائلة جدا (GPUs)
  • تطوير خوارزميات جديدة بشكل كبير جدا في مجال التعلم العميق (Deep Learning)

وبالتالي أصبحنا أمام أنظمة ذكية قادرة على فهم الأصوات وتحويلها إلى نصوص بالإضافة إلى فهم النص أيضا بدقة عالية وهذا كله يتم بالآلية التالية:

  • يجب علينا تحديد اللغة التي نريد تطوير نظام لها وعلى سبيل المثال (اللغة العربية)
  • يجب علينا توفير بيانات بهذه اللغة وتكون مكونة من [الملف الصوتي] بالإضافة إلى [النص] الخاص به وكلما توفرت لديك بيانات أكثر كلما ساهم ذلك بتحسين دقة النظام. ولحسن الحظ أن موقع Mozille قام بتنفيذ مشروع يهدف إلى توفير البيانات الصوتية بالمجان للجميع والأمر الجميل أيضا أن اللغة العربية أيضا متواجدة ولكن حتى الآن تحتوي على كمية قليلة من البيانات الصوتية وتستطيع إيجاد قاعدة البيانات للغة التي تريد من هنا Common Voice by Mozilla حيث يمكنك أيضا المساهمة في نمو اللغة العربية ستجد التفاصيل بالموقع اعلاه.
  • العمل على تجهيز ومعالجة الملفات الصوتية ويتم ذلك بإستخدام :
    – (Mel-frequency cepstral coefficients (MFCCs
    – Spectrogram
قراءة أقل