ميتا تطلق أول نظام ترجمة الخطاب الشفهي مدعوم من الذكاء الاصطناعي للغة غير مكتوبة

Meta AI Speech

حتى الآن، ركزت ترجمة الذكاء الاصطناعي على اللغات المكتوبة. ومع ذلك، من بين أكثر من 7,000 لغة حية، فإن أكثر من 40٪ من اللغات تعد لغات شفهية ومنطوقة في المقام الأول، وليس لديها نظام قياسي أو معروف على نطاق واسع للكتابة. يركز مشروع مترجم الخطاب الشفهي العالمي (UST) من ميتا على تطوير أنظمة ذكاء اصطناعي توفر ترجمة من-الخطاب-إلى-الخطاب (speech-to-speech) الفورية عبر جميع اللغات، حتى اللغات المنطوقة بشكل أساسي.

القدرة على التحدث إلى البشر بلغات مختلفة دون الحاجة لقضاء سنوات من الدراسة هو حلم طال انتظاره. يمكن أن تساعد الاتصالات المنطوقة في كسر الحواجز وجمع البشر معاً أينما كانوا – حتى في الميتافيرس. لقد اتخذنا خطوة أخرى نحو هذا الهدف مع UST، وهو أول نظام ترجمة من الخطاب-إلى-الخطاب مدعوم بالذكاء الاصطناعي تم تطويره للغة غير مكتوبة.

وكما ذكرنا في فعالية Meta Connect هذا الشهر، قام باحثونا بالذكاء الاصطناعي ببناء أنظمة ترجمة مفتوحة المصدر للغة الهوكين، وهي واحدة من اللغات الرسمية في تايوان ويتم التحدث بها على نطاق واسع داخل منطقة الشتات الصيني، ولكنها تفتقر إلى شكل قياسي مكتوب. تسمح هذه التقنية للمتحدثين بلغة الهوكين بإجراء محادثات مع الأشخاص الذين يتحدثون الإنجليزية. لتطوير نظام الترجمة الجديد هذا والمخصص للخطاب الشفهي فقط، كان على باحثي الذكاء الاصطناعي في ميتا التغلب على العديد من التحديات في أنظمة الترجمة الآلية التقليدية، بما في ذلك جمع البيانات، تصميم النماذج، والتقييم.

التغلب على تحديات البيانات

ميتا

كان جمع البيانات الكافية عقبة كبيرة واجهناها عند الشروع في بناء نظام ترجمة الهوكين. الهوكين هي ما يعرف باسم لغة ناقصة الموارد، مما يعني أنه لا توجد إمدادات كافية من بيانات التدريب المتاحة بسهولة، مقارنة بالإسبانية أو الإنجليزية على سبيل المثال. بالإضافة إلى ذلك، هناك عدد قليل نسبياً من المترجمين البشريين من اللغة الإنجليزية إلى الهوكين، مما يجعل من الصعب جمع البيانات وتفسيرها لتدريب النموذج.

قمنا بالاستفادة من لغة الماندرين كلغة وسيطة لبناء تسميات مستعارة، حيث قمنا أولاً بترجمة الخطاب بالإنجليزية (أو الهوكين) إلى نص بلغة الماندرين، ثم ترجمنا إلى الهوكين (أو الإنجليزية) وأضفناه إلى بيانات التدريب. حسنت هذه الطريقة بشكل كبير من أداء النموذج عبر الاستفادة من البيانات من لغة مماثلة عالية الموارد.

استخراج الخطاب هو نهج آخر للتدريب على زيادة البيانات. باستخدام برنامج تشفير الخطاب المدرب مسبقاً، يمكننا تشفير تضمينات خطاب الهوكين في نفس المساحة الدلالية مثل تضمين النص الإنجليزي. يمكن موائمة خطاب الهوكين مع النصوص الإنجليزية التي تتشابه تضميناتها الدلالية. نقوم أيضاً بتوليف الخطاب الإنجليزي من النصوص، مما يؤدي إلى خطاب متوازي ما بين الهوكين والإنجليزية.

نهج جديد للنمذجة

تعتمد العديد من أنظمة ترجمة الخطاب على النص المكتوب، أو هي بالأساس أنظمة تحويل الخطاب إلى نص، ولكن اللغات غير المكتوبة ليس لها أشكال قياسية مكتوبة. وهذا يعني أن إنتاج نص منسوخ كناتج ترجمة ليس منطقياً. وبالتالي، نركز على الترجمة من الخطاب إلى الخطاب.

تطلب مشروعنا نهجاً متنوعاً. استخدمنا ترجمة الخطاب إلى وحدة (S2UT) لتحويل الخطاب المدخل إلى سلسلة من الوحدات الصوتية مباشرة في المسار الذي كانت ميتا قد حققت الريادة به سابقا. ثم أنشأنا أشكالاً موجية من الوحدات. بالإضافة إلى ذلك، تم اعتماد UnitY لمنظومة فك تشفير ثنائية المرور، حيث يقوم جهاز فك تشفير الممر الأول بإنشاء نص بلغة ذات صلة (الماندرين)، ويقوم جهاز فك تشفير الممر الثاني بإنشاء وحدات.

تقييم ترجمات الهوكين

META AI

عادةً ما يتم تقييم أنظمة ترجمة الخطاب باستخدام مقياس يسمى ASR-BLEU، والذي يتضمن أولاً نسخ الخطاب المترجم إلى نص باستخدام التعرف التلقائي على الخطاب (ASR)، ثم حساب درجات BLEU (مقياس ترجمة آلية قياسي) من خلال مقارنة النص المنسوخ بنص مترجم من قبل الإنسان. ومع ذلك، فإن أحد تحديات تقييم ترجمات الخطاب للغة غير مكتوبة مثل الهوكين هو أنه لا يوجد نظام كتابة قياسي. من أجل تمكين التقييم التلقائي، قمنا بتطوير نظام ينسخ خطاب الهوكين إلى صوت موحد يسمى Tâi-lô، والذي يُمكِّنا بعد ذلك من حساب درجة BLEU على مستوى المقطع ومقارنة جودة عدة طرق مختلفة من الترجمة بسهولة.

بالإضافة إلى تطوير طريقة لتقييم ترجمات الخطاب بين الهوكين والإنجليزية، أنشأنا أيضاً أول مجموعة بيانات معيارية للترجمة من الخطاب إلى الخطاب ثنائي الاتجاه من الهوكين إلى الإنجليزية استناداً إلى مجموعة خطابات الهوكين تسمى التايوانية عبر تايوان. ستكون مجموعة البيانات القياسية هذه مفتوحة المصدر لتشجيع الباحثين الآخرين على العمل على ترجمة خطاب بلغة الهوكين وإحراز المزيد من التقدم في هذا المجال.

التطلع إلى مستقبل الترجمة

نخطط لاستخدام نظام ترجمة الهوكين الخاص بنا كجزء من مترجم خطاب عالمي، وسنتيح مصادر نموذجنا وشفرتنا وبيانات التدريب الخاصة بنا لمجتمع الذكاء الاصطناعي لتمكين الباحثين الآخرين من تطوير هذا الإنجاز. في مرحلته الحالية، يسمح نهجنا لشخص يتحدث بلغة الهوكين بالتحدث مع شخص يتحدث الإنجليزية. في حين أن النموذج لا يزال قيد التطوير ولا يمكنه ترجمة سوى جملة كاملة واحدة في كل مرة، إلا أنه خطوة نحو مستقبل تكون فيه الترجمة الفورية بين اللغات ممكنة.

يمكن توسيع التقنيات التي ابتكرناها مع لغة الهوكين إلى العديد من اللغات الأخرى غير المكتوبة، والتي ستعمل في النهاية بشكل فوري. وتحقيقاً لهذه الغاية، فإننا بصدد إطلاق مصفوفة الخطاب، وهي عبارة عن مجموعة كبيرة من الترجمات من الخطاب إلى الخطاب تم استخراجها باستخدام تقنية ميتا المبتكرة لاستخراج البيانات المسماة LASER، والتي ستمكِّن الباحثين من إنشاء أنظمة الترجمة من الخطاب إلى الخطاب (S2ST) الخاصة بهم والبناء على عملنا.

يحول LASER الجمل من لغات مختلفة إلى تمثيل واحد متعدد الوسائط واللغات. استخدمنا بحث التشابه واسع النطاق ومتعدد اللغات لتحديد الجمل المتشابهة في الفضاء الدلالي، أي من المحتمل أن يكون لها نفس المعنى في لغات مختلفة. لقد طبقنا LASER لبناء CCMatrix و CCAlign، القادرين على العثور على نصوص متوازية على الإنترنت.

قام فريقنا مؤخراً بتوسيع LASER للعمل أيضاً مع الخطاب. من خلال إنشاء تمثيلات للخطاب والنص في نفس المساحة متعددة اللغات، يمكننا استخراج الترجمات بين الخطاب بلغة والنص بلغة أخرى – أو حتى الترجمات المباشرة من الخطاب إلى الخطاب. توفر البيانات المستخرجة من Speech Matrix ما مجموعه 418 ألف ساعة من الخطاب المتوازي الذي يغطي 272 اتجاهاُ لغويا. تم استخراج أكثر من 8,000 ساعة من خطاب الهوكين جنباً إلى جنب مع الترجمات الإنجليزية المقابلة.

بالإضافة إلى ذلك، فإن التطورات الأخيرة التي حققتها ميتا في مجال تعريف الخطاب غير الخاضع للإشراف (wav2vec-U) والترجمة الآلية غير الخاضعة للإشراف (mBART) ستفيد العمل المستقبلي في ترجمة المزيد من اللغات المنطوقة. مع هذا التقدم في التعلم غير الخاضع للإشراف، نثبت جدوى بناء نماذج ترجمة عالية الجودة من الخطاب إلى الخطاب دون أي تفسيرات توضيحية بشرية. وهذا يقلل بشكل كبير من متطلبات توسيع نطاق تغطية اللغات منخفضة الموارد، حيث أن العديد منها لا يحتوي على بيانات التسمية على الإطلاق.

يساعد الذكاء الاصطناعي الأبحاث على كسر الحواجز اللغوية في كل من العالم الحقيقي والميتافيرس. وفي المستقبل، قد لا تشكل جميع اللغات، سواء كانت مكتوبة أو غير مكتوبة، عقبة أمام التفاهم المتبادل. ونحن نتطلع إلى المساهمة في مستقبل سهولة التواصل.