السبت، 17 يونيو 2023

الذكاء الاصطناعي الجديد Voicebox meta تحويل النص إلى كلام  وإمكانية التحدث بلغات متعددة

الذكاء الاصطناعي الجديد Voicebox meta تحويل النص إلى كلام وإمكانية التحدث بلغات متعددة

الذكاء الاصطناعي الجديد Voicebox meta تحويل النص إلى كلام  وإمكانية التحدث بلغات متعددة


 كشفت Meta الآن عن أداة ذكاء اصطناعي توليدية جديدة تسمى Voicebox، والتي يمكنها أداء مهام مختلفة مثل تحويل النص إلى صوت وتقليل الضوضاء وتحرير الصوت. من أهم ميزات هذا النموذج تلقي عينة صوتية من لغة ما وتحويلها إلى لغات أجنبية. يمكن لهذه الأداة أن تفعل ما يفعله ChatGPT و DALL-E في مجال تحويل النص إلى صوت في مجال إنشاء النص والصور.

الذكاء الاصطناعي الجديد Voicebox meta تحويل النص إلى كلام  وإمكانية التحدث بلغات متعددة


AI Voicebox هو محول تحويل النص إلى كلام الذي يصفه Meta بأنه "نموذج مزامنة دفق غير متناقص ذاتيًا لإكمال الصوت المستند إلى السياق والنص." تم تدريب النموذج على أكثر من 50000 ساعة من التدريب الصوتي، واستخدمت Meta على وجه التحديد صوتًا مسموعًا باللغة الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية.


ومن بين الإمكانات المهمة لهذا الذكاء الاصطناعي، نقل أسلوب الكلام من لغة إلى لغات أجنبية أخرى. لاستخدام هذه الميزة، ما عليك سوى إعطاء Voicebox عينة مدتها ثانيتان من صوتك مع نص باللغات الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية واطلب من الذكاء الاصطناعي قراءة النص بهذه اللغات. تقول الشركة إن نموذجها يمكن أن يترجم فعليًا أي نص من لغة إلى أخرى، مع الحفاظ على الشكل المنطوق للغة الهدف.

ما هي الإمكانيات الأخرى التي يمتلكها نموذج الذكاء الاصطناعي الفوقية الخاص بـ Voicebox؟

يساعد النطاق الواسع لبيانات الإدخال النظام على إنتاج أصوات أكثر تخاطبًا. يقول ميتا: "تُظهر نتائجنا أن نماذج التعرف على الكلام المدربة على الأصوات التي تم إنشاؤها باستخدام Voicebox تعمل تقريبًا بنفس جودة أداء النماذج المدربة على الأصوات الحقيقية". بالإضافة إلى ذلك، واجهت الأصوات التي تم إنشاؤها بواسطة الكمبيوتر خطأ تدهور بنسبة 1 في المائة فقط، مقارنة بـ 45 إلى 70 في المائة لنماذج تحويل النص إلى كلام (TTS) الأخرى.

يمكن لنموذج الذكاء الاصطناعي الخاص بـ Voicebox تحرير الأصوات وإزالة الضوضاء من المحادثات وحتى تصحيح الكلمات المنطوقة بشكل خاطئ . يقول باحثو Meta، على سبيل المثال، يمكن للمستخدم تحديد أي جزء من الملف الصوتي به ضوضاء ثم يطلب من الذكاء الاصطناعي إعادة إنتاج هذا الجزء.

لا يحتاج نموذج Voicebox إلى حجم كبير من بيانات الإدخال بفضل طريقة التعلم التلوي الجديدة المسماة "مطابقة التدفق". تُظهر نتائج المعيار المعياري أن هذا الذكاء الاصطناعي يعمل بشكل أفضل بكثير من أفضل أنظمة تحويل النص إلى كلام من حيث الأخطاء (1.9٪ مقارنة بـ 5.9٪) وأسرع بما يصل إلى 20 مرة .


تصف Meta إمكانات Voicebox على النحو التالي:


  • تحويل النص إلى صوت في السياق: من خلال تلقي عينة صوتية مدتها ثانيتان، يتعرف على نغمة الصوت وأسلوبه ويحول النص إلى صوت بنفس النمط.
  • تحرير المحادثة وتقليل الضوضاء: يمكن إعادة بناء جزء من محادثة صوتية مزعجة بسبب الضوضاء أو الكلمات الصحيحة التي لا يتم نطقها بشكل صحيح دون الحاجة إلى إعادة التسجيل.
  • نقل نمط وسياق محادثة من لغة إلى لغة أخرى: يمكن أن تتلقى عينة من محادثة أو جزء من نص وتحويلها إلى ملف صوتي بالإنجليزية أو الفرنسية أو الألمانية أو الإسبانية أو البولندية أو البرتغالية.
  • أخذ عينات الكلام المتنوعة: يستخدم مجموعة متنوعة من البيانات لإنشاء صوت لإعادة إنتاج نوع المحادثة التي يجريها الأشخاص بشكل أكثر دقة باللغات الست المشار إليها.

الذكاء الاصطناعي الجديد Voicebox meta تحويل النص إلى كلام  وإمكانية التحدث بلغات متعددة


ومع ذلك، فإن نموذج Wisbox أو كود المصدر الخاص به غير متاح للجمهور. اعترفت Meta أنه نظرًا للمخاطر المحتملة، ليس لديها نية لإتاحة هذا النموذج لعامة الناس. في الوقت الحالي، نشروا فقط ورقة بحثية أولية عن النموذج، لكنهم يأملون في استخدام التكنولوجيا في المستقبل لمساعدة الأشخاص الذين يعانون من مشاكل الأحبال الصوتية، والشخصيات غير القابلة للعب في الألعاب، والمساعدين الصوتيين.

تعتقد Meta أنه في المستقبل، ستكون نماذج الذكاء الاصطناعي متعددة الأغراض مثل Voicebox قادرة على إعطاء أصوات طبيعية للمساعدين الرقميين وشخصيات NPC في Metaverse. باستخدام هذه الأداة، يمكن للأشخاص ضعاف البصر أو المكفوفين سماع الرسائل النصية لأصدقائهم كصوت، كما يقول ميتا، ويمكن لمنشئي المحتوى إنشاء مقاطع صوتية أو تحريرها بسهولة أكبر من أي وقت مضى.


0 coment�rios: