تعرف على أحدث أبحاث مايكروسوفت فى الذكاء الاصطناعى لتحويل النص إلى كلام

مايكروسوفت
مايكروسوفت
كتبت سماح لبيب
أفادت شركة Ars Technica أن Microsoft عرضت أحدث أبحاثها في مجال الذكاء الاصطناعي لتحويل النص إلى كلام باستخدام نموذج يسمى VALL-E يمكنه محاكاة صوت شخص ما من عينة صوتية مدتها ثلاث ثوانٍ فقط، وفقا لتقرير engadget.  
 
ولا يمكن للخطاب أن يطابق الجرس فحسب بل يتطابق أيضًا مع النغمة العاطفية للمتكلم، وحتى صوتيات الغرفة، ويمكن استخدامه يومًا ما لتطبيقات تحويل النص إلى كلام المخصصة أو المتطورة، على الرغم من أنه مثل التزييف العميق ، فإنه ينطوي على مخاطر إساءة الاستخدام. 
 
VALL-E هو ما تسميه Microsoft "ونموذج لغة الترميز العصبي" إنه مشتق من ترميز الشبكة العصبية للضغط المدعوم بالذكاء الاصطناعي من ميتا  ، مما يولد الصوت من إدخال النص وعينات قصيرة من السماعة المستهدفة.
 
وفي ورقة بحثية ، وصف الباحثون كيف قاموا بتدريب VALL-E على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث في مكتبة Meta الصوتية LibriLight ، ويجب أن يكون الصوت الذي تحاول تقليده مطابقًا تمامًا للصوت الموجود في بيانات التدريب، وإذا كان الأمر كذلك فإنه يستخدم بيانات التدريب لاستنتاج ما سيبدو عليه المتحدث المستهدف إذا كان يتحدث بإدخال النص المطلوب.
 
ويوضح الفريق بالضبط كيف يعمل هذا بشكل جيد على صفحة VALL-E Github. لكل عبارة يريدون من الذكاء الاصطناعي "التحدث" ، لديهم مطالبة مدتها ثلاث ثوان من المتحدث لتقليد، "حقيقة أساسية" للمتحدث نفسه يقول عبارة أخرى للمقارنة ، "خط أساسي" لتحويل النص إلى كلام التقليدي التوليف وعينة VALL-E في النهاية. 
 
والنتائج مختلطة، بعضها يشبه الآلة والبعض الآخر واقعي بشكل مدهش، حقيقة أنه يحتفظ بالنبرة العاطفية للعينات الأصلية، كما أنه يطابق البيئة الصوتية بأمانة، لذلك إذا قام المتحدث بتسجيل صوته في قاعة echo-y ، فإن إخراج VALL-E يبدو أيضًا وكأنه جاء من نفس المكان. 
 
ولتحسين النموذج، تخطط Microsoft لتوسيع نطاق بيانات التدريب الخاصة بها "لتحسين أداء النموذج عبر وجهات نظر التشابه بين العروض الفنية وأسلوب التحدث والمتحدثين." كما أنها تستكشف طرقًا لتقليل الكلمات غير الواضحة أو المفقودة.
 
واختارت Microsoft عدم جعل الكود مفتوح المصدر، ربما بسبب المخاطر الكامنة في الذكاء الاصطناعي التي يمكن أن تضع الكلمات في فم شخص ما.
 
 وأضافت أنها ستتبع "مبادئ مايكروسوفت للذكاء الاصطناعي" في أي تطوير آخر، وكتبت الشركة في قسم "التأثيرات الأوسع" في استنتاجها: "نظرًا لأن VALL-E يمكنه تجميع الكلام الذي يحافظ على هوية المتحدث، فقد يحمل مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال الشخصية".
Google News تابع آخر أخبار اليوم السابع على Google News

Trending Plus

اليوم السابع Trending

الأكثر قراءة

عثمان ديمبيلي أفضل لاعب في العالم 2025 من التأريخ والإحصاء

التنمية المحلية: تخفيض رسوم ترخيص المحال العامة لمدة 6 أشهر بنسبة تصل لـ50%

مواعيد مباريات اليوم.. ألافيس ضد الريال ومان سيتي مع كريستال بالاس

100 مليون جنيه إسترليني تهدد بقاء محمد صلاح في ليفربول

أحمد حمدي يخطط للرحيل المجاني عن الزمالك نهاية الموسم


إخطار المقبولين بكلية الشرطة للعام الدراسي الجديد هاتفيًا وبرسائل نصية

وزير الخارجية يشدد على رفض مصر لأية إجراءات لتكريس الانفصال بين الضفة وغزة

أكاديمية الشرطة تعلن نتيجة الطلاب المتقدمين لها اليوم

الأهلي يتعهد بالسماح لمصطفى شوبير بالاحتراف الأوروبى.. اعرف التفاصيل

مستقبل محمد صلاح حديث صحف إنجلترا بعد تألقه مع ليفربول ضد برايتون


انتخابات مجلس النواب.. بدء الصمت الانتخابي فى 55 دائرة ضمن المرحلة الثانية

9 مواجهات مثيرة تنتظرك فى الجولة الثانية بكأس عاصمة مصر.. تعرف عليها

مواعيد مباريات اليوم الأحد 14-12-2025 والقنوات الناقلة

موعد مباراة الأهلى وسيراميكا فى الجولة الثانية بكأس عاصمة مصر

روبوت يختفى تحت جليد القطب الجنوبى 8 أشهر ويعود بمعلومات تثر الذعر.. ما القصة؟

مواعيد مباريات الزمالك فى بطولة كأس عاصمة مصر

إسلام عيسى: على ماهر أفضل من حلمى طولان ولو كان مدربا للمنتخب لتغيرت النتائج

شاهد أول صور من حفل زفاف التونسية دارين حداد فى دبى

أكاديمية الشرطة تعلن نتائج اختبارات المتقدمين للعام الدراسى.. غدا

المتسابق عبد الله عبد الموجود يحصل على أعلى الدرجات ببرنامج دولة التلاوة

لا يفوتك


المزيد من Trending Plus
Youm7 Applcation Icons
اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع اليوم السابع هواوى