كيف يتعلم LLMs التمييز بين الأصوات المكانية

<ص> البشر يمتلك فريد حسي المهام، ضمن هم بكلتا الأذنين سمع — معنى نحن يمكن تحديد الأنواع ل ها، مثل حسن مثل ماذا اتجاه إنها مستقبل منذ و كيف بعيد بعيد هو شرق، و نحن يمكن أيضا يميز عديد مصادر ل ها الجميع يحدث الى مرة. <ص> في حين أن كبير لغة عارضات ازياء (ماجستير) نكون بديع في هُم قدرة الى يؤدي صوتي سؤال إجابة و خطاب إعتراف، ترجمة و توليف، هم يمتلك مرة أخرى الى مقبض هذه "في الطبيعة" مكاني صوتي لإدخال. <ص> أ فرقة ل الباحثين شرق أخيراً رحيل الى كسر ان مشفرة, عرض خفاش، ماذا هم نكون يتصل ال أولاً مكاني، الصوت على أساس ماجستير ان يمكن سبب عن اصوات في أ 3D بيئة. <ص> ال نموذج ساعة بديع دقة في تصنيف الأنواع ل صوتي (هذه مثل يضحك، نبض القلب، و البقع ماء)، ها اتجاه (مستقيم، غادر، أقل) و ها مسافة (في أى مكان منذ 1 الى عشرة قدم). هو أيضا الى قوي قدرات في مكاني منطق في سيناريوهات أو اثنين مختلف اصوات نكون تداخل. الاب حدث <ص> GamesBeat قمة يتصل ل مكبرات الصوت
<ص> كان بسعادة غامرة الى يفتح ملكنا يتصل ل مكبرات الصوت الى ملكنا الرئيسية حدث، GamesBeat قمة 2024 مستضاف في العظم أنجيليس, أو نحن إرادة يستكشف ال سمة ل "صمود و التكيف."
يتقدم الى يتحدث هنا <ص> "ال التكامل ل مكاني صوتي في ماجستير ممثلة أ بارِز منصة تجاه حقًا الوسائط المتعددة منظمة العفو الدولية الأنظمة "، الباحثين يكتب. ال التعقيدات ل مكاني صوتي <ص> مكاني صوتي — أحيانا مشار إليه الى مثل 'افتراضي تحيط ها' — يخلق ال وهم ل ها مصادر في أ 3D فضاء. هو شرق مستخدم في تطبيقات بما فيه افتراضي الواقع (الواقع الافتراضي) و يتقدم مسرح أنظمة (مثل حسن مثل آخر المستجدة المناطق، هذه مثل ال ميتافيرس). <ص> لكن مكاني صوتي شرق صعب ل منظمة العفو الدولية و آلة تعلُّم (مل)، مثل ماهر عملاء في 3D الأماكن كفاح الى حدد و يفسر ها مصادر. العلماء يمتلك خيمة الى يخفف من هذا مع ال تطوير ل صوتي محاكاة التقنيات و خوارزميات التأسيس مكاني صوتي معلومة (هذه مثل يوتيوب 360 و ستارس23). <ص> لكن، الخفافيش المطورين يشير خارج، ان هؤلاء تطبيقات نكون غالبا ما تتعارض في جودة و عدم وجود "مهم أرضي حقيقة تسميات" هذه مثل مصدر مسافة و اتجاه. بنفس الطريقة، ها حدث موقع و كشف (مباع)، أيّ الصمامات ها مصدر موقع مع ها حدث كشف (سيد) غالبا ما يركز على "أجوف مكاني صوتي تصور،" الباحثين يشير في الخارج.
<ص> آخر تطبيقات في ال صوتي مجال يشمل أوديو جي بي تي، أيّ مدمج ChatGPT ل أ واسع يتراوح ل صوتي و خطاب التطبيقات؛ لتو، أيّ القطارات عارضات ازياء الى سبب و إجابة أسئلة عن اصوات في أ مقطع؛ و كوين الصوت, أيّ يسمح عالمي صوتي الفهم.
<ص> "لكن، بالرغم من هُم بديع أداء في ال صوتي مجال، لا أحد ل هؤلاء عارضات ازياء يمتلك ال موهبة الى يتصور و سبب عن مكاني صوتي ان شرق تقع في متنوع، ترددي, و معقد 3D البيئات" الباحثين يؤكد. أسئلة على ها يكتب، اتجاه، مسافة و مكاني منطق <ص> خفاش يبدو الى لينسكب هذا، التظاهر قوي قدرات في مكاني منطق قدرات مع مختلط اصوات و مصادر، يصل أ بالكاد 77% دقة معدل. <ص> إنها الكامنة مكاني صوتي التشفير, في هذه الأثناء، وصل أ يقصد متوسط دقة ل أكثر ان 50% في تحديد ها يكتب؛ أ يقصد الزاوي خطأ ل بالكاد 18 درجات ل ها اتجاه؛ و أ مسافة خطأ معدل في 1.64 قدم ل ال حقيقي موقع الى 32.54% ل مسافة تقدير.
<ص> ال الباحثين — منذ ال جامعة ل تكساس، ال الولايات المتحدة 2القسم ل حاسوب علم و هندسة و شنغهاي جياو تونغ جامعة في الصين — بدأ بواسطة أولاً تطوير أ مكاني صوتي مخطط طيفي محول (المكانية-AST)، أيّ شرق قادر ل ها حدث كشف، مكاني موقع و مسافة تصور؛ و سباتيالسوندكا، ...

اعمال Feb 13, 2024 0 12 Add to Reading List

كيف يتعلم LLMs التمييز بين الأصوات المكانية

<ص> البشر يمتلك فريد حسي المهام، ضمن هم بكلتا الأذنين سمع — معنى نحن يمكن تحديد الأنواع ل ها، مثل حسن مثل ماذا اتجاه إنها مستقبل منذ و كيف بعيد بعيد هو شرق، و نحن يمكن أيضا يميز عديد مصادر ل ها الجميع يحدث الى مرة. <ص> في حين أن كبير لغة عارضات ازياء (ماجستير) نكون بديع في هُم قدرة الى يؤدي صوتي سؤال إجابة و خطاب إعتراف، ترجمة و توليف، هم يمتلك مرة أخرى الى مقبض هذه "في الطبيعة" مكاني صوتي لإدخال. <ص> أ فرقة ل الباحثين شرق أخيراً رحيل الى كسر ان مشفرة, عرض خفاش، ماذا هم نكون يتصل ال أولاً مكاني، الصوت على أساس ماجستير ان يمكن سبب عن اصوات في أ 3D بيئة. <ص> ال نموذج ساعة بديع دقة في تصنيف الأنواع ل صوتي (هذه مثل يضحك، نبض القلب، و البقع ماء)، ها اتجاه (مستقيم، غادر، أقل) و ها مسافة (في أى مكان منذ 1 الى عشرة قدم). هو أيضا الى قوي قدرات في مكاني منطق في سيناريوهات أو اثنين مختلف اصوات نكون تداخل. الاب حدث <ص> GamesBeat قمة يتصل ل مكبرات الصوت

<ص> كان بسعادة غامرة الى يفتح ملكنا يتصل ل مكبرات الصوت الى ملكنا الرئيسية حدث، GamesBeat قمة 2024 مستضاف في العظم أنجيليس, أو نحن إرادة يستكشف ال سمة ل "صمود و التكيف."

يتقدم الى يتحدث هنا <ص> "ال التكامل ل مكاني صوتي في ماجستير ممثلة أ بارِز منصة تجاه حقًا الوسائط المتعددة منظمة العفو الدولية الأنظمة "، الباحثين يكتب. ال التعقيدات ل مكاني صوتي <ص> مكاني صوتي — أحيانا مشار إليه الى مثل 'افتراضي تحيط ها' — يخلق ال وهم ل ها مصادر في أ 3D فضاء. هو شرق مستخدم في تطبيقات بما فيه افتراضي الواقع (الواقع الافتراضي) و يتقدم مسرح أنظمة (مثل حسن مثل آخر المستجدة المناطق، هذه مثل ال ميتافيرس). <ص> لكن مكاني صوتي شرق صعب ل منظمة العفو الدولية و آلة تعلُّم (مل)، مثل ماهر عملاء في 3D الأماكن كفاح الى حدد و يفسر ها مصادر. العلماء يمتلك خيمة الى يخفف من هذا مع ال تطوير ل صوتي محاكاة التقنيات و خوارزميات التأسيس مكاني صوتي معلومة (هذه مثل يوتيوب 360 و ستارس23). <ص> لكن، الخفافيش المطورين يشير خارج، ان هؤلاء تطبيقات نكون غالبا ما تتعارض في جودة و عدم وجود "مهم أرضي حقيقة تسميات" هذه مثل مصدر مسافة و اتجاه. بنفس الطريقة، ها حدث موقع و كشف (مباع)، أيّ الصمامات ها مصدر موقع مع ها حدث كشف (سيد) غالبا ما يركز على "أجوف مكاني صوتي تصور،" الباحثين يشير في الخارج.

<ص> آخر تطبيقات في ال صوتي مجال يشمل أوديو جي بي تي، أيّ مدمج ChatGPT ل أ واسع يتراوح ل صوتي و خطاب التطبيقات؛ لتو، أيّ القطارات عارضات ازياء الى سبب و إجابة أسئلة عن اصوات في أ مقطع؛ و كوين الصوت, أيّ يسمح عالمي صوتي الفهم.

<ص> "لكن، بالرغم من هُم بديع أداء في ال صوتي مجال، لا أحد ل هؤلاء عارضات ازياء يمتلك ال موهبة الى يتصور و سبب عن مكاني صوتي ان شرق تقع في متنوع، ترددي, و معقد 3D البيئات" الباحثين يؤكد. أسئلة على ها يكتب، اتجاه، مسافة و مكاني منطق <ص> خفاش يبدو الى لينسكب هذا، التظاهر قوي قدرات في مكاني منطق قدرات مع مختلط اصوات و مصادر، يصل أ بالكاد 77% دقة معدل. <ص> إنها الكامنة مكاني صوتي التشفير, في هذه الأثناء، وصل أ يقصد متوسط دقة ل أكثر ان 50% في تحديد ها يكتب؛ أ يقصد الزاوي خطأ ل بالكاد 18 درجات ل ها اتجاه؛ و أ مسافة خطأ معدل في 1.64 قدم ل ال حقيقي موقع الى 32.54% ل مسافة تقدير.

<ص> ال الباحثين — منذ ال جامعة ل تكساس، ال الولايات المتحدة 2القسم ل حاسوب علم و هندسة و شنغهاي جياو تونغ جامعة في الصين — بدأ بواسطة أولاً تطوير أ مكاني صوتي مخطط طيفي محول (المكانية-AST)، أيّ شرق قادر ل ها حدث كشف، مكاني موقع و مسافة تصور؛ و سباتيالسوندكا، ...