كيف يتعلم LLMs التمييز بين الأصوات المكانية
<ص> البشر يمتلك فريد حسي المهام، ضمن هم بكلتا الأذنين سمع — معنى نحن يمكن تحديد الأنواع ل ها، مثل حسن مثل ماذا اتجاه إنها مستقبل منذ و كيف بعيد بعيد هو شرق، و نحن يمكن أيضا يميز عديد مصادر ل ها الجميع يحدث الى مرة. ص> <ص> في حين أن كبير لغة عارضات ازياء (ماجستير) نكون بديع في هُم قدرة الى يؤدي صوتي سؤال إجابة و خطاب إعتراف، ترجمة و توليف، هم يمتلك مرة أخرى الى مقبض هذه "في الطبيعة" مكاني صوتي لإدخال. ص> <ص> أ فرقة ل الباحثين شرق أخيراً رحيل الى كسر ان مشفرة, عرض خفاش، ماذا هم نكون يتصل ال أولاً مكاني، الصوت على أساس ماجستير ان يمكن سبب عن اصوات في أ 3D بيئة. ص> <ص> ال نموذج ساعة بديع دقة في تصنيف الأنواع ل صوتي (هذه مثل يضحك، نبض القلب، و البقع ماء)، ها اتجاه (مستقيم، غادر، أقل) و ها مسافة (في أى مكان منذ 1 الى عشرة قدم). هو أيضا الى قوي قدرات في مكاني منطق في سيناريوهات أو اثنين مختلف اصوات نكون تداخل. ص> الاب حدث <ص> GamesBeat قمة يتصل ل مكبرات الصوت <ص> كان بسعادة غامرة الى يفتح ملكنا يتصل ل مكبرات الصوت الى ملكنا الرئيسية حدث، GamesBeat قمة 2024 مستضاف في العظم أنجيليس, أو نحن إرادة يستكشف ال سمة ل "صمود و التكيف." يتقدم الى يتحدث هنا <ص> "ال التكامل ل مكاني صوتي في ماجستير ممثلة أ بارِز منصة تجاه حقًا الوسائط المتعددة منظمة العفو الدولية الأنظمة "، الباحثين يكتب. ص> ال التعقيدات ل مكاني صوتي <ص> مكاني صوتي — أحيانا مشار إليه الى مثل 'افتراضي تحيط ها' — يخلق ال وهم ل ها مصادر في أ 3D فضاء. هو شرق مستخدم في تطبيقات بما فيه افتراضي الواقع (الواقع الافتراضي) و يتقدم مسرح أنظمة (مثل حسن مثل آخر المستجدة المناطق، هذه مثل ال ميتافيرس). ص> <ص> لكن مكاني صوتي شرق صعب ل منظمة العفو الدولية و آلة تعلُّم (مل)، مثل ماهر عملاء في 3D الأماكن كفاح الى حدد و يفسر ها مصادر. العلماء يمتلك خيمة الى يخفف من هذا مع ال تطوير ل صوتي محاكاة التقنيات و خوارزميات التأسيس مكاني صوتي معلومة (هذه مثل يوتيوب 360 و ستارس23). ص> <ص> لكن، الخفافيش المطورين يشير خارج، ان هؤلاء تطبيقات نكون غالبا ما تتعارض في جودة و عدم وجود "مهم أرضي حقيقة تسميات" هذه مثل مصدر مسافة و اتجاه. بنفس الطريقة، ها حدث موقع و كشف (مباع)، أيّ الصمامات ها مصدر موقع مع ها حدث كشف (سيد) غالبا ما يركز على "أجوف مكاني صوتي تصور،" الباحثين يشير في الخارج. <ص> آخر تطبيقات في ال صوتي مجال يشمل أوديو جي بي تي، أيّ مدمج ChatGPT ل أ واسع يتراوح ل صوتي و خطاب التطبيقات؛ لتو، أيّ القطارات عارضات ازياء الى سبب و إجابة أسئلة عن اصوات في أ مقطع؛ و كوين الصوت, أيّ يسمح عالمي صوتي الفهم. <ص> "لكن، بالرغم من هُم بديع أداء في ال صوتي مجال، لا أحد ل هؤلاء عارضات ازياء يمتلك ال موهبة الى يتصور و سبب عن مكاني صوتي ان شرق تقع في متنوع، ترددي, و معقد 3D البيئات" الباحثين يؤكد. ص> أسئلة على ها يكتب، اتجاه، مسافة و مكاني منطق <ص> خفاش يبدو الى لينسكب هذا، التظاهر قوي قدرات في مكاني منطق قدرات مع مختلط اصوات و مصادر، يصل أ بالكاد 77% دقة معدل. ص> <ص> إنها الكامنة مكاني صوتي التشفير, في هذه الأثناء، وصل أ يقصد متوسط دقة ل أكثر ان 50% في تحديد ها يكتب؛ أ يقصد الزاوي خطأ ل بالكاد 18 درجات ل ها اتجاه؛ و أ مسافة خطأ معدل في 1.64 قدم ل ال حقيقي موقع الى 32.54% ل مسافة تقدير. <ص> ال الباحثين — منذ ال جامعة ل تكساس، ال الولايات المتحدة 2القسم ل حاسوب علم و هندسة و شنغهاي جياو تونغ جامعة في الصين — بدأ بواسطة أولاً تطوير أ مكاني صوتي مخطط طيفي محول (المكانية-AST)، أيّ شرق قادر ل ها حدث كشف، مكاني موقع و مسافة تصور؛ و سباتيالسوندكا، ...
![كيف يتعلم LLMs التمييز بين الأصوات المكانية](https://venturebeat.com/wp-content/uploads/2024/02/A_robot_sitting_in_a_room_wearing_headphones_wit-transformed_fd0472.jpeg?w=1200&strip=all)
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)