مهندسی مخابرات
یوسف پورابراهیم؛ فربد رزازی؛ حسین صامتی
دوره 13، شماره 52 ، اسفند 1401، ، صفحه 79-98
چکیده
بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روشهای آموزش شبکههای عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکههای کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیادهسازی ...
بیشتر
بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روشهای آموزش شبکههای عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکههای کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیادهسازی نسبت به روشهای موجود سادهتر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکههای عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکههای کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان میدهد که استفاده از شبکههای عصبی ترنسفورمر در بازشناسی بعضی از حالتهای احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده که استفاده از شبکههای عصبی ساده بهصورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار میتواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکههای عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال-ترنسفورمر (CTF) برای دادگان راودس دقتی برابر 94/80 درصد بهدست آورد؛ در حالیکه یک شبکه عصبی کانولوشنی ساده دقتی در حدود 7/72 درصد بهدست آورد. همچنین ترکیب شبکههای عصبی ساده علاوه بر اینکه میتواند دقت بازشناسی را افزایش دهد، میتواند زمان آموزش و نیاز به نمونههای آموزشی برچسب دار را نیز کاهش دهد.