مزایای فناوری تشخیص گفتار چیست؟

 

 

فناوری تشخیص گفتار امکان دریافت صدای کلام گفته شده، تعبیر آن و تولید متن از آن را برای رایانه­‌ها بوجود می­‌آورد. اما سوال این است که رایانه از چه طریقی گفتار انسان را میفهمد؟ جواب کوتاه میتواند این باشد: معجزه پردازش سیگنال. گفتار مجموعه ای از امواج صوتی است که توسط تارهای صوتی مرتعش شده با جریان هوا ایجاد میشود. این امواج توسط میکروفون ضبط شده و سپس به سیگنال الکتریکی تبدیل میشوند. سپس، سیگنال به کمک روشهای پیشرفته پردازش سیگنال تحلیل شده و به بخشهای تشکیل دهنده آن که شامل کلمات و هجاها میشود، تجزیه میگردد. در طول زمان، رایانه‌­ها توانایی فهم گفتار را از طریق پیشرفتهای اخیر در هوش مصنوعی و یادگیری ماشین بدست آورده­اند اما در تمام این مسیر، پردازش سیگنال نقش اصلی را ایفا میکند و این پیشرفتها را ممکن ساخته است.

سوالی که اکنون مطرح میشود این است که مزایای فناوری تشخیص گفتار چیست و چرا در حالیکه سرعت تایپ در رایانه هنوز بیش از سرعت فهم رایانه از گفتار انسان است، نیاز به چنین فناوری داریم؟ گفتار انسان در مواردی که با یک برنامه نصب شده بر روی رایانه مواجه نیستیم، راهکار طبیعی برای برقراری ارتباط است. در ادامه برخی از مواردی که نشان دهنده نقش مهم تشخیص گفتار در زندگی انسان است، مرور میشوند.

صحبت با رباتها: ممکن است فکر کنید که صحبت کردن با یک ربات خیلی عادی نمیتواند باشد ولی رباتها به صورت روزافزون در حال جایگزین شدن انسانها هستند به خصوص در مواردی که یک مکالمه یا تعامل فردی مطرح است. به طور مثال، شرکتهای مختلف در حال بررسی امکان به کارگیری رباتها در فرآیند مصاحبه اولیه شغلی هستند. از آنجاییکه مکالمه در حین مصاحبه دوطرفه است، رباتها باید توانایی فهم و تعبیر صحبتهای فرد مصاحبه شونده را داشته باشند. چنین توانایی نیاز به فناوری تشخیص گفتار دارد.

کنترل ابزارهای دیجیتال: دستیارهای شخصی دیجیتال همچون الکسای آمازون و خانه هوشمند گوگل به طور آشکار به ارتباط کلامی بین انسانها و رایانه­ها نیاز دارند. این موارد همچنین مثال خوبی برای نحوه استفاده رایانه­ها از فناوری یادگیری ماشین در فهم بهتر گفتار انسان در طول زمان و کسب تجربه بیشتر است و برای نیل به این هدف، فناوری تشخیص گفتار که توسط پردازش سیگنال میسر میشود، نقش کلیدی دارد.

کمک به افراد با مشکلات بینایی و شنوایی: بسیاری از افراد با مشکلات بینایی به سامانه­های صفحه­خوان و تبدیل کننده متن به گفتار وابسته هستند. از طرفی، تبدیل صوت به متن نیز برای افراد با ناتوانیهای شنوایی ابزار ارتباطی مهمی تلقی میشود.

فناوری بدون دخالت دست: زمانیکه چشمها و دستهای شما درگیر انجام کاری هستند، مثلا وقتی که در حال رانندگی هستید، گفتار میتواند بسیار سودمند باشد. امکان ارتباط برقرار کردن با فناوری سیری در اپل یا نقشه گوگل برای یافتن مسیر بهینه به مقصد دلخواه امکان گم شدن و همچنین نیاز به توقف برای بررسی نقشه راه از روی گوشی تلفن همراه یا یک نقشه چاپی را از بین میبرد.

اما چرا فناوری تشخیص گفتار یک مجموعه مهارت رو به رشد است؟ فناوری تشخیص گفتار هم اکنون بخشی از زندگی روزمره ما است ولی در حال حاضر محدود به دستورهای ساده است. همچنان که این فناوری پیشرفت میکند، محققان توانایی ساخت سامانه­های هوشمندتر برای فهم گفتارهای عام را پیدا خواهند کرد. روزی فرا خواهد رسید که شما به همان شکلی که با یک انسان صحبت میکنید، با رایانه خود صحبت خواهید کرد و پاسخهای مستدل و هوشمندانه را از  آن دریافت خواهید کرد. تمام این امکانات از طریق پردازش سیگنال میسر خواهد شد. تعداد متخصصین در این حوزه، در حال افزایش است و بسیاری از کمپانیها به دنبال افراد مستعد در این زمینه هستند. پردازش، تعبیر و فهم سیگنال گفتار نقش کلیدی در بسیاری از فناوریهای جدید و روشهای ارتباطی دارد. با رویکرد فعلی، فناوری تشخیص گفتار زیرمجموعه­ای از پردازش سیگنال در سالهای پیش رو خواهد بود که رشد بسیار سریعی داشته و جهان را به کلی متحول خواهد کرد.

 

 

 

 

 

منبع: www.signalprocessingsociety.org