پردازش سیگنال صوتی دیجیتال و آنالوگ

 

سیستمهای ارتباطی مدرن، چشم‌انداز صنعت صدا را کاملاً تغییر داده اند. همچنین نحوه برقراری ارتباط و تعامل افراد با یکدیگر را نیز دگرگون کرده است. با افزایش روزافزون فناوری صوتی دیجیتالی هوشمند، مردم به دنبال تجربه کردن سیستمهای صوتی خودکار و خانه هوشمند متصل به وب هستند. دستگاه‌هایی مانند بلندگوهای هوشمند و پورتالهای فیس بوک به دلیل داشتن ویژگی‌های برتر و زیرکانه، تقاضای زیادی دارند. فناوری‌هایی مانند تشخیص گفتار، صدای 360 درجه و صدای بی‌سیم در خط مقدم صنعت صدا قرار دارند. مفهوم صدای فراگیر، ارتباطات را برای شنوندگان طبیعی‌تر و واقعی‌تر کرده است. ابزارها و تکنیکهای متعددی در پشت این تجربه‌های صوتی با کیفیت بالا وجود دارند که صدا را صیقل می دهند و نقش مهمی در تولید صدای با کیفیت بالا دارند.

 

 

آشنایی با پردازش سیگنال صوتی

 

پردازش سیگنالهای صوتی روشی است که در آن الگوریتمها و تکنیکهای پیچیده بر روی سیگنال های صوتی اعمال می‌شود. سیگنالهای صوتی، بازنمایی پدیده صدا هستند که به شکل سیگنالهای دیجیتال و آنالوگ تولید میشوند. فرکانس آنها بین 20 تا 20000 هرتز متغیر است و این حد پایین و بالای شنیداری گوشهای ما است. سیگنالهای آنالوگ در سیگنالهای الکتریکی رخ می دهند، در حالی که سیگنالهای دیجیتال در نمایش دودویی یا باینری بوجود می‌آیند. این فرایند شامل حذف نویزهای ناخواسته و متعادل سازی محدوده فرکانسی-زمانی با تبدیل سیگنالهای دیجیتال و آنالوگ است. این فرآیند، بر روی روشهای محاسباتی برای تغییر صداها متمرکز شده است. با استفاده از تکنیکهای مختلف در آن، مدولاسیون بیش از حد، پژواک و نویزهای ناخواسته را حذف یا به حداقل می رساند.

ارتباطات از راه دور، مانند ویدئو کنفرانس مجازی، در حال تبدیل شدن به روش مطلوب ارتباطات در مقابل روش حضوری است. اما نویز آکوستیک، اعوجاج و پژواک در هر فرآیند ارتباطی اجتناب ناپذیر است. فرض کنید شخصی با تلفن صحبت می کند یا در خیابان ها قدم می زند. سر و صدای ناشی از ترافیک و افراد دیگر، صدای باد و سایر منابع ایجاد نویز مانع گفتار او می شود. حذف چنین اعوجاجهای صوتی برای داشتن کیفیت صدای مطلوب و بی‌عیب و نقص ضروری است. تکنیک های مختلفی در روند بهبود کیفیت صدا استفاده میشوتد که در ادامه مورد بحث قرار می گیرند.

 

1- مبدل آنالوگ به دیجیتال (ADC)

2- جلوه‌های صوتی

  1. فشرده‌سازی داده/ عکس فشرده‌سازی
  2. کنترل بهره اتوماتیک
  3. حذف اکوی آکوستیک (AEC)
  4. فیلتر کردن/ نمونه‌برداری مجدد
  5. همسان‌سازی (equalization)
  6. شکل‌دهی پرتو (beamforming)

 

 

1- مبدل آنالوگ به دیجیتال

 

سیگنالهای صوتی آنالوگ نسبت به نمونه دیجیتال، بیشتر تحت تأثیر نویز و اعوجاج قرار میگیرند. تبدیل آنها به سیگنالهای دیجیتال امکان دستکاری، ذخیره‌سازی و انتقال راحت را بدون هیچ گونه افت کیفیت فراهم می کند. در تبدیل آنالوگ به دیجیتال از نرخ نمونه‌برداری مشخصی استفاده میشود و طی این فرآیند سیگنالهای الکتریکی به بیتهای دودویی تبدیل میشوند. هر چه میزان نمونه برداری و دقت اندازه‌گیری بیشتر باشد، کیفیت بالاتر است.

قدرت عملکرد مبدل ADC توسط پهنای باند آن و نسبت سیگنال به نویز (SNR) خروجی مشخص میشود. پهنای باند بوسیله سرعت نمونه‌برداری مشخص می شود و SNR زمانی متفاوت خواهد بود که در رزولوشن بیت، دقت ، الیاسینگ(aliasing) (زمانی رخ می دهد که سیگنال کدگذاری شده با سیگنال اصلی متفاوت است) و غیره تغییرات داشته باشیم. مبدل ADC زمانیکه مقدار SNR آن از سیگنال ورودی فراتر رود، در حالت ایده آل خود در نظر گرفته می شود.

 

 

2- جلوه‌های صوتی – روشهای پیش/ پسا پردازش

 

الگوریتم های پسا پردازشی برای از بین بردن سر و صدا و بخشهای مصنوعی ایجاد شده در مرحله اول پردازش، استفاده می شود. این فرآیند در درجه اول بر پژواک، حذف اعوجاج و بهبود کیفیت گفتار متمرکز است. همسان‌سازی (equalization) و فیلتر کردن تکنیکهای رایج پسا پردازشی هستند که به منظور افزودن طنین و کنترل نویز مورد استفاده قرار میگیرند.

 

شکل 1- ساختار سیستم پردازش صوت

 

 

a. فشرده‌سازی/ معکوس فشرده‌سازی داده

 

فشرده‌سازی یکی از قدرتمندترین ابزارهای میکس صدا است که فرایندی برای کاهش محدوده دینامیکی سیگنالهای صوتی است. محدوده دینامیکی تفاوت بین بالاترین و پایین‌ترین حد بلندی صدای یک سیگنال صوتی است.

به عنوان مثال، در حالی که صدای جیغ یا نجوا به ترتیب خیلی زیاد و خیلی کم است و در این حالت، اگر آن را بدون فشرده‌سازی ضبط کنیم، صدای حاصل دچار اعوجاج خواهد شد. فشرده‌ساز (compressor) این مشکل را با تضعیف بلندترین بخش صدا و تقویت ضعیف‌ترین بخش صدا برطرف می کند. این روش به ما کمک می کند تا تعادل کاملی برای آهنگ صوتی پیدا کنیم و صدای طبیعی‌تر و بدون اعوجاجی را در اختیار داشته باشیم. همچنین پهنای باند استریم صوتی دیجیتالی و میزان فضای لازم برای ذخیره‌سازی آن را کاهش میدهد که منجر به صرفه‌جویی بیشتر در فضای ذخیره‌سازی و افزایش سرعت انتقال داده میشود.

دو نوع فشرده‌سازی صوتی وجود دارد؛ فشرده‌سازی بدون اتلاف و با اتلاف. پراستفاده‌ترین روشهای فشرده‌سازی صوتی، روشهای با اتلاف هستند زیرا نسبت فشرده‌سازی بسیار بیشتری نسبت به داده‌های اصلی دارند. این روشها اطلاعاتی را که خیلی مرتبط نیستند حذف کرده که در نتیجه افت کیفیت را به همراه دارد. محبوب‌ترین روشهای فشرده‌سازی های صوتی با اتلاف  MP3و AAC هستند.

 

شکل 2- پیش‌پردازش سیگنال صوتی

 

 

b. حذف اکوی اتوماتیک (AEC)

 

حذف اکوی اتوماتیک نقش مهمی در پردازش سیگنالهای صوتی ایفا میکند. این فرآیند، اکوی صدا، طنین و نویزهای ناخواسته ناشی از اتصال میکروفون و بلندگو را حذف میکند. میکروفونها از طریق اتصال صوتی، گفتار نقطه دور را ضبط میکنند.

فرض کنید در تماس صوتی با شخصی از طریق تلفن در حال صحبت کردن هستید. گفتار شخص دیگری که با او صحبت میکنید به عنوان گفتار نقطه دور شناخته میشود، که از طریق بلندگو برای شما اجرا میشود و صدای شما به عنوان گفتار نقطه نزدیک است که توسط میکروفون ضبط میشود. اگر گفتار نقطه دور به طرف دیگر تماس صوتی منتقل شود، شخص دیگر پس از کمی تأخیر (شبکه + تأخیر پردازش) صدای خود را میشنود. AEC از انتقال صدای نقطه دور به طرف دیگر تماس صوتی جلوگیری میکند.

 

 

c. نمونه‌برداری مجدد

 

نمونه‌برداری مجدد به عنوان تعداد کلی نمونه‌های تولید شده در ثانیه تعریف میشود. این نمونه‌ها بر حسب کیلوهرتز (kHz) اندازه‌گیری می شوند، که یک واحد آن برابر با 1000 بار در ثانیه است. سیستمهای صوتی مختلف از نرخ نمونه‌برداری و نرخ فریم متفاوت استفاده میکنند. این پارامتر، فرکانس سیگنالهای صوتی را اندازه‌گیری میکند و بر اساس نمونه‌برداری بیش از حد و کدگذاری عمل میکند که منجر به نویز و اعوجاج کمتر میشود. نرخهای نمونه‌برداری بیشتر بهتر است زیرا جزئیات دقیقتری از فراز و فرود سیگنالها به دست میدهد که کیفیت صدا را بهبود می بخشد.

 

 

d. فیلتر کردن

 

فیلترها اساسی‌ترین مدار در هر نوع پردازش سیگنال هستند که تقریباً در هر فرایندی استفاده میشوند. آنها نویز ناخواسته، پژواک و اعوجاج را حذف میکنند و به داده‌های فیلتر شده اجازه عبور از خود را میدهند. در ادامه در مورد فیلترهای عبوردهنده که فرکانسهای خاصی را عبور داده و مابقی را حذف میکنند، بحث خواهیم کرد.

 

 

فیلتر پایین گذر

 

فیلترهای پایین‌گذر فرکانسهای کمتر از فرکانس قطع را عبور داده و فرکانسهای بالاتر از فرکانس قطع را حذف میکنند.

 

 

فیلتر بالاگذر

 

یک فیلتر بالاگذر برعکس فیلتر پایین‌گذر عمل میکند. فرکانسهایی را که بالاتر از فرکانس قطع هستند عبور میدهد و فرکانسهای کمتر از فرکانس قطع را تضعیف میکند.

 

 

فیلتر میان‌گذر

 

پس از نمونه‌برداری مجدد سیگنالها، فیلترهای میان‌گذر برای حذف نویز اضافی به سیگنال اعمال میشوند و به عنوان ایده‌آل‌ترین فیلتر در پردازش سیگنال شناخته میشوند. این فیلتر فرکانسهایی را که بیشتر یا کمتر از محدوده فرکانس قطع پایین و بالای آن است، تضعیف میکند و تنها فرکانسهای داخل ناحیه قطع را عبور میدهد.

 

 

فیلتر میان‌نگذر

 

این فیلتر تحت عنوان فیلتر ناتچ (notch) نیز شناخته میشود و برعکس فیلتر میان‌گذر است. تقریبا بیشتر فرکانسهای را دست نخورده باقی میگذارد و تنهای فرکانسهای درون ناحیه قطع را تضعیف میکند.

 

 

e. همسان‌سازی

 

از اکولایزرها برای تغییر یا تنظیم محتوای فرکانسی استفاده می شود به نحوی که طیف فرکانسی صوتی در فرستنده با طیف فرکانسی صوتی در گیرنده مطابقت داشته باشد. محدوده فرکانسی با استفاده از فیلتر پایین‌گذر، فیلتر بالاگذر و فیلتر میان‌گذر به محدوده بالا یا پایین تنظیم میشود. اکولایزر، تاخیر بین اجزای فرکانسی مختلف را حذف کرده و خروجی مطلوب را به دست میدهد.

 

 

f. کنترل بهره اتوماتیک (AGC) یا کنترل بلندی صدا

 

AGC یک خروجی ثابت را علی‌رغم داشتن سیگنالهای ورودی مختلف، ارائه میدهد. این فرآیند، میزان تقویت یا تضعیف اعمال شده به سیگنالهای ورودی را برای بدست آوردن سیگنال ورودی هدف نشان میدهد. اگر سیگنال ورودی بیشتر از سیگنال هدف باشد، AGC  میزان بهره را کم میکند و اگر سیگنال ورودی کمتر از سطح سیگنال هدف باشد، AGC بهره را اضافه میکند. بهره، میزان بلندی ورودی کانال صوتی را نشان میدهد که تون صدا کنترل میکند.

 

 

g. شکل‌دهی پرتو

 

شکل‌دهی پرتو، که به عنوان فیلترینگ فضایی نیز شناخته میشود، یک روش پردازش سیگنال است که در پردازش آرایه میکروفون استفاده میشود. شکل‌دهی پرتو، از تنوع مکانی میکروفونها در آرایه، برای تشخیص و استخراج سیگنالهای منبع مورد نظر و حذف تداخل ناخواسته استفاده میکند. شکل‌دهی پرتو، برای هدایت و فرمان‌دهی پرتو هدایت‌کننده میکروفونهای مرکب به یک جهت خاص بر اساس جهت سیگنال منبع استفاده میشود. این تکنیک به تقویت دامنه ترکیبی میکروفونها کمک میکند و نسبت سیگنال به نویز را افزایش می دهد.

 

 

تبدیل دیجیتال به آنالوگ (DAC)

 

سیگنالهای صوتی مدرن بیشتر در اشکال دیجیتالی مانند MP3 یافت میشوند، اما اگر میخواهید از طریق بلندگو به آنها گوش دهید، باید به فرم آنالوگ تبدیل شوند. این کار، جریان داده‌های دیجیتالی را به سیگنالهای صوتی آنالوگ تبدیل میکند و سپس سیگنالهای آنالوگ تبدیل شده، به تقویت‌کننده ارسال میشوند. سپس توسط دستگاههای خروجی‌دهنده مانند بلندگوها و پخش‌کننده‌های موسیقی استفاده میشوند. این فرایند، کیفیت کلی صدا را بهبود بخشیده و تجربه شینداری را ارتقا میدهد. برخی از دستگاههای دارای مبدلDAC  شامل بلندگوهای دیجیتالی، دستگاه پخش سی‌دی، پخش‌کننده موسیقی و غیره میشوند.

 

 

نتیجه‌گیری

 

پیشرفت در فناوری صوتی دیجیتال ما را به سمت امکان داشتن الگوریتمهای بسیار کارآمد و با کیفیت پردازش گفتار سوق داده است. این الگوریتمها در فرایند ضبط، ذخیره و انتقال محتوای صوتی استفاده می شوند. محتوای صوتی باعث تولید انعکاس، تداخل و اعوجاج ناخواسته زیادی میشود که باید برای دستیابی به نتایج مطلوب در کیفیت صدا حذف شوند. این کار بر اساس تبدیل سیگنالهای صوتی بین فرمتهای آنالوگ و دیجیتال، تنظیم محدوده طیف فرکانسی، حذف نویزهای ناخواسته و افزودن جلوه‌های صوتی برای به دست آوردن کیفیت صدای صاف و بدون نقص عمل میکند.

 

 

 

 

منبع: https://www.pathpartnertech.com