• Okuduklarımdan, seyrettiklerimden aldığım notlar, izlenimler, incelemeler…

Spectogram ile Hi-Res Ses Analizi

Evet biliyorum, son yazıdan bu yana arayı çok açtım. Bazen tatil bahane olabiliyor. Ancak asıl sebep, tam zamanlı ofis çalışma düzenine geçmem ve bu günlük için yeterli zamanı ayıramamam. Sadece yazma zamanı değil, okuyup araştırmak da zaman gerektiriyor. Burası amatör bir hobi sitesi olduğu için ticari bir iş ile aynı dürtüler de söz konusu değil. Neyse, konumuza dönelim.

Hi-Res olarak adlandırılan bir müzik dosyasının iyi ses vereceğini varsayarız. Teorik olarak doğru, ama pratikte öyle olmayabiliyor. Öncelikle orijinal kaydın iyi olması lazım. Bazen yarım asırdan önce yapılmış kayıtların yüksek çözünürlüklü formatlarda piyasaya sürüldüğünü görebilirsiniz. Bu kayıtlar ancak orjinal kayıt kadar iyi ses verebilir. Modern kayıtlarda da bazen hi-res teknolojiler kullanılmış olsa bile, kayıt zincirindeki başka unsurlar nedeni ile sonuç tatmin edici olmayabilir.

Diğer bir durum ise, elinizdeki kaydın gerçekten Hi-Res olup olmadığı konusu. Çünkü, belki de orjinal kayıt 24bit 48kHz olarak yapıldı ve bu kayıt tüketiciye ulaştırılmak üzere, LP (analog), SACD (DSD64), DVDA (24/96 PCM) gibi farklı formatlara ve yüksek çözünürlüklere çevrildi. Ses zincirinde, orjinal çözünürlüğün düşüşürülüp sonradan tekrar yükseltilmesi doğal olarak duyulabilir kayıplara sebep oluyor.

Sayısal bir müzik dosyasının ileri sürülen çözünürlük bakımından orjinal olup olmadığını anlamak mümkün. Bunun için “Sayısal Odyofilin Alet Çantası” yazımda da yer alan, ücretsiz bir açık kaynak ses yazılımı olan Audacity çok iyi bir araç.

Audiacity ile Spectogram Hakkında Kısaca

Spectogram (frekans tayfı olarak kullanacağım), zamanla değişen bir sinyalin frekans tayfının (spectrum) görsel bir temsilidir. “Zamanla değişim” ile aslında sinyalin genliği/şiddetindeki değişimi anlatmak istiyorum.

Konuyu biraz daha açmak için Audacity web sitesindeki bazı görsellerden faydalanacağım. Audacity (https://www.audacityteam.org/), Windows, macOS, GNU/Linux ve diğer işletim sistemleri için, bir grup gönüllü tarafından açık kaynak olarak geliştirilmiş, kullanımı kolay, çok kanallı bir ses düzenleyici ve kaydedici yazılımı. Ben bu yazılımı çeşitli kereler tek dosya halindeki müzik album dosyalarını, parçalara ayırmak için kullandım. 

Önce dalga formu (waveform) ile frekans tayfı (spectrum) farkına bakalım. Aşağıdaki resimde, bir ses sinyali, dalga formu (waveform) ve spectrogram olarak gösterilmiş. Dalga formu, sadece sinyal şiddetinin (dikey eksen) zaman (yatay eksen) içindeki değişimini gösteriyor. Spectogram ise, frekans (dikey eksen), zaman (yatay eksen) ve ses şiddeti (renkler) bilgilerini içeriyor.  

Resim-1: Dalga formu ve spectogram

Spectrogram ayarları ile oynayarak farklı görünümler elde etmek mümkün.

Resim-2: Audacity spectogram ayarları

Anlaşılabilirlik için, basit bir sinyali inceleyelim. 2kHz’lik bir sinyalin şiddetinin, 2 saniyelik aralıklarla, 0dB’den -100dB’e düşürüldüğünü düşünelim. Aşağıdaki dalga formu grafiği sözkonusu sinyalin zaman içindeki genliğini gösteriyor.

Resim-3: Dalga formu

Aynı sinyalin spectrogramı,  frekans (dikey eksen), zaman (yatay eksen) ve sinyal şiddeti/genlik (renkler) bilgilerini verir. 

Resim-4: Spectogram

Varsayılan Audacity ayarları ile (Kazanç = 20 dB ve Aralık = 80 dB) renkler aşağıdaki seviyelere karşılık gelir:
-20 dB’nin üzeri beyazdır (yukarıdaki resimde -10 dB’deki ton beyazdır)
-20 dB’den -40 dB’ye kadar seviyeler: beyazdan turuncuya geçiş (yukarıdaki resimde -30 dB’deki ton açık turuncudur)
-40 dB’den -60 dB’ye kadar seviyeler turuncudan macentaya geçiş (yukarıdaki resimde -60 dB’deki ton macentadır)
-60 dB’den -80 dB’ye kadar seviyeler macentadan maviye geçiş (yukarıdaki resimde -70 dB’deki ton mordur)
-80 dB’den -100 dB’ye kadar seviyeler maviden siyaha geçiş (yukarıdaki resimde -100 dB’deki ton siyahtır) ve -100 dB’nin altındaki her şey siyahtır.

Spectrogram’ı daha iyi anlayabilmek için şu video’yu seyretmenizi öneririm: https://www.youtube.com/watch?v=_FatxGN3vAM

Spectrogram’ın pratikteki bir kullanım örneği olarak Izotope firmasının RX8 yazılımı gösterilebilir. Izotope RX8, ses temizleme ve restorasyon ihtiyaçları için ücretli bir yazılım. Örneğin, bir kayıda istenmeden karışan 50Hz vınıltısı (hum), klima sesi, kuş sesi, ıslık ve bunun gibi istenmeyen seslerin temizlenmesinde kullanılmakta. Bağlantıdaki videoyu izleyerek bunu ve spectrogram kullanımını daha iyi anlayabilirsiniz. https://www.youtube.com/watch?v=UsyRPoCT7Yk

Denemede Kullandığım Patricia Barber – Clique! Albümü Hakkında Kısaca

Resim-5: Albüm kapağı

Deneme için Patricia Barber’ın, Clique! albümünden “Mashup” adlı parçayı kullandım. Neden bu albüm derseniz, şu an elimdeki en yüksek çözünürlülüklü ve en yeni albüm bu. Albüm 2021 tarihli. Patricia Barber Amerikalı bir besteci, şarkı sözü yazarı, şarkıcı ve piyanist. Clique! albümü, Jim Anderson tarafından DXD çözünürlüğünde (32bit/352.8 kHz) Pyramix sistemi ve Horus ses arabirimi ile stereo ve çok kanal (5.1) olarak kaydedilmiş, Anderson tarafından Skywalker Sound’da karıştırılmış ve mastering’i Bob Ludwin tarafından Gateway Mastering’de yapılmış. Mikrofonlar da ses için Brauner VM1 gibi mümkün olan en iyi performansı verecek şekilde seçilmiş.

Yaptığım denemeye geçmeden önce sizlerle bir düşüncemi paylaşmak istiyorum. Odyofil dinlemelerinde kullanılan, kadın caz vokallerinden ve bazı perküsyon ağırlıklı demo parçalardan filan bana ciddi bıkkınlık geldi. Baygın, vokal oktav aralığı vasat sayılabilecek, bin beşyüz defadır tekrarlanan, standart parçalar… Bunları dinlemekten bir ara müzik zevkimden şüphe duymaya başladım. Daha doğrusu, sevdiğim müzikleri dinlemek yerine cihaz dinlemek için müzik seçmeye başladığımı farkettim. Hatta bu konuda blog’da bir yazı yazmayı bile düşündüm. Ama, – niyet o olmadığı hale – bazı müzikseverlerin zevklerini yargılamak olarak algılanabileceği için vazgeçtim. Aslında bu sadece benim düşüncem ve herkese uymak zorunda değil.

Patricia Barber’ın müziklerini yukarıda bahsettiğim türden ayrı tutuyorum. Kendi bestelerini seslendiriyor ve çalıyor, parçalarında daha fazla orjinallik, zeka buluyorum, iyi müzisyenlerle çalışıyor. Ses kayıtları da çok özenli. Belirttiğim gibi bunlar kişisel düşünceler ve kişiye göre değişir.

Yaptığım deneme özetle şu; seçtiğim parçanın orjinalinin, aşağı örneklenmiş ve yeniden yukarı örneklenmiş dosyalarının frekans tayflarının karşılaştırılması. Audacity’nin bazı sınırları nedeniyle bu karşılaştırmayı parçanın ilk 29 saniyesi için yapabildiysem de ana fikir net olarak belirdi.

Resim -6 : 24bit/352800Hz FLAC dosya – Dalga Formu ve Frekans Tayfı

Yukarıda, Resim-6’de, seçtiğim parçanın 352800Hz’lik orjinal halinin dalga formunu ve frekans tayfını bir arada görüyorsunuz. Aşağıdaki Resim-7 de aynı frekans tayfı. Burada dikey eksene baktığınızda, yaklaşık 70.000Hz’i bulan bir frekans içeriğinin olduğunu görebilirsiniz.

Bu sayısal ortama ait bir bilgi ve dinleme sırasında sinyal analoga çevrildiğinde bu içerik zaten filtrelenmiş olacak. Zaten duyamayız ama elektronik cihazlara zarar gelmemesi için bu filtreleme önemli. Ancak biz, aynı dosyanın çözünürlüğünün, 44100Hz’e (aşağı) örneklemesi ve 44100Hz’lik dosyanın tekrar 352800Hz’e (yukarı) örneklenmesi durumlarını inceleyeceğiz. Bunlar uç örnekler olabilir ama önemli olan bu aşağı örnekleme ve yukarı örneklemenin etkisinin, frekans tayfında nasıl göründüğünü anlamak. Çünkü bu etkiyi, sayısal bir dosyanın orjinalliğinin değerlendirilmesinde kullanacağız.

Resim-8’e, yani 44100Hz’e (aşağı) örneklenen dosyadaki frekans tayfının dikey eksenine baktığınızda, yaklaşık 22000Hz üstü içeriğin kesildiğini görebilirsiniz. Resim-9, 44100Hz çözünürlüklü dosyanın tekrar 352800Hz’e (yukarı) örneklenmesi durumundaki frekans tayfını gösteriyor. Bu son dosya dışarıdan bakınca 352800Hz çözünürlüklü bir dosya olmasına rağmen, içerik olarak 44100Hz’lik dosyada olduğu gibi 22000Hz üstü kırpılmış durumda.

Resim-10, 11 ve 12’de aynı durumun frekans genliği olarak anlatımı. Resim-10’da 352800Hz’lik dosyanın içeriğinin -87bD’de 30kHz üzerine uzandığını görebilirsiniz. Sözkonusu dosya 44100Hz’e çevrildiğinde 22000Hz üstü kırpılıyor (Resim-11) ve kırıpılan bu içerik, tekrar 352800Hz’e örnekleme durumunda geri gelmiyor (Resim-12).

Sonuç

Ticari ortamda, ne yazık ki, satılan bir ses dosyasının aslında pazarlandığı çözünürlükte olmadığı durumlar yaşayabiliriz. Örneğin, orjinal kayıt daha düşük çözünürlükte olduğu halde (PCM 24bit/48kHz diyelim), bunun yukarı örneklenerek SACD (DSD64), DVD-A (PCM 24/96) olarak ve hatta LP olarak basıldığı durumlar sıklıkla olabiliyor. Gördüğünüz üzere sayısal bir müzik dosyası aşağı doğru örneklendiğinde, yüksek frekans içeriği yok oluyor. Aşağı örneklenmiş aynı dosyayı tekrar orjinal çözünürlüğüne (yukarı) örneklediğinizde, yok olan bu üst frekans içerikleri doğal olarak geri gelmiyor. Yanlış anlama olmaması bakımından, burada kaybolan yüksek frekans içeriğinin duyulabilir olup olmaması ile ilgimiz olmadığını belirtmeliyim. Çünkü sayısal domain’de konuşuyoruz; analog çeviriminde zaten duyulabilenin üstündeki frekanslar filtreleniyor. Bizi ilgilendiren, yüksek çözünürlüklü diye indirdiğimiz sayısal bir dosyada, beklenmedik şekilde üst frekans içeriğinin kırpılmış olması. Söz konusu dosyanın gerçekte belirtilen çözünürlükte olmadığı, dosyanın sonradan yukarı örneklenmiş olabileceğidir. Bu bilgi çözünürlük farklılıklarını duyabilen dinleyiciler için anlamlı olabilir. Audacity yazılımı, Hi-Res diye indirdiğimiz sayısal ses dosyasının orjinalliğinin değerlendirilmesi bakımından çok önemli bir bilgi sağlıyor.

Kaynaklar

Eğer bu konu ilginizi çektiyse aşağıdaki kaynaklara da bir göz atmanızı öneririm.

https://positive-feedback.com/Issue60/hirez.htm

Yorum yapın:

Bu site, istenmeyenleri azaltmak için Akismet kullanıyor. Yorum verilerinizin nasıl işlendiği hakkında daha fazla bilgi edinin.