Khi đi sâu vào tìm hiểu audio processing, có nhiều thuật ngữ mà nhiều người đã từng nghe trước đó mà không thực sự hiểu nó là gì. Trong bài viết này, chúng ta cùng nhau tìm hiểu những thuật ngữ trong xử lý âm thanh là gì và nó có ảnh hưởng thế nào đến chất lượng âm thanh. Trong toàn bộ bài viết, chúng ta giả sử âm thanh chỉ có một kênh (channel) và không nén.
Tần số lấy mẫu (Sampling Rate / Sampling Frequency)
Thuật ngữ chúng ta thường nghe trong xử lý âm thanh là tốc độ lấy mẫu (Sampling Rate) và tần số lấy mẫu (Sampling Frequency), đều chỉ chung một thứ. Chúng thường có một số giá trị đặc trưng như 8 kHz, 44.1 kHz và 48 kHz. Vậy tốc độ lấy mẫu của một file audio thực sự là gì?
Tốc độ lấy mẫu của âm thanh là số lượng mẫu (sample) được lấy trong mỗi giây. Chúng được đo đạc như là số mẫu trên giây hay Hertz (được viết tắt như Hz hay kHz với 1 kHz = 1000 Hz). Một mẫu âm thanh là một con số đo đạc biểu diễn cho giá trị của sóng âm thanh tại một thời điểm cụ thể. Những mẫu âm thanh này được lấy tại một thời điểm nào đó trong 1 giây. Ví dụ, nếu tốc độ lấy mẫu là 8000 Hz thì không có nghĩa là 8000 mẫu đã được lấy trong một giây, chúng phải được lấy cách nhau 1/8000 của một giây. Con số 1/8000 này là khoảng thời gian giữa hai lần lấy mẫu (đo bằng giây) và tốc độ lấy mẫu đơn giản là nghịch đảo của nó.
Tốc độ lấy mẫu của âm thanh tương tự với số khung hình trên giây (FPS) trong xử lý video. Một video đơn giản là chuỗi các hình ảnh nối tiếp nhau, mà thường được gọi là khung hình (frame). Chuyển cảnh nhanh tạo ra ảo giác (ít nhất là với con người) rằng đoạn video đó liên tục và không bị gián đoạn.
Mặc dù tốc độ lấy mẫu âm thanh và tốc độ khung hình video khá giống nhau. Con số tối thiểu để đảm bảo khả năng sử dụng được là khác nhau. Đối với video, con số tối thiểu là 24 khung hình trên giây để đảm bảo rằng chuyển động được mô tả chính xác. Nhỏ hơn con số đó, chuyển động sẽ bị giật và con người không có cảm giác chuyển động đó là liên tục. Với âm thanh, con số tối thiểu để có thể nghe phát âm rõ ràng bằng tiếng Anh là 8000 Hz. Nhỏ hơn con số đó, âm thanh phát ra có thể không thể hiểu được trong một số trường hợp. Tốc độ lấy mẫu âm thanh thấp không thể phân biệt được một số âm vị. Ví dụ với 5000 Hz rất khó phân biệt được âm /s/, /sh/ và /f/ trong tiếng Anh.
Khi ta đề cập đến khung hình trong video, audio cũng có một khái niệm là audio frame, mặc dù audio frame và mẫu âm thanh cùng có đơn vị là Hz, chúng là 2 khái niệm khác nhau. Một audio frame là một tập hợp của mẫu âm thanh tại một thời điểm được lấy từ 1 hoặc nhiều kênh (channel).
Kích thước mẫu (Sampling Depth / Sampling Precision / Sample Size)
Ngoài tốc độ lấy mẫu, có một thuộc tính ảnh hưởng đến chất lượng âm thanh là Sample Size (Kích thước mẫu), đôi khi được biết đến như Sample Precision (độ chính xác của mẫu) hay Sample Depth (độ sâu của mẫu). Chúng được đo bằng đơn vị Bits per sample (số bit trên một mẫu). Chúng được biết đến như là mức độ chi tiết (hay chất lượng) của một mẫu âm thanh. Như chúng ta đã đề cập ở trên, mỗi âm thanh chỉ là các con số, và có nhiều con số thì sẽ biểu diễn âm thanh tốt hơn. Tức là con số càng lớn thì biểu diễn âm thanh càng chính xác.
Vậy chất lượng của một mẫu âm thanh là gì? Với một mẫu âm thanh, nó đơn giản là mẫu âm thanh có thể biểu diễn khoảng biên độ âm thanh cao hơn. Kích cỡ mẫu 8 bits nghĩa là chúng ta có 2^8 = 256 biên độ riêng biệt mà một mẫu âm thanh có thể biểu diễn. Kích thước mẫu là 16 bits có 2^16 = 65,536 biên độ riêng biệt để biểu diễn âm thanh. Kích thước mẫu thường dùng trong tín hiệu âm thanh điện thoại là 16 bits và 32 bits. Những kích thước mẫu lớn hơn thường dùng trong các thiết bị ghi âm kỹ thuật số. Kích thước mẫu càng lớn thì âm thanh thi được càng gần với thực tế.
Một lần nữa, kích thước mẫu âm thanh cũng giống như kích thước điểm ảnh trong xử lý hình ảnh. Với mỗi hình ảnh hoặc video, mỗi điểm ảnh của một khung hình chứa một số lượng bit để biểu diễn màu sắc. Số lượng bit biểu diễn điểm ảnh càng lớn thì màu sắc càng chính xác. Làm cho tổng thể một khung hình càng thực tế hơn, và càng gần giống với đời thực. Đi sâu hơn về mặt công nghệ, kích thước bit chỉ định bao nhiêu màu sắc có thể được biểu diễn trong điểm ảnh. Nếu bạn cho mỗi R, G, B biểu diễn bằng 8 bits, khi đó số lượng bit biểu diễn màu sắc là 3 x 8 = 24 bits. Có nghĩa là chúng ta có 2^24 ~ 17 triệu màu có thể được biểu diễn trong mỗi điểm ảnh.
Bit Rate
Ràng buộc tốc độ lấy mẫu (Sampling Rate) và kích thước mẫu (Sample Depth) lại với nhau ta có Bit Rate, thứ đơn giản là kết hợp của cả hai. Tốc độ lấy mẫu được đo đạc bằng số mẫu lấy được trên một giây và kích thước mẫu được đo đạc bằng số bit biểu diễn một mẫu. Vì vậy bit rate được đo bằng cách nhân tốc độ lấy mẫu với kích thước mẫu với nhau ta có đơn vị là số bit ghi được trên một giây, viết tắt là bps hoặc kbps.
Bit rate sử dụng trong xử lý âm thanh thay đổi phụ thuộc vào ứng dụng. Ứng dụng yêu cầu chất lượng âm thanh cao, như nhạc thường sử dụng bit rate cao hơn sẽ cho chất lượng nhạc tốt hơn. Âm thanh truyền đi trong điện thoại, thường không cần bit rate cao. Vì vậy cuộc gọi thoại thông thường có bit rate thấp hơn khá nhiều so với một đĩa nhạc CD. Đối với tốc độ lấy mẫu hay tốc độ bit, con số càng thấp thì âm thanh càng kém hơn. Nhưng phụ thuộc vào mục đích sử dụng, bit rate thấp giúp cho tiết kiệm bộ nhớ vào tốc độ xử lý dữ liệu nhanh hơn.
Sau tất cả, việc nén một dữ liệu âm thanh có ý nghĩa gì? Một vài chuẩn nén audio như AAC hay MP3 làm cho bit rate nhỏ hơn đáng kể so với kích thước thực của chúng. Chuẩn nén làm được điều này dựa vào các thuật toán trên cơ sở tri giác giúp loại bỏ những tần số hay biên độ mà tai người không thể nghe được về mặt sinh học sẽ không được lưu trữ, dẫn đến kích thước tệp nhỏ hơn.