语音信号的短时能量
一、短时能量的作用1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)2、对声音段和无声段进行判定;3、对声母和韵母分界;4、连字的分界等。二、怎么计算短时能量1、短时能量的定义对于信号{x(n)},其短时能量的定义如下:En
一、语音信号短时能量的作用
1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;
清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)
浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)
2、对声音段和无声段进行判定;
3、对声母和韵母分界;
4、连字的分界等。
二、怎么计算语音信号的短时能量
1、短时能量的定义
对于信号{x(n)},其短时能量的定义如下:
En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗和汉明窗等;短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。
矩形窗的公式:
汉明窗的公式:
2、语音信号短时能量的计算
两个问题:
(1)一帧能量
因为语音信号是随时间变化的,所以其能量也是随时间变化的,所以在计算数字化的语音信号的能量时,并不是计算整体的能量,而是按帧来计算每一帧的能量,参考网上文章一般是已256个采样点为一帧。
我计算了一下,256个采样点的时长大约是5-6ms,远比分帧加窗时的分帧时间还短(20~30ms)。但是,这里计算的是能量,帧与帧之间不会重叠,比如第一个256个采样点为第一帧,则接下来的256个采样点为第二帧,……最后剩下的可能小于256个采样点为最后一帧。分割得越小,计算的能量越准确。每一帧的能量是将每个采样点带入上述能量计算并求和得出。
(2)时间的计算
这里的时间涉及到化能量的波形图,因为256个采样点的能量和为一个能量值,所以计算时间的方式需要改变,具体修改方式如下:
time = np.arange(0, nframes) * (1.0 / framerate) #之前的时间
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256 # 修改后的时间
因为能量点数缩小了256倍,所以时间的长度也要随之缩小,可以用总的采样点数除以256得到对应的时间点,但是能量的时间也应该与原波形图的时间对应,所以要在后面乘上一个256才行,否则在同一个点上的时间是之前时间的1/256。
三、代码实现
我用中文数字0-9的语音来举例,大家可以自己录制一个wav语音文件进行尝试。
import wave
import numpy as np
from matplotlib import pyplot as plt
path = "F:/Corpus/data/some_numbers.wav"
f = wave.open(path, "rb") # 打开需要处理的内容
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
str_data = f.readframes(nframes)
wave_data = np.frombuffer(str_data, dtype=np.short)
print("len of wave_data:", len(wave_data))
f.close()
time = np.arange(0, nframes) * (1.0 / framerate)
# time 是某个采样点的采样时对应的时间
print("time[0]:", time[0]) # 第 0 个采样点对应的时间
print("time[256]:", time[256])
print("time[70811]", time[70911]) # 最后一个采样点对应的时间
print("len of time:", len(time))
ax1 = plt.subplot(2, 1, 1)
plt.plot(time, wave_data, "g-") # r-代表红色
plt.xlabel('Time/s')
plt.ylabel('Ampltitude')
plt.title("waveform of voice")
# plt.show()
def calEnergy(wave_data):
energy = []
sum = 0
for i in range(len(wave_data)):
sum += (int(wave_data[i]) * int(wave_data[i])) # s = f^2 计算能量
if (i + 1) % 256 == 0: # 计算每一帧的能量 256个采样点为一帧
energy.append(sum)
sum = 0
elif i == len(wave_data) - 1:
energy.append(sum)
print("len of energy: ", len(energy))
print("energy:\n", energy)
return energy
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256
ax2 = plt.subplot(2, 1, 2)
plt.plot(time1, calEnergy(wave_data), "r-") # r-代表红色
plt.xlabel('Time/s')
plt.ylabel('Ampltitude')
plt.title("waveform of energy:")
plt.show()
运行结果为:
len of wave_data: 70912
time[0]: 0.0
time[256]: 0.005804988662131519
time[70811] 1.6079591836734695
len of time: 70912
len of energy: 277
energy:
[1, 560, 31, ……,152820, 102242, ……, 75880166, 60686978,……, 56, 55, 156]
波形图:
在下语音小白一枚,若有写错之处,请多多指教。
更多推荐
所有评论(0)