一、语音信号短时能量的作用

1、短时能量可以区分清音和浊音,因为浊音的能量要比清音的大得多;
清音:释义是轻柔的声音;发音时声带不振动的音,如p、t、k (pa, te , ke)
浊音:将发音时声带振动的音称为浊音,如b、d、g (ba, de, ge)
2、对声音段和无声段进行判定;
3、对声母和韵母分界;
4、连字的分界等。

二、怎么计算语音信号的短时能量

1、短时能量的定义

对于信号{x(n)},其短时能量的定义如下:
在这里插入图片描述
  En 表示在信号的第n个点开始加窗函数时的短时能量,窗函数可选矩形窗和汉明窗等;短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。
矩形窗的公式:
在这里插入图片描述
汉明窗的公式:
在这里插入图片描述

2、语音信号短时能量的计算

两个问题:
(1)一帧能量
  因为语音信号是随时间变化的,所以其能量也是随时间变化的,所以在计算数字化的语音信号的能量时,并不是计算整体的能量,而是按帧来计算每一帧的能量,参考网上文章一般是已256个采样点为一帧。
  我计算了一下,256个采样点的时长大约是5-6ms,远比分帧加窗时的分帧时间还短(20~30ms)。但是,这里计算的是能量,帧与帧之间不会重叠,比如第一个256个采样点为第一帧,则接下来的256个采样点为第二帧,……最后剩下的可能小于256个采样点为最后一帧。分割得越小,计算的能量越准确。每一帧的能量是将每个采样点带入上述能量计算并求和得出。
(2)时间的计算
  这里的时间涉及到化能量的波形图,因为256个采样点的能量和为一个能量值,所以计算时间的方式需要改变,具体修改方式如下:

time = np.arange(0, nframes) * (1.0 / framerate)  #之前的时间 
time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256  # 修改后的时间

  因为能量点数缩小了256倍,所以时间的长度也要随之缩小,可以用总的采样点数除以256得到对应的时间点,但是能量的时间也应该与原波形图的时间对应,所以要在后面乘上一个256才行,否则在同一个点上的时间是之前时间的1/256。

三、代码实现

  我用中文数字0-9的语音来举例,大家可以自己录制一个wav语音文件进行尝试。

import wave
import numpy as np
from matplotlib import pyplot as plt

path = "F:/Corpus/data/some_numbers.wav"
f = wave.open(path, "rb")  # 打开需要处理的内容
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]
str_data = f.readframes(nframes)
wave_data = np.frombuffer(str_data, dtype=np.short)
print("len of wave_data:", len(wave_data))
f.close()
time = np.arange(0, nframes) * (1.0 / framerate)
#  time 是某个采样点的采样时对应的时间
print("time[0]:", time[0])  # 第 0 个采样点对应的时间
print("time[256]:", time[256])
print("time[70811]", time[70911])     # 最后一个采样点对应的时间
print("len of time:", len(time))
ax1 = plt.subplot(2, 1, 1)
plt.plot(time, wave_data, "g-")  # r-代表红色
plt.xlabel('Time/s')
plt.ylabel('Ampltitude')
plt.title("waveform of voice")
# plt.show()


def calEnergy(wave_data):
    energy = []
    sum = 0
    for i in range(len(wave_data)):
        sum += (int(wave_data[i]) * int(wave_data[i]))  # s = f^2  计算能量
        if (i + 1) % 256 == 0:   # 计算每一帧的能量 256个采样点为一帧
            energy.append(sum)
            sum = 0
        elif i == len(wave_data) - 1:
            energy.append(sum)
    print("len of energy: ", len(energy))
    print("energy:\n", energy)
    return energy


time1 = np.arange(0, nframes/256) * (1.0 / framerate)*256
ax2 = plt.subplot(2, 1, 2)
plt.plot(time1, calEnergy(wave_data), "r-")  # r-代表红色
plt.xlabel('Time/s')
plt.ylabel('Ampltitude')
plt.title("waveform of energy:")
plt.show()

运行结果为:

len of wave_data: 70912
time[0]: 0.0
time[256]: 0.005804988662131519
time[70811] 1.6079591836734695
len of time: 70912
len of energy:  277
energy:
 [1, 560, 31, ……,152820, 102242, ……, 75880166, 60686978,……, 56, 55, 156]

波形图:
在这里插入图片描述
  在下语音小白一枚,若有写错之处,请多多指教。

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐