使用python实现语音文件的特征提取方法

2020-02-16 00:32:26

字体：大中小

来源：转载

供稿：网友

概述

语音识别是当前人工智能的比较热门的方向，技术也比较成熟，各大公司也相继推出了各自的语音助手机器人，如百度的小度机器人、阿里的天猫精灵等。语音识别算法当前主要是由RNN、LSTM、DNN-HMM等机器学习和深度学习技术做支撑。但训练这些模型的第一步就是将音频文件数据化，提取当中的语音特征。

MP3文件转化为WAV文件

录制音频文件的软件大多数都是以mp3格式输出的，但mp3格式文件对语音的压缩比例较重，因此首先利用ffmpeg将转化为wav原始文件有利于语音特征的提取。其转化代码如下：

from pydub import AudioSegmentimport pydubdef MP32WAV(mp3_path,wav_path): """ 这是MP3文件转化成WAV文件的函数 :param mp3_path: MP3文件的地址 :param wav_path: WAV文件的地址 """ pydub.AudioSegment.converter = "D://ffmpeg//bin//ffmpeg.exe" MP3_File = AudioSegment.from_mp3(file=mp3_path) MP3_File.export(wav_path,format="wav")

读取WAV语音文件，对语音进行采样

利用wave库对语音文件进行采样。

代码如下：

import waveimport jsondef Read_WAV(wav_path): """ 这是读取wav文件的函数，音频数据是单通道的。返回json :param wav_path: WAV文件的地址 """ wav_file = wave.open(wav_path,'r') numchannel = wav_file.getnchannels()   # 声道数 samplewidth = wav_file.getsampwidth()  # 量化位数 framerate = wav_file.getframerate()  # 采样频率 numframes = wav_file.getnframes()   # 采样点数 print("channel", numchannel) print("sample_width", samplewidth) print("framerate", framerate) print("numframes", numframes) Wav_Data = wav_file.readframes(numframes) Wav_Data = np.fromstring(Wav_Data,dtype=np.int16) Wav_Data = Wav_Data*1.0/(max(abs(Wav_Data)))  #对数据进行归一化 # 生成音频数据,ndarray不能进行json化，必须转化为list，生成JSON dict = {"channel":numchannel,   "samplewidth":samplewidth,   "framerate":framerate,   "numframes":numframes,   "WaveData":list(Wav_Data)} return json.dumps(dict)

绘制声波折线图与频谱图

代码如下：

from matplotlib import pyplot as pltdef DrawSpectrum(wav_data,framerate): """ 这是画音频的频谱函数 :param wav_data: 音频数据 :param framerate: 采样频率 """ Time = np.linspace(0,len(wav_data)/framerate*1.0,num=len(wav_data)) plt.figure(1) plt.plot(Time,wav_data) plt.grid(True) plt.show() plt.figure(2) Pxx, freqs, bins, im = plt.specgram(wav_data,NFFT=1024,Fs = 16000,noverlap=900) plt.show() print(Pxx) print(freqs) print(bins) print(im)

首先利用百度AI开发平台的语音合API生成的MP3文件进行上述过程的结果。

声波折线图

python 语音文件的特征提取