GIGA 中文站
GIGA 中文站
Biswap中文网
你的位置:GIGA 中文站 > Biswap中文网 >
生物雷达语音信号探测技术研究进展
1 引言 语音信号是人体重要的生理信号之一,也是人类进行交流必不可少的信息交流手段。因此,研究语音信号的有效探测技术具有重要意义。目前,语音信号的探测技术按声波的传播媒介可分为空气传导和非空气传导技术两类。空气传导探测技术的主要代表是传统麦克风传感器,其原理是语音信号的振动传递到麦克风振膜上,将变动的压力波转换为电信号而获取语音信号的装置,已被广泛应用于人类生活的诸多领域。然而,该探测技术极易受到周围环境噪声和声音噪声的干扰,而且该语音探测技术的探测距离较短。接触式非空气传导探测技术以喉部送话器为代表,它将喉部送话器紧贴使用者的喉部,使用者说话时声带振动,引起喉部送话器电压发声变化,使得振动信号转换为语音信号。该探测技术的优点在于空气传导的声波对其无影响,因此,该类探测装置具有较强的抗噪声干扰能力。然而,像喉部送话器等非空气传导探测技术需要紧贴人体皮肤,往往使人体活动受到限制且舒适度较低。激光多普勒语音探测技术作为非接触式非空气传导语音探测技术,已有学者将此方法成功应用语音探测中。虽然激光、红外等光学语音探测传感器能够实现远距离无接触探测,但是这类光学传感器极易受温度、气候等环境因素影响。以上语音探测技术各自的缺点制约了人体语音信号的获取。 近年来,一种新的非接触式的生命探测技术逐渐得到广泛重视,该探测技术不受环境温度、气候等条件的影响,能够非接触、非侵入、安全、高灵敏度、高方向性的探测远距离物体微动信号。国内外学者称该技术为“生物雷达”。生物雷达技术自提出以来,已在人体生命体征呼吸、心跳等检测方面得到了广泛应用,并取得了较好的成果。而将其应用于语音信号探测是一项较新的研究。 2 语音探测技术发展历程 2.1 空气传导式语音探测技术 早在1857年,法国发明家斯科特发明了一种语音描记器,第1次将声音记录到固定的媒介中,该装置的发明成为了传统语音探测技术麦克风传感器发展的开端。1925年,贝尔实验室中的E.C.Wente等人研究出第1支电容式麦克风[1],它有足够的灵敏度与频宽可将各种声音转换成电气讯号,该麦克风成了当时实用可行的原始电气录音设备。在这之后,很多学者开始致力于麦克风语音探测装置的研究,电动式,压电、压敏电阻式,接触式等麦克风语音探测技术应运而生[2];例如,1983年Royer等利用硅微机械加工技术研制了一种压电式麦克风[3],该麦克风具有较高的灵敏度和较宽的频率范围。1997年,Pedersen等用新材料聚酰亚胺研制了一种硅电容式麦克风[4]。2001年,Kronast等研制了一种高度敏感的氮化硅膜的硅电容式麦克风[5]。 麦克风语音探测技术经过不断的发展,无论在设计还是探测性能方面都得到了很大发展,并且已广泛应用于人类生活各个方面。然而,麦克风语音探测技术在获取有用信号的同时,大量声学噪声往往也被捕获,这些噪声信号极大地降低了语音信号的质量。因此,周围环境噪声干扰在一定程度上限制了靠空气传导的语音探测技术的发展。 2.2 非空气传导接触式语音探测技术 1986年,Ingalls发明了一种名为喉部送话器的语音探测装置,并申请了专利[6]。该非空气传导的接触式语音探测技术主要是将喉部送话器紧贴人体喉部,当人体发音时声带的振动会引起喉部皮肤振动,该振动信号传递到喉部送话器后,喉部送话器可将该振动信号转化为电信号,即得到语音信号。喉部送话器语音探测技术不受空气传导噪声的影响,具有较强的抗噪声干扰能力。因此,在飞机、坦克等环境噪声较大的场合得到了广泛应用。为了提高在强噪声环境下的语音识别能力,Shahina等用喉部送话器进行了语音识别研究,实验结果表明基于喉部送话器的语音识别系统在强噪声环境下具有较好的识别效果[7]。 另一类非空气传导的接触式语音探测典型装置是骨传导麦克风[8]。骨传导麦克风是将声带的振动经过颅骨传输给麦克风,从而获得语音信号。该探测技术的优点在于声波信号的采集与现场周围的环境噪声毫无关系,因此,可以有效获取高质量语音信号。1986年,Hough等人研制了一种骨传导助听器设备,用于克服由于内耳损伤、病变等造成的声音传导机制受阻造成的听力损失[9]。2013年,张杰将骨传导听说技术应用于煤矿应急救援,提高了煤矿应急救援的安全性和可靠性[10]。 以上研究表明,喉部送话器和骨传导麦克风等非空气传导的接触式语音探测技术具有较强的抗环境噪声干扰能力,在强噪声环境下具有较好的应用前景。然而,这类语音探测装置常常佩戴于人体喉部或者头部,需要与人体直接接触,极大地限制了人体的自由活动,而且长时间佩戴会影响人体舒适度,此外,该类装置在一些特殊场合会增加人们的紧张情绪。 2.3 非空气传导非接触式语音探测技术 近年来,一种非空气传导非接触式的光学探测技术得到了发展,这类探测技术能够克服靠空气传导和非空气传导接触式语音探测技术的缺点,具有远距离、抗干扰、非接触式探测等优点,已有学者将其应用于语音信号的检测。2006年,Li等人将激光多普勒测振仪(LDV)应用于语音信号探测,并利用维纳滤波对激光语音信号进行了增强[11]。2011年,Avargel等人利用激光多普勒测振仪进行了语音探测实验研究,实验结果表明当激光波束对准人体喉部时,该语音探测装置可以探测到频率上限为1.5~2.0 kHz的语音信号[12]。尚建华等人在声源前放置一块玻璃,进行了利用激光多普勒测振仪探测由声源振动引起玻璃振动的声音信号实验,实验结果表明:该探测技术可以获得25 m以外的语音信号[13]。 以上研究表明光学语音探测技术能够有效探测到远距离的语音信号。然而,这类语音探测技术存在光路对准困难,易受温度等环境条件影响[14],而且这类光学材料往往价格昂贵,往往难以获得[15],此外,使用激光危险性较大,当激光输出功率在5 mW以上时,已处于激光安全等级的3a级[16]。这些不足在一定程度上阻碍了光学语音探测技术的发展。因此,迫切需要研制一种更新的语音探测技术,能够克服上述语音探测技术存在的缺点,且可以有效获得语音信号的探测方法。 基于生物雷达的非接触信号探测技术以电磁波为探测媒介,当电磁波到达人体时,经人体生理活动引起的体表微动调制,引起电磁波相位、频率发声改变,通过对接收的雷达回波信号进行解调,即可获得人体生理信号。1971年Caro等首次利用连续波体制雷达监测人体呼吸[17],自此广大研究者开始将其应用人体生命体征的监测[18-21]。此外,将生物雷达应用于语音信号探测作为一种新技术也得到很多研究者的关注。 3 生物雷达语音探测技术研究现状及进展 据文献报道,将生物雷达应用于语音信号探测研究的开端是1996年,中国东南大学黎宗文等首次利用40 GHz毫米波雷达成功探测到自由空间人体语音信号[15]。同时他提出60 GHz或者90 GHz等更高频的毫米波将在语音信号获取方面优于40 GHz毫米波雷达。然而并没有从根本上回答该技术探测语音的原理,后续也无更新报道。 1994年,McEwan研制出一种低功率电磁波(ElectroMagnetic Wave, EMW)雷达传感器,并申请了发明专利[22],该雷达具有低功耗、非侵入性、安全、快速、便携、低成本等优点。1996年Holzrichter等将该EM雷达传感器应用于语音的编码、识别及合成[23]。1997年,该课题组又将该EM雷达传感器应用于人体发声器官的测量[24]。在此项研究中,他们用一个工作频率为2.3 GHz,输出功率为毫瓦级的EM雷达传感器测量人体发音时声带、嘴唇、下巴、舌头等声道组织的运动。并与电声门图(Electroglottography)测量结果进行了对比实验,实验发现EM雷达传感器和电声门图测量结果具有一致性。此外,该研究还说明EM传感器在语音识别、合成、诊断等与语音相关的研究方面具有重要的应用前景。1999年,Burnett等人用EM雷达传感器检测人体发声时气管后壁组织的运动[25]。他们用雷达探测的气管后壁组织运动信号确定声道的声音激励函数,从而计算出准确的基音信息。用获取的激励函数和录制的音频信号确定声道振动的传递函数。研究表明由此确定的传递函数可以作为新的特征向量提高语音识别器和合成器的性能。此外,由于EM雷达传感器在检测声门运动方面具有较好的应用前景,Burnett等命名这种EM雷达传感器为GEMS (Glottal Electromagnetic Micropower Sensors)。2000年,该研究组将GEMS信号和声音信号相结合有效去除了声音信号中的噪声[26]。Titze等人通过实验对比发现将EM雷达传感器放置于靠近人体喉部附近时,EM雷达传感器测量的振动信号与电声门图具有较高的相似性[27]。2002年,Staderini等人用超宽谱(Ultra WideBand, UWB)雷达对人体心脏运动、人体发声功能等进行了评估和监测[28]。为了进一步验证EM雷达传感器所测量发声器官振动的信号源,2005年,Holzrichter通过一组特殊实验验证了EM雷达传感器所探测的发声器官的振动源主要是声带[29]。 2009年,Ahmed和Wallace等人用UWB雷达对唇、舌头、声门等器官的位置和运动进行探测,并通过实验说明了超宽谱语音感知技术在语音合成、语音识别等研究中的有效性[30]。 2010年,台湾国立中正大学张盛富教授课题组,用发射频率为925 MHz的零差拍连续波雷达探测人体说话时声带振动信号。在实验中,雷达与麦克风同步采集人体声带振动信号,实验结果表明,该雷达能够有效探测人体说话时声带振动信号[31]。 以上研究表明生物雷达技术在声道发音器官测量方面得到了广泛的应用,并取得了一定的研究成果。除此之外,有学者将生物雷达技术应用于语音增强、语音端点检测以及声音信号的测量。2004年Hu用GEMS和声音传感器同步采集语音信号,然后用声门相关性(Glottis CORRelation, GCORR)方法对单声道的语音信号进行增强,实验结果表明GCORR能够有效增强低信噪比时的语音信号[32]。2005年,该研究小组用一种声音多普勒雷达有效区分了人体语音的发声段和静默段[33],实验表明该雷达可以有效提高语音端点检测性能。然而,文献对该声音多普勒雷达系统未做详细的阐述。2006年,Quatieri等人将多传感器(GEMS、骨传导麦克风、生理麦克风、EGG)信息融合,有效地提高了语音编码器在强噪声环境下的可懂度[34]。2005年,Anderson研究组将GEMS应用于线性语音编码器(Mixed Excitation Linear Prediction, MELP)的语音增强[35]。Xiao等人用一种低功率的Ka波段多普勒雷达探测人体呼吸和心跳信号,并取得较好的效果,此外,他们通过改变滤波电路对声音信号进行了探测实验,实验表明该雷达可以检测到100 Hz的声音信号[36]。 以上关于生物雷达探测技术的应用研究充分说明了雷达传感器在语音探测方面的可行性和有效性。然而这些研究的重心主要是测量人体发音器官的运动,然而将雷达传感器直接应用于人体语音信号的探测未见详细报道。 第四军医大学王健琪教授领导的课题组从1998年开始了连续波雷达语音探测技术的研究。该课题组于2006年研制出第1代非接触式雷达语音探测平台,该雷达能成功探测到自由空间人体语音信号[37]。由于第1代雷达语音探测系统容易因电磁耦合而产生信号形变,因此该体制雷达探测到的语音信号质量较差。为解决第1代雷达语音探测系统存在的不足,该课题组于2007年研制了第2代雷达语音探测系统[38]。第2代雷达语音探测系统采用超外差式双天线结构,在探测性能方面较第1代雷达语音探测系统有了较明显的提高。然而,以上两代生物雷达语音探测技术存在采集的语音信号高频分量不充分,可懂度低等问题。文献[39]提出,在生理信号探测方面,与Ka波段的雷达相比,W波段(75~110 GHz)雷达能够在探测范围和灵敏度两方面提供一个最佳折衷。因此,该课题组在2013年以来,采用了一种基于94 GHz的生物雷达进行语音探测技术的研究[40]。 4 生物雷达语音探测原理 假设连续波雷达发射天线发射的单频信号为: ${{P}_{\text{T}}}(t)=A\cos (2\text{ }\!\!\pi\!\!\text{ }{{f}_{0}}t+{{\theta }_{1}})$ (1) 其中,A是发射信号振动幅度,f0是发射信号的频率,θ1是初始相位。当发射信号到达与其距离为d0的人体喉部时,由d0引起的回波信号相位变化为θ2,经人体喉部振动x(t)调制引起回波信号相位变化为4πx(t)/λ0,则接收天线接收的回波信号可表示为: ${{P}_{\text{R}}}(t)=KA\cos \left( 2\text{ }\!\!\pi\!\!\text{ }{{f}_{0}}t-{{\theta }_{2}}-\frac{4\text{ }\!\!\pi\!\!\text{ }x(t)}{{{\lambda }_{0}}} \right)$ (2) 其中,λ0=c/f0, c是光速,K是发射信号振动幅度的衰减系数。雷达回波信号与发射信号进行混频: $\begin{align} & {{P}_{\text{M}}}(t)=A\cos (2\text{ }\!\!\pi\!\!\text{ }f{{}_{0}}t+{{\theta }_{1}}) \\ & \cdot KA\cos \left( 2\text{ }\!\!\pi\!\!\text{ }{{f}_{0}}t-{{\theta }_{2}}-\frac{4\text{ }\!\!\pi\!\!\text{ }x(t)}{{{\lambda }_{0}}} \right) \\ \end{align}$ (3) 经低通滤波、滤除直流后可得基带信号为: $B(t)=\frac{K{{A}^{2}}}{2}\cos \left( \Delta \theta +\frac{4\text{ }\!\!\pi\!\!\text{ }x(t)}{{{\lambda }_{0}}} \right)$ (4) 其中,Δθ是由发射信号与喉部距离d0产生的相位偏移。当人体喉部微动所引起的位移x(t)远小于雷达波长时,且Δθ是π/2奇数倍时,基带信号可以表示为: $B(t)\approx \frac{K{{A}^{2}}}{2}\frac{4\text{ }\!\!\pi\!\!\text{ }x(t)}{{{\lambda }_{0}}}=\frac{2K{{A}^{2}}\text{ }\!\!\pi\!\!\text{ }x(t)}{{{\lambda }_{0}}}$ (5) 此时,人体喉部振动的信息即包含于解调后基带信号中,通过处理即可获得语音信号。 5 生物雷达语音探测系统及性能分析 5.1 生物雷达语音探测系统 人体发声时喉部振动幅度为毫米级,由式(5)可知当雷达波的波长较短时,才能够有效的解调出语音信号,又根据文献[15]的实验研究启示,本课题组研制了毫米波体制雷达进行语音探测技术研究。毫米波雷达即波长为1~10 mm电磁波,毫米波雷达具有分辨率高、抗干扰能力强以及方向性好等优点。然而,毫米波在空气中传播会受到水蒸气H2O和氧分子O2吸收和散射,从而造成电磁波的衰减。这些气体分子对某些频率的毫米波吸收较多而造成雷达波衰减的现象,称为在该频率的“吸收峰”。因此,在这些“吸收峰”附近频段的毫米波会严重衰减。在这些“吸收峰”频段内存在衰减为极小值的频段,我们称这些极小值频段为毫米波的“大气窗口”,这些窗口的中心频率有35 GHz, 94 GHz, 140 GHz和220 GHz[41]。 本课题组于2006年研制出第1代非接触式语音探测平台。生物雷达语音探测技术的主要组成部分是雷达收发前端系统,雷达收发前端系统体制和工作模式不同,语音信号的获取能力也不同。第1代实验平台为零差拍体制[37],发射频率为34 GHz的连续波雷达,其收发前端框图如图 1所示。 图 1 零差拍雷达系统收发前端框图 Fig.1 Block diagram of transceiver front-end for the homodyne radar system 当压控振荡器(VCO)产生正弦连续波信号,经定向耦合器将该信号分为两路,一路作为辐射输出信号,一路作为本振信号。辐射输出信号经环形器和调配器输送至天线。发射信号到达人体喉部,经反射由天线接收。接收信号经调配器和环形器后送入混频器并与本振信号进行差拍形成差拍信号,差拍信号经后端系统处理后获得语音信号。 该雷达系统工作参数如表 1所示。 表 1 零差拍雷达系统工作参数 Tab.1 Working parameters of the homodyne radar system 基于零差拍体制雷达的收发前端系统容易受定向耦合器、环形器、调配器等的影响。且该体制语音探测系统采用单天线作为接发天线,因此,发射信号和接收信号无法被环形器完全隔离,此时部分发射信号会进入接收机,从而影响语音探测质量。 针对第1代雷达语音探测系统的缺点。2007年,本课题组研制了第2台雷达语音探测技术。该实验平台为超外差连体制[38],发射频率为35.5 GHz。该雷达收发前端框图如图 2所示。 图 2 超外差雷达系统收发前端框图 Fig.2 Block diagram of transceiver front-end for the superheterodyne radar system 该超外差体制雷达前端收发系统主要由压控振荡器、晶振源、上变频器、下变频器、混频器、功分器、中频放大器、低噪声放大器、接收天线和发射天线构成。在发射端,首先由压控振动器(VCO)产生频率为34.5 GHz的正弦信号,与晶振源产生的1 GHz的信号进行上变频得到35.5 GHz信号,经过滤波电路将其注入发声机通过发射天线发射出工作频率为35.5 GHz的电磁波。在接收端,当电磁波经人体喉部皮肤振动反射,接收天线接收到带有语音信号的回波信号,经低噪声放大器(LNA)放大,然后与VCO产生的34.5 GHz的正弦波信号进行下变频,而后经中频放大器放大与晶振源产生的1 GHz信号进行混频,经计算机处理、D/A和A/D转化得到语音信号。 超外差体制雷达系统发射模块频率源不是直接传送至射频发射单元,而是采用超外差方式,通过上变频器将34.5 GHz的高稳定性、低噪声VCO与1 GHz的晶振输出信号混频产生所需的35.5 GHz射频频率,并采用功率调整器将源发射功率提高到100 mW以上,提升了系统探测语音信号的能力。 该雷达系统工作参数如表 2所示。 表 2 超外差雷达系统工作参数 Tab.2 Working parameters of the superheterodyne radar system 以上两种体制雷达为语音探测提供了广阔的研究思路。然而,以上两代生物雷达语音探测技术存在采集的语音信号高频分量不充分,可懂度低等问题。因此,本课题组自2013年开始,将一种发射频率为94 GHz的生物雷达应用于语音信号探测[40]。其收发前端框图如图 3所示。 图 3 94 GHz雷达系统收发前端框图 Fig.3 Block diagram of transceiver front-end for the 94 GHz radar system 该94 GHz生物雷达收发前端系统的主要由介质振荡器、倍频器、带通滤波器、锁频放大器、平衡混频器、低噪声放大器、功率放大器和功分器以及收发天线组成。系统工作的基本原理如下:由介质振荡器发射出频率为7.23 GHz的本振信号,经功率放大器和功分器后注入发射和接收模块,在发射模块,经倍频器(×13)倍频后得到94 GHz的高频信号,然后被发射天线发出,经人体喉部微动调制将信号反射。在接收模块,介质振荡器发射的7.23 GHz本振信号经倍频器(×12)倍频后得到86.7 GHz的高频信号,此高频信号与接收天线接收的高频信号进行混频得到7.23 GHz的中频信号。然后将得到的中频信号经低噪声放大器放大后与本振信号混频,得到I和Q两路输出经A/D采集后进入电脑,即可获得语音信号。 该雷达系统收发前端工作参数如表 3所示。 表 3 94 GHz生物雷达系统工作参数 Tab.3 Working parameters of the 94 GHz radar system 5.2 生物雷达语音探测性能对比分析 为对比分析上述3种体制生物雷达语音探测系统的探测性能,采用一名男性对象在安静的环境下用耳麦进行录音,录音语句为“第四军医大学”,为了保证在相同实验环境,相同距离,声源发音的一致性,利用体积为15 cm×12 cm×20 cm的音箱播放录音语句,并在声源距采集系统2 m和10 m处与麦克风同步采集语音信号。实验中,声源需要与采集系统的天线中心保持同等高度,并用激光笔调整雷达天线的方向,使其中心对准声源。 图 4是4种语音探测系统采集的2 m处语音信号的时域波形和语谱图。其中图 4(a),图 4(e)是麦克风语音信号,图 4(b),图 4(f)是零差拍雷达语音信号,图 4(c),图 4(g)是超外差雷达语音信号,图 4(d),图 4(h)是94 GHz雷达语音信号。由图 4可以看出,4种语音探测技术都可有效探测到2 m处的语音信号。此外,从时域波形和语谱图都可以观察到麦克风采集的语音信号包含大量的噪声,语音信号信噪比较低。相比麦克风语音信号,雷达语音信号所含噪声较小。由此可以看出,生物雷达语音探测技术相比麦克风语音探测技术具有较强的抗声学噪声干扰能力。 图 4 2 m处语音信号的4种时域波形和语谱图 Fig.4 The waveforms and the spectrograms of a speech material (2 m) 图 5是4种语音探测系统采集的10 m处的语音信号的时域波形和语谱图。其中图 5(a),图 5(e)是麦克风语音信号,图 5(b),图 5(f)是零差拍雷达语音信号,图 5(c),图 5(g)是超外差雷达语音信号,图 5(d),图 5(h)是94 GHz雷达语音信号。图 4和图 5对比发现,随着探测距离的增加,4种语音探测系统都丢失了部分高频分量,但是仍然可以获取到语音信号。同时,还可以看出,94 GHz雷达所含的噪声信号相对于34 GHz两种体制生物雷达明显较小。这是由于94 GHz雷达的波束角为1°,而34 GHz生物雷达的波束角为9°。也就是说94 GHz雷达具有更强的方向性,因此其抗周围声学噪声干扰较强。此外,由于发射频率越高,回波信号的相位变化越大,所探测的微动信号的灵敏度越高。图 4与图 5的结果还显示出超外差语音探测雷达所含噪声较零差拍雷达较小,这是由于超外差体制雷达接收器可以减小直流偏置和1/f噪声的影响。 图 5 10 m处语音信号的4种时域波形和语谱图 Fig.5 The waveforms and the spectrograms of a speech material (10 m) 综上所述,生物雷达语音探测技术具有较强的抗声学噪声干扰的能力,能够非接触有效地探测远距离语音信号。 6 展望 生物雷达技术已在灾害救援、城市反恐以及临床生命体征监测等场合得到应用,而将生物雷达技术应用于语音探测领域仍是一项较新的研究。生物雷达语音探测技术为语音信号的获取提供了一种新途径,该探测技术在一定程度上弥补了麦克风等传统语音探测技术的缺点,具有探测距离远、方向性好、抗声学噪声干扰能力强等优点。 生物雷达语音探测是涉及生物雷达、人体语音及微弱信号检测等多个学科的前沿交叉研究领域。生物雷达技术在语音探测方面的研究主要有2个方面:一是语音信号的探测;二是发音器官振动信号的检测。从国内外研究进展来看,目前用生物雷达进行语音信号探测及发音器官振动信号的接触检测方面的研究已取得一定成果。然而,在发音器官振动信号的非接触检测方面的研究还未见文献报道。因此,利用生物雷达语音探测技术进一步研究发音器官振动信号的非接触检测具有重要意义。此外,生物雷达语音探测技术在发音器官的疾病诊断、嗓音检测、语音识别、语音合成、语音编码等领域具有重要的应用前景。

友情链接:

Powered by GIGA 中文站 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024