/中文/
/中文/
/中文/
/英文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
软件Tags: 宏乐声纹识别声音识别
宏乐声纹对比控件是一款对比声纹来识别声音的音频处理软件。这是一款非常实用的软件,可以用到生活中的方方面面。欢迎需要的用户来绿色资源网下载使用。
宏乐声纹对比控件可以对比任意两个声音句子的纹理,并获得两个声纹的近似度的百分值。让软件设计者根据识别的结果控制各种设备或操纵软件执行相应的功能。
用户可以将不同的特征文件与数据库一一对应保存,然后通过对比函数从数据库取出不同的特征文件与当前的录音结果对比,从而知道当前的声纹与数据库内的哪一个声纹最吻合。
我们还为掌上电脑,或学习机提供DLL评分插件。通过它,可以获得学生跟读老师句子的吻合程度。
该控件还附带一个精美的可变色按钮控件,利用它可以美化程序的界面。
1.Rocord 〔录制〕(true 或 false) true 开始录音(控件在句结束后自动停止录音并识别)。
2.Establish 〔设置〕(true) 将当前的录音特征设置为对比特征。
3.Percentage 〔评分〕 获取当前对比结果的分数值(0 表示根本不吻合,有数值表示相似度的百分比。)
4.AutoRecord〔自动录音〕(true 或 false) true 则启动适时录音,源源不断的将录音的内容进行对比分析。Falae 则关闭自动录音。
5.Comp 〔对比特征〕从V9.0版本起,这个指令不再对比bin格式特征文件名,而是对比当前启用库的一个特征名称!可用44.UserLib(启用库名称)函数来选择库。
6.EstablishVoiceFileNameToComp 〔设声音文件为对比〕(WAV格式声音文件路径名称) 将一个任意格式的WAV文件分析后获取的声纹特征设置为对比内容。(注意:用声音文件来对比,如果还没有声音库,请用16位单声道8000采样的格式记录声音,这样可以省略格式转换的过程。)
7.CompVoiceFile 〔对比声音文件〕(WAV格式声音文件路径名称) 将一个任意格式的WAV文件(而不是录音内容)来对比。(可直接拖放Wav文件到本控件测试)
8.Noise 〔测噪音〕(true) 这个函数一般不用,因为控件会在录音结果
9.Volume 〔音量〕 获取当前录音结果的音量 (最大值为100)
10.Painting 〔绘图〕(true 或 false) true 则绘图,false 则不绘图。
11.RecordCharacterFileName 〔录音特征文件名〕(bin格式文件名) 获取当前录音结果的特征文件名全称。(特征文件的长度为2310字节{如果选择身份鉴别长度为2320字节},可以将这个文件用不同的名称命名保存到数据库中对应某个声音文件,便于单独或批量对比。通常这个文件名是控件包路径+"\总特征.bin")
12.CompCharacterFileName 〔对比特征文件名〕(bin格式文件名) 获取对比特征文件名的全称。(通常这个文件名为控件包路径+"\总对比特征.bin")
13.OpenF12 〔允许F12键录音〕(true 或 false) true 则允许F12键代替鼠标录音。(按下F12开始录音,放开F12结束录音。结束录音的同时分析声纹的相似度)
14.DiscriminateBody 〔鉴别身份〕 (true 或 false) 选择 true 则比较严格的校对个人的声纹,选择 false 则适合男女老幼的各种音色。
15.Reverse 〔反向〕(true 或 false) true 则反向,用于相位相反的麦克风接口。
16.Play (播放录音) (true) 播放现场录音的(学生)声音,或 CompVoiceFile 函数调入的声音文件。
17.Play_Comp (播放对比) (true) 播放用于对比的(老师)声音。
18.Re_Recognition 〔重新识别〕(true 或 false) true ,主要用于“反向”之后的不重录音而直接识别。
19.OCX_Path 〔控件路径〕(true 或 false) true ,读取控件所在的路径全称。
20.IsOver 事件,这个事件在分析完毕后自动启用。能调用OCX控件的用户在设计时双击本控件可以看到IsOver事件,然后在这个事件中插入分析完成后响应的代码。
21.Max_Record_Timer(没有响应的最大秒数) (1~60) 人工录音方式时启动录音后如果一直没有声音数据提交,将在这个值到后无条件停止录音提交数据进行分析(默认值是6秒)。
22.PeakValue (峰值校验 ) (true 或 false) true 则校验峰值误差(校验峰值误差有时会因为环境噪音太大导致声音串首尾定位不准而评分失败)。
23.ALC (自动电平 ) (true 或 false) true 则启用自动电平控制,能在声音较小时放大,声音太大时衰减到比较合理的电平。
24.WordNoumber (字段数) () 一个数值,显示词句切割出的段数(个别词会无法分割而连接在一起,所以这个值并不代表字数,可以理解为嘴唇开合的次数),用于将数据库分类,减少识别时搜索的范围。[注意:使用它分类要考虑有可能误差正负1个值;比如获得的字段数是3,应该在2、3、4字段库寻找特征文件]
25.Zero (允许零分 ) (true 或 false) true是默认值,在不吻合的因素太多时评分的值为零,但在老师与学生声纹误差较大时会也可能导致错评为零分的现象,此时应该禁用它。
26.Word_Max_Timer(t) t是提交词汇的反应秒数(停顿提交词汇的时间),范围必须在0.125秒~3秒之间。(默认值是0.66秒)
27.Auto_Clips (自动剪辑) (true 或 false) 默认为true;对应于控件的“自剪”复选框。true则录音按钮点击开始录音,当音量小到只有噪音时提交录音结果并分析。false则录音的开始与结束是手工控制,按下录音按钮[或使用Rocord_Start(true)函数]开始录音,放开录音按钮[或使用函数Rocord_End(true)]结束录音并提交分析。
28.Rocord_Start (开始录音) (true) 在“自剪”复选框(自动剪辑)不选时,启动录音。
29.Rocord_End (结束录音) (true) 在“自剪”复选框(自动剪辑)不选时,结束录音并分析。
30.Filters_Infrasound (滤除次声波) (true 或 false) false是默认值,滤除次声波的功能已经在句子剪裁器中使用,通常对比现成的WAV文件才使用它,滤除非语音成分的超低音部分,主要排除板载声卡的零点电平漂移或口风或风扇等带来的低频噪音。
31.FrequencyFitsTogetherRate (频率吻合率) 对应最上方的版块,频率曲线吻合的百分值
32.PeakMatchingRate (峰值吻合率) 对应中间的版块,峰值曲线吻合的百分值。
33.FrequencyChartFitsTogetherRate (频谱吻合率) 在身份鉴别状态下,它显示频谱的吻合百分值。
34.ReasonDoesNotMatch (不吻合原因) 在评分失败后给出原因,鼠标点击分数可以看到这个提示。
35.CutRatio (切割比例) 头尾切割与最大值的倍数,值在10~50之间,这个值影响数据头尾定位的切割(默认值=25)
36.FrequencyComp(频率鉴别选择) 频率鉴别选择,它控制最上方的频率变化曲线版块是否参与分析, 可以用 FrequencyComp(True) 或 FrequencyComp(False) 指令控制它。
37.Save(保存特征) 保存特征,并给特征命名;可用 Save("") 启动输入板;或直接命名一个特征,如Save("1234")。
38.CompAll(批量对比(特征库的所有内容)) 用当前的录音与对比特征库内所有内容进行对比,可用 CompAll("") 指令启动批量对比。
39.AutoCompAll(自动批量对比) 分析完录音后自动启动批量对比,可用 AutoCompAll( true ) 启用它 用AutoCompAll( false ) 禁用它。
40.MaxNumber(有分数的结果个数) 有分数的结果个数,可用 MaxNumber(0) 读取它。
41.Answerp(取第几个答案) 取第几个分数 ,可以用 AnswerP(1) 获得最高分 用 AnswerP(2) 获得第二高分,其他以此类推。
42.AnswerT(取第几个答案) 取第几个特征结果名称.
测试的技巧主要是先调整好麦克风的灵敏度,然后点击“录音”,发音停顿则结束录音并评分。此时会看到一条亮青色的变化曲线;之后点击“保存特征”,记录到特征库中,同时会看到亮青色的曲线变为灰色。
如果只是单独对比两个声音特征请将“批量”复选框设为不选,然后在特征列表中选中要对比的内容,这是会看到灰色的曲线对应特征而变化,点击“录音”按钮,录入一个句子,则可看到评分的结果。
V9以上的版本默认录音结束后对比当前特征库的所有特征,并将对比结果从高分到低分顺序排列。
这些过程完全可以用软件通过相应的函数来控制;具体请参阅函数说明。
录音时麦克风不能正对准口中央,你会发现用于语音识别的耳麦麦克风都是偏离嘴巴的。同时不易远距离录音,当有效的声音与环境噪音达不到5倍以上,识别将不理想;最重要的是如何获得连续的频率曲线,如果破碎,要分析原因。对于一个词组或句子来说,曲线断续是正常的,因为一些语音成分没有频率特征,比如声母T、F等,对应它的部分是一个缺口,这里指的破碎是指对应一个字中的曲线是否连续。
峰值曲线的切割是自动的,但要注意录音时是否有干扰的噪音,请留意曲线的头尾是否正常切割,再将它保存到特征库中。
特征库是需要长期训练的,合理的方法是设为对比以后,重录一次,看看分数是否足够高,不高的要重录。
(如果特征曲线总是出不来,请尝试“反向”功能,通常在面板插入的麦克风插孔需要“反向”)
为了提高识别率,不同时出现的特征库要尽可能的分类。假设正在操控一个窗体,而窗体上只有几个按钮,这种情况下应该为该窗体单独建立一个小特征库,库内只有相应的几个按钮的特征,这样识别起来就会很准。
当库内特征较多时,不可避免会出现识别结果不止一个或需要的结果不排在第一位的现象,这时应该类似拼音输入法,让同音字或词组有个选择的机会。