基于HTK的语音识别的语料搜集与语言模型

【科技刨新论坛】

l一

基于HTK的语音识别的语料搜集与语言模型

工仕超

(同济人学软件学院上海201804)

摘要:HTK是由剑桥大学开发的语音识别研究T具,此工具实现了语音识别中的诸多算法。我们可以利用该工具建立自己需要的语亩模型。讲述如何通过从舅:联网上得到fj己需要的语料,利用搜集的语料训练语言模型。Web信息搜索采用网络怛虫fWebcrawler或称Robot)的技术在万维网上自动漫游,根据其搜索目

标尽量多地发现新内容。

关键词:HTK;网络爬虫

中图分类号:TP3文献标识码:A文章编号:1671--7597(2010)1020165--01

1网培雇虫

取领域,已经有大最的研究工作,基奉可分为结构分析法、tag分析法和机1.1网络爬虫的原理。万维网是一个网状结构的信息空问,可以用一器学习法等。我们需要提取网页中的文字信息来训练我们的语言模型,而

个有向图G=(N,E)来表示:将网页一}1的内容看作节点,由uRL惟‘标示:对于tlTML页面中的一些控制信息,如控制字体大小,颜色的信息是不需要

网页中的链接看作有向边。其中,肖点集N=iN0,Nm),E是超链接集合。叶的。所以首先要将这些信息从HTML文件中去除。此类信息往往是放在了节点叮以是网页文件,也可以是罔形、音频等媒体文件。所有的非叶子“<>”I}I的,所以我们,3要在脚本中查找成对的尖括号,并将其中的信息节点是网页文件。冈此爬虫在抓取网页的时候,可以使用有向图遍历算法去除就达到目的了。例如有F面一段信息需要处理:

(深度优先算法和广度优先算法)对其进行遍历。

<TABLE

1.2爬虫的搜索策略。目前,爬虫在抓取网页时,一般采用两种策SU.V咖ARY:”Headernavigationtable”

略:广度优先和深度优先。

WIDTH=“lOo%4所谓广度优先是指爬虫沿着树的宽度方向遍历,直到抓完起始网页111BORDER=”0”>

链接的所有网页,然后再选择其中的一个链接网页,继续这个过程。

(TR><THCOLSP&N=’3“ALIGN=”center”>所谓深度优先是指爬虫沿着树的纵深方向遍历图中没有被访问过的节Red

Hat

Enterpri

se

Linux4:ReferenceGuide

点。由于深度优先是…个递归的过程.爬虫程序在执行的时候就要大量消</TH></TR>

耗计算机内存资源,在很多情况下都会导致爬虫的陷入问题.甚至死机。

需要去掉的就是“(>”中的内容,最后得到的只有一句话:Red

1.3爬虫的实现方式。该爬虫用到队列来存储将要访问的页面的Hat

EnterpriseLinux

4:Reference

Guide。这样我们可以把HTML文件描

URL。如果耍运行此程序,则首先要指定一个URL。爬虫首先会取得该页面述成一个通用的格式:

的内容,并同时取得页面中包含的URL。如果获取的URI,已经在将要遍历的<要舍弃的信息>URL队列中,则自动放弃该URL,如果没有在队列中。则将该URI。加入队列。(要舍弃的信息>这是爬虫运行的简单原理。具体的流程见图1。

要得到的信息由于我们的程序是通过Python写成的,所以需要考虑的细节在Python<要舍弃的信息>中都已经帮我们实现。我们要考虑的仅仅是将要取得的页面保存在‘个指<要舍弃的信息>

定的文件夹下面,然后通过 个脚本来处理网络爬虫所获得的结果。

每处理一个这样的片段都会提取到一段有用的信息,每个HTML文件都是由许多个这样的片段组成的,这样处理多个HTML文件就会得到足够多的文本供我们使用。将提取的文本存储起来,为后面的构建语料做准备。

3语富攥丑开麓工具

HTK(Hidden

Markov

Tool

Kit)是一个基于隐马尔可夫模型的开放

源代码的语音识别工具包,由英国剑桥大学工程系机器智能实验室开发。它包括了以c语言为源代码的一系列库模块与工具。HTK主要是用来构筑基于}矾l的浯音识别系统。本文主要采用其中的HLM(语言模型)工具来训练和更新基于词的三元文法(trigram)语言模型。

3.f语言模型的创建

在使用的』=具HTK中,语言模型的创建需要5步完成,F面分别详细介绍了每一步都是怎么做的。按照步骤所讲的那样做,最终会从文本文件得到所需要的语言模型。其中卜4步是准备工作,在第5步中生成所需要的语言模型。

I)在准备好的语料的每句话的开头加上标识符“<s)”,在每句话的结尾加上标识符“</s>”。2)创建一个空的wordmap,使用到的命令是:LNewMap。我们要将在语料中遇到的每个单词填充到wordmap中。3)将所有在语料中遇到的新词加入至Uwordmap中,使用的命令是:LGPrep。4)在

word

map中已经存储了词汇列表.下面我们要求出词汇列表的FoF

(frequencyof

frequency)。使用的工具是LFoF,运行结束后的结果显

罔1

网络爬虫的流程图示了一个词的出现频率。5)经过以上几步的准备的工作.现在可以使用工2对一页文件的处理

具LBu“d来生成语言模型。可以使用该工具生成n—gram的模型。

从Web中获取语义完整的语料需要对Web进行信息提取。在Web{言息提

(下转第162页)

Word文档免费下载Word文档免费下载:基于HTK的语音识别的语料搜集与语言模型 (共3页,当前第1页)

基于HTK的语音识别的语料搜集与语言模型相关文档

最新文档

返回顶部