GigaSpeech开源数据集正式发布

GigaSpeech开源数据集正式发布

2021年7月6日，由SpeechColab和清华大学电子工程系张卫强团队研发的GigaSpeech数据集正式发布，该数据集存储于清华大学天津电子信息研究院人工智能大数据中心的AI数据平台，并由中心团队提供运维保障服务。

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频，适用于有监督训练任务；以及33000小时的总音频，适用于半监督和无监督训练任务。

从发音风格和覆盖主题入手，GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频，以及对应的人工转录文本、人工字幕等，涵盖诵读和自发口语等一系列不同风格，以及艺术、科学、体育等多种主题。在质量控制上，GigaSpeech提供一种新的强制对齐和分段处理pipeline工具，以创建适合ASR训练的句子段，并滤除低质量转录片段。对于有监督训练任务，GigaSpeech提供了5个不同规模的子集。在过滤验证环节，最大训练子集的词错误率控制在4%以下；其它较小规模的子集的词错误率控制在0%。

作为清华大学人工智能教学、科研和产业发展的重要支撑力量，清华电子院人工智能大数据中心高度重视此次数据集发布，中心团队全方位开展保障服务工作，做到全面值守、监控到位、最快响应。针对本次保障工作，平台建立了全业务、分钟粒度的保障区域实时动态信息系统，并做好应急预案，就近调度资源，快速应急处置。充分发挥自身优势，以创新、稳定、高效的自主创新技术与高性能信息存储能力，为GigaSpeech数据集的存储开放保驾护航。

中心面向人工智能研究与应用，具有强大的资源能力，本次大数据中心完成平台智算2.0升级，云平台与HPC超算集群实现整体统一架构管理，算力、算法、数据系统资源丰富，能够为用户提供一站式自助服务，实现AI、大数据、中间件、数据库集群等集群管理组件（PaaS层）的快速交付。同时提供PB级容量存储、以及高性能云计算能力。借助先进的人工智能管理平台构建超级计算集群，使用高速RDMA网络互联的CPU以及GPU等异构加速设备，在面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用场景中，提供极致计算性能和并行效率的计算集群服务。

未来，人工智能大数据中心也将不断优化完善、开放创新平台系统功能，加强基础架构及开放平台建设，作为支撑基础，以AI和大数据为核心，融合科学计算和商业计算，高标准提供人工智能公共资源，服务清华电子科研、教学和创新创业，成为产学研的生态平台，打造有清华特色的技术生态平台。

ꁣ前一个：无

ꁕ后一个：无

首页 ꄲ 官方发布 ꄲ GigaSpeech开源数据集正式发布

首页 ꄲ 新闻动态 ꄲ 文章详情页_新闻动态

热门新闻

清华大学

咨询+产品+实施+运营的行业智能解决方案平台

넳 넲