GigaSpeech开源数据集正式发布
GigaSpeech开源数据集正式发布
2021年7月6日,由SpeechColab和清华大学电子工程系张卫强团队研发的GigaSpeech数据集正式发布,该数据集存储于清华大学天津电子信息研究院人工智能大数据中心的AI数据平台,并由中心团队提供运维保障服务。
GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督和无监督训练任务。
从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。
作为清华大学人工智能教学、科研和产业发展的重要支撑力量,清华电子院人工智能大数据中心高度重视此次数据集发布,中心团队全方位开展保障服务工作,做到全面值守、监控到位、最快响应。针对本次保障工作,平台建立了全业务、分钟粒度的保障区域实时动态信息系统,并做好应急预案,就近调度资源,快速应急处置。充分发挥自身优势,以创新、稳定、高效的自主创新技术与高性能信息存储能力,为GigaSpeech数据集的存储开放保驾护航。
中心面向人工智能研究与应用,具有强大的资源能力,本次大数据中心完成平台智算2.0升级,云平台与HPC超算集群实现整体统一架构管理,算力、算法、数据系统资源丰富,能够为用户提供一站式自助服务,实现AI、大数据、中间件、数据库集群等集群管理组件(PaaS层)的快速交付。同时提供PB级容量存储、以及高性能云计算能力。借助先进的人工智能管理平台构建超级计算集群,使用高速RDMA网络互联的CPU以及GPU等异构加速设备,在面向高性能计算、人工智能/机器学习、科学/工程计算、数据分析、音视频处理等应用场景中,提供极致计算性能和并行效率的计算集群服务。
未来,人工智能大数据中心也将不断优化完善、开放创新平台系统功能,加强基础架构及开放平台建设,作为支撑基础,以AI和大数据为核心,融合科学计算和商业计算,高标准提供人工智能公共资源,服务清华电子科研、教学和创新创业,成为产学研的生态平台,打造有清华特色的技术生态平台。
热门新闻
-
GigaSpeech开源数据集正式发布
2021年7月6日,由SpeechColab和清华大学电子工程系张卫强团队研发的GigaSpeech数据集正式发布,该数据集存储于清华大学天津电子信息研究院人工智能大数据中心的AI数据平台,并由中心团队提供运维保障服务。
2021-07-07
-
华慧长天与郑州医保局举行智慧医保线上交流会议
2020年11月15日,华慧长天与郑州医保局举行线上交流会。此次会议邀请行业资深专家学者一同研讨智慧医疗实践经验与展望,针对医疗保障体系智能化展开深入探讨。清华大学天津电子信息研究院人工智能大数据中心主任、华慧长天创始人阮冰博士主持会议。
2020-12-04
-
华慧长天应邀出席香山科学会议
2020年11月17日,以“‘健康中国’与智慧健康医疗体系建设”为主题的第687次香山科学会议在北京香山正式召开。清华大学电子信息研究院人工智能大数据中心主任阮冰博士受邀参会,与各界专家深入研讨。
2020-11-20
清华大学
咨询+产品+实施+运营的行业智能解决方案平台
品牌专区
联系我们
商务合作:
代理合作:
人才招聘:
业务咨询:
天津市中新天津生态城中天大道1620号生态科技园启发大厦