IT之家5月1日消息|mozilla在最新数据集版本中指出的亮点

IT之家5月1日消息 , 本周早些时候 , Mozilla宣布其CommonVoice数据集现在包含超过20000小时的内容 , 世界各地的任何人都可以使用这些内容来改进他们的语音识别软件 , 几乎是一年前的两倍 。
IT之家5月1日消息|mozilla在最新数据集版本中指出的亮点
文章图片
IT之家了解到 , 最新的英语数据集有71GB , 支持的语言也比以往任何时候都多 , 增加了蒂格雷语、闽南语、MeadowMari、孟加拉语、道本语和粤语 。
IT之家5月1日消息|mozilla在最新数据集版本中指出的亮点
文章图片
根据Mozilla的说法 , CommonVoice项目允许任何人为项目贡献自己的声音 , 从而让虚拟助手能够理解更多的口音 。 此外 , CommonVoice项目是开源的 , 可确保大型科技公司无法独占 , 为小型开发商和公司提供了构建竞争产品和服务的机会 。
IT之家5月1日消息|mozilla在最新数据集版本中指出的亮点
文章图片
Mozilla在最新数据集版本中指出的亮点如下:
6种新语言:蒂格雷语、闽南语、MeadowMari、孟加拉语、道本语和粤语 。
27种语言至少有100小时的语音数据 , 包括孟加拉语、泰语、巴斯克语和弗里斯兰语 。
9种语言至少有500小时的语音数据 , 包括基尼亚卢旺达语(2383小时)、加泰罗尼亚语(2045小时)和斯瓦希里语(719小时) 。
IT之家5月1日消息|mozilla在最新数据集版本中指出的亮点】9种语言有至少45%的性别标签为女性 , 包括马拉地语、迪维希语和卢干达语 。