【资料图】
在我们的日常生活中,声音携带了大量有关环境以及我们周围空间中发生的事件的信息。人类可以感知周围的声音环境(例如,繁忙的街道、办公室或家里的声音),并识别这些声音的来源。随着人工智能(AI)的出现,声音识别技术的性能可以进一步提高,使机器能够聆听和解释不同环境下的各种声音。这项研究在基于音频内容的多媒体搜索、上下文感知移动设备、机器人、汽车、智能监视和监控系统的多种应用中具有巨大潜力。然而,实现这一目标的挑战主要在于识别声音场景和现实音景中的单个声源,其中同时存在多种声音。
为此,GIST 的一个合作研究团队(与代理总裁 Rae-gil Park)现在已经成功地利用人工智能开发了一种出色的声音识别技术。他们的工作现已在电气和电子工程师协会 (IEEE) 信号处理协会 (AASP)组织的声学场景和事件检测和分类国际挑战赛 (DCASE)中获得第一名,于2023年6月1日举行。该团队由 GIST 音频智能实验室的学生 Ji-won Kim、Sang-won Son 和 Yoon-ah Song 组成,并在 GIST 电气与计算机工程系 Hongguk Kim 教授的指导下进行。他们与 Hanwha Vision 人工智能实验室(由 Seung-in Noh 主任领导)的研究人员 Il-hoon Song 和 Jeong-eun Lim 合作。他们在室内声事件检测领域的单一模型类别中获得第一名,在整体模型类别中获得第二名,突显了他们卓越的研究成就。
“在室内声学事件检测类别中,人工智能技术的性能是根据其检测和区分室内环境中常见的 10 种不同声音的能力来评估的,包括吸尘器、盘子、狗吠和流水,”说Kim教授在谈到他们的成就时。
GIST-Hanwha Vision 团队通过集成一系列能够实现多样化音频智能的人工智能技术,在增强声音识别性能方面取得了重大进展。这包括半学习技术,它利用人工智能推断的答案;融合技术,将预学习训练模型的推理结果与现有模型的推理结果相结合;数据细化技术,优化性能;集成技术,集成多种技术来增强人工智能性能。
“从这次比赛中获得的经验和知识将应用于韩华视觉开发的闭路电视系统中的声学事件检测。此外,我们还将努力开发更高效和用户友好的服务,例如语音检测技术社交媒体内容中的片段和声学事件, ”金教授的言论令他兴奋不已。
这项突破性技术预计将具有广泛的应用,包括室内监控和人工智能扬声器。我们绝对希望它能够让人工智能仅通过分析声音来了解周围发生的事情,即使在无法进行视觉观察的情况下也是如此。