智能家居多模态人机自然交互系统研究与实现开题报告

 2022-06-05 22:06:38

1. 研究目的与意义

近年来,随着计算机及其相关技术的不断发展以及人们生活质量的不断提高,日常家居生活智能化已经成为可能,并且是家庭生活发展的必然趋势。同时,随着语音识别、自然语言处理、计算机视觉等人工智能技术的日益成熟,并逐渐落地到实际场景中,如何实现大规模应用落地或者说如何实现通用人工智能,变得愈发重要。为了更好地满足人机交互的这一需求在这种探索和思考下,“多模态人工智能”成为了人工智能领域的重要研究方向和发展方向。人机交互主要研究的是人与计算机之间的信息交换,从最早的手工作业阶段开始经历了命令行界面、图形化用户界面的发展,再进入以多点触控界面、实物用户界面、三维用户界面和多通道用户界面为代表的自然人机交互的阶段,目前许多设备采用语音交互的方式。而交互模式经历每一次变化背后的驱动力,其实源自于人们对人和机器之间交互的便利性、自然性以及准确性所提出的更高的要求。之所以说“多模态”是人机交互的发展趋势,主要有以下几个原因。第一,多模态交互能够让人们可以根据不同的场景来选择不同的模态组合进行交互,进而从整体上提高人机交互的自然度;第二,在多模态技术下,一个模态可以来补充另一个模态的弱点,通过融合多个模态的信息,获得更精确的用户、场景、和发声人位置估计;第三,多模态交互具有互为监督的优势,即当机器无法获得某个模态的明显信息时,其他模态可以为其提供弱监督信息,让机器能够持续做系统自适应调整;第四,多模态能够让人们在与机器的交互过程中拥有多维感觉,从而能够从视觉、听觉、触觉等多方面体会机器的情感和表达的语义。

随着物联网的发展,嵌入式设备在人们的日常家居生活中得到了广泛应用,同样的,人机交互技术在智能家居中有广泛的应用前景,能为用户带来高质量的生活体验。然而现有的人机智能交互其实存在着诸多问题。首先是由于用户所处环境的复杂,设备不能很好地理解场景和用户的需求;其次是精准度的问题,比如语言控制,其实不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,充满了不确定性;再次,目前的图形用户界面相较命令行用户界面虽然有它的优势,但依旧有着固有的局限性,例如不平衡的输入输出,输入输出方式单一等等;最后,文本的抽象内容标签和图片、音频的具体标签的对应关系难以建立。难以让多个模态有效地结合在一起,达到更好的效果。

上述分析的问题和不足,基于机器视觉及自然语言融合的多模态人机智能交互技术可以做到很好的弥补。因此本课题拟研究实现一个智能家居多模态人机自然交互系统,旨在基于深度神经网络技术,实现家居日常生活场景的智能化,为实现深度流畅自然的人机交互提供技术支撑。一方面,采用图像处理模拟摄像头捕捉人体手势进行识别。手势是一种自然、直观的行为方式,简单灵活,具有多义性、多态性以及时间和空间上的差异性,是目前计算机视觉领域的重要研究对象之一。在家居人机交互过程中,用户可以通过手势动作来发出命令,中端设备接收到动作信号时,识别信号的命令并给于响应。精准地对手势进行识别能使机器更直观的理解用户的需求。另一方面,再结合自然语言语音信号进行语音识别,免除时间和空间的干扰,使用户能够甩掉键盘,通过语音命令进行操作。同时,考虑到家居环境的复杂多变,为了免除语音信号在传输的过程中受到的各类环境噪声的影响干扰,使用自适应语音降噪技术和深度学习技术来进行语音识别。语音作为最自然最便捷的交流方式,一直是人机交互中最重要的研究领域之一,通过语音识别将用户的语音转换为机器可以理解的数字信号。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

(1) 研究内容

本课题主要研究智能家居多模态人机自然交互系统的设计与实现。主要分为两个模块,一个是实现对于手势的识别处理;另一个是实现对于用户自然语言语音信号的语音识别与转写。

其中手势识别部分主要分为以下步骤:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

手势识别部分采用的主要研究方法如下:

主要环境:python opencv keras tensorflow theano numpy matplotlib pyqt5

1)采用两种模式来获取手势,一种二值模式来应对当背景为空,即白墙、白板等的时候,将图像转换成灰度,然后使用自适应阈值过滤器应用高斯模糊效果。另一种skinmask模式,这种模式更适合背景不为空且光线充足的情况。将输入图像转换为h sv,然后根据肤色范围设置h,s,v值的范围。然后应用错误判断和扩张。最后用高斯模糊来平滑噪声;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]易靖国,程江华,库锡树. 视觉手势识别综述[j]. 计算机科学,2016,43(s1):103-108.

[2] 姜克. 基于深度图像的3d手势识别[d]. 江南大学,2015.

[3] 贠卫国,史其琦,王民. 基于深度卷积神经网络的多特征融合的手势识别[j]. 液晶与显示, 2019, 34(4): 417-422.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

(1)1月11日至2月15日分析课题,查找资料。

(2)2月16日至2月28日完成需求分析。

(3)3月01日至3月16日完成开题报告。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版