本系统在人与人交互动作生成方法中提出了一个新的框架,包含三个部分:
- 交互场:基于SDF的空间地图来建模人-场景关系,避免碰撞。
- 文本细化:使用LLM将输入文本分解为多个层次的运动相关线索。
- 扩散模型:将交互场和细化文本作为条件,以纯噪声和降噪时间步为输入,进行降噪,最终生成动作序列。
本论文构建了一种基于场景感知的虚拟人多智能体互动系统,旨在解决3D虚拟人动作生成中多类型动作的连贯衔接与碰撞避免问题。针对现有方法在复杂交互场景中动作不连贯、缺乏场景感知能力以及数据稀缺等挑战,本研究通过集成扩散模型、强化学习和大语言模型等技术,构建了一个支持人体运动、人与场景交互及人与人交互的统一生成框架。主要内容包括:(1) 在InterHuman数据集基础上,结合3D室内场景生成方法,构建了包含场景信息的人与人交互数据集HMIDS,为模型训练提供场景感知支持,同时利用大语言模型对动作文本描述进行分层细化,提升动作生成的语义精确性和自然性;(2) 通过符号距离函数 (Signed Distance Function,SDF) 编码场景几何信息,在动作生成中引入物理约束,显著减少了人与场景及人与人之间的碰撞问题; (3) 设计多模块协同框架,实现不同类型动作的平滑衔接,并通过实验验证了系统在物理合理性、动作多样性和文本对齐性上的优越性。实验结果表明,与现有最优方法相比,本系统在人与场景穿透率上降低15.7%,人与人穿透率减少8.3%,同时保持了动作的多样性和语义一致性。该研究为3D动画、游戏设计等领域的虚拟人交互提供了高效且逼真的解决方案,并指出了未来在动态场景支持、动作泛化性等方面的改进方向。