2.4.1 多模态交互:文字+语音+视觉+动作