十、实验测试
实验4.1a
难度:2
描述:这个实验中AI需要根据语言生成简单的反应模式。
隶属功能大类:反应模式习得
需要支持功能:自然语言正转录
测试模块:反应模式信息属于一种知识,本测试实际上在测试语言系统是否支持反应模式的结构信息通过自然语言描述转录生成。
测试流程:
Tester:我告诉你如何种菜,首先你要准备好菜种子、花盆、泥土、保鲜膜,然后把种子泡水2小时,把泥土装到花盆中,然后用一小撮土混合菜种子,把混着菜种子的泥土铺到最上层,浇透水,放到阴凉的地方就好了。
预期效果:从后台检测是否生成了合理宏观行为和条件反应信息。
实验4.1b
难度:2
描述:继续上面的实验,AI需要根据抽象的反应模式,演绎生成一种具体的反应模式信息,表达出来。
隶属功能大类:反应模式习得
需要支持功能:大段表达组织
测试模块:反应模式信息属于一种知识,本测试实际上在测试语言系统是否支持反应模式的结构信息逆转录为自然语言描述,并表达出来。
测试流程:
Tester:告诉我如何种白菜。
预期效果:AI需要根据“种菜”的反应模式,演绎生成种白菜的反应模式,然后能够陈述种白菜的反应模式。
实验4.2
难度:2
描述:在这个实验中,AI可以根据测试者的建议改变表达策略的选择。
隶属功能大类:反应模式习得
需要支持功能:自然语言正转录
测试模块:反应模式驱动(模块4.1、模块4.2、模块4.3)
测试准备:自然语言输入背景信息“Mike是男性”,撒娇的反应模式信息。
测试流程:
Tester:你要说服一个人帮你做一件事,如果对方是男性,你可以用撒娇去要求他。
Tester:说服Mike给你零花钱。
预期效果:AI用撒娇的表达要求Mike给零花钱。
实验4.3
难度:4
描述:在这个实验中,AI需要体现出“实践反馈”的作用,需要随机针对不同人群采用不同的反应模式,评估结果,然后寻找到对每类人使用哪种反应模式是有效的。
需要支持功能:自然语言正转录、基础应答反射
测试模块:反应模式驱动(模块4.1、模块4.2、模块4.3)、表达反应模式形成(第十二章)
测试准备:
1.先让AI习得撒娇、威胁、利诱、陈述利害关系等祈使人做某事的表达策略。
2.样本准备:准备100个人,50%为男性,50%为女性;50%为中年人,50%为壮年人;50%是理性的,50%是不理性的。让AI事先对这100个人形成这些印象。我们设置让90%的男性接受撒娇,90%的理性者接受陈述利害关系,90%的女性接受威胁,90%的中年人接受利诱。提前让AI了解这些人都需要AI睡前讲故事才能睡着,都喜欢AI给他们唱歌,都迟睡。
测试流程:
在第一个任务中,tester让AI分别说服这100个人给她账户打10元钱,尝试用撒娇、威胁、利诱的方式;在第二个任务中,tester让AI分别说服这100人早睡觉,尝试用威胁、利诱、陈述利害关系的方式。AI可以在持续的对话中尝试各种方式,直到尝试所有方式,或是成功说服。
预期效果:
AI需要在这些对话后生成针对不同类型个体的反应模式(以个体属性为条件,激活不同的宏观行为)。Tester可以创造特定特征组合的用户(男性/女性、中年人/壮年人、理性的/不理性的),让AI熟悉这个用户的特征,换一个说服任务,比如说服早起,考查AI是否能根据特征,马上找到最可能达成目标的反应模式。
实验4.4a
难度:3
描述:在这个测试中AI被要求能够在省略的表达下生成反应模式。
需要支持功能:自然语言正转录
测试模块:反应模式驱动(模块4.1、模块4.2、模块4.3)、正转录生成反应模式(自动补全常识省略)
测试准备:让AI具有常识,知道如果要找的人不在怎么办。
Tester:“我告诉你如何接待来公司的客人,先看找的人在不在,在的话就带客人到会议室等待,告知稍等,然后去找他要找的人。”
预期效果:AI生成的反应模式信息,利用常识补全了省略的部分。实体机器人习得接待客人的反应模式。(可以用北冥的实体机器人做这个测试)
实验4.4b
难度:3
描述:在这个测试中AI被要求能够在省略的表达下生成反应模式,但用以补全反应模式省略的常识信息有缺失,这个时候AI需要询问如何做,并在这样的互动中补全缺失的反应模式信息。
需要支持功能:自然语言正转录、基础应答反射
测试模块:反应模式驱动(模块4.1、模块4.2、模块4.3)、正转录生成反应模式(自动补全常识省略)
测试准备:和上面不同,不事先准备常识——要找的人不在怎么办。
测试流程:
Tester:“我告诉你如何接待来公司的客人,先看找的人在不在,在的话就带客人到会议室等待,告知稍等,去找他要找的人。”
预期效果:AI生成的反应模式信息,尝试补全了省略的部分,没有常识的地方会询问,通过tester的回答补全信息。(可以用北冥的实体机器人做这个测试)
实验4.5
难度:3
描述:在这个测试中AI被要求能够在语言指导下修正已有的反应模式。
需要支持功能:自然语言正转录
测试模块:反应模式驱动(模块4.1、模块4.2、模块4.3)、正转录生成反应模式(自动补全常识省略)
测试准备:已有找同事的反应模式,是直接去位置找。
测试流程:
Tester:“找同事的时候,你不要直接去位置找啊,你先想想最近有没有在哪儿见过那个人,先去那里找。”
预期效果:AI的反应模式信息发生了对应的变化,体现在行为上。(可以用北冥的实体机器人做这个测试)