动物行为训练的理论基础

发布时间: 2022-04-09 10:09:24 浏览：次

打开文本图片集

摘要：本文阐述了动物行为训练的生物学背景和相应的心理学和神经生理学原理，论述了动物四种学习方式以及动物训练的两种方法：强化和惩罚。

关键词：行为训练；条件反射；强化；惩罚

1 生物学背景和原理

动物的行为训练就是一种学习行为，动物有四种学习方式：经典性条件反射、操作性条件反射、适应和复杂学习[1]。

经典性条件反射就是著名的巴甫洛夫条件反射，巴甫洛夫是前苏联著名的生理学家，曾因为对动物消化腺的创造性研究而获得1904年诺贝尔生理学奖。巴甫洛夫对动物消化腺的研究主要以狗为研究对象。他与助手在对狗的研究中发现，当助手给狗食物时，狗吃到食物，会分泌很多唾液；此后又发现狗只要看到食物，就开始分泌唾液；再后来，只要听到助手的脚步声，狗似乎知道马上就可以吃到食物，唾液地分泌也开始增加。巴甫洛夫系统研究了这种现象，提出了“条件反射”的概念，后人称之为“经典条件反射”[2]。巴甫洛夫认为，条件反射形成的条件是无条件反射：食物吃到嘴里，引起唾液分泌增加，这是自然的生理反应，形成后不需要学习，这种反应叫做无条件反射；此时引发反应的刺激是食物，为无条件刺激，做出的反应是无条件反应。另外一种是条件反射：研究助手的脚步声与狗的唾液分泌增加本来没有必然的联系，是一种无关刺激，或称中性刺激；当脚步声与食物同时、多次重复后，狗听到脚步声，唾液分泌就开始增加，这时中性刺激由于与无条件刺激联结而变成了条件刺激，由此引起的唾液分泌就是条件反应[3]。

操作性条件反射是美国心理学家斯金纳（B.F.Skinner）在本世纪30年代根据他所设计的实验研究的结果提出来的[2]。斯金纳设计了一种专用木箱——斯金纳箱，箱内有一套杠杆装置。将饥饿的动物置于箱内，它们在箱内乱跑、乱咬、乱撞，偶尔跳上杠杆，将杠杆压下，这时杠杆带动一个活门，从活门内掉出一个食物小球滚入箱内的木槽中，从而取得食物。以后动物再次进入箱内经过乱撞之后按压了杠杆取得了食物，反复几次之后，饥饿的动物一进入箱内，就会主动按压杠杆取得食物。这样就在压杠杆和取食物之间形成了条件反射，斯金纳称它为操作性条件反射。操作性条件反射如以食物为非条件刺激，也可称为食物运动性条件反射。将动物（如鸡）放入实验箱内，当它在走动中偶然用喙啄在杠杆上时就喂食，以强化这一动作，如此重复多次，鸡就学会自动啄杠杆而得食。在此基础上，可以进一步训练动物只有当出现某一特定的信号（如灯光）后啄杠杆才能得到食物的强化，就形成了以灯光为条件刺激的食物运动性条件反射。这类条件反射的特点是强化了动物必须通过自己的某种运动或操作才能得到食物这一关联，所以也称作操作性条件反射，这是一种更为复杂的行为[2]。

斯金纳的操作性条件反射又称工具性条件反射，其结果是规范或改变动物的行为。动物通过自己的某种活动或操作得到强化而形成条件反射。动物对环境做出反应，从而得到奖励，动物的行为在要求奖励的时候是一种工具。在操作性条件反射中，动物通过展示特殊行为而受到奖励或避免一个转移性刺激。例如，动物进入一个指定区域，然后动物受到食物奖励。在建立这种关系后，在下次动物更愿意进入指定区域。

适应是重复刺激导致行为减弱或消失的结果。例如动物开始可能被巨大的噪音惊吓，但如果噪音重复许多次，动物对噪音的反应开始变小。此时噪音作为一种刺激，逐渐转变成被忽略的事物。

复杂学习基本上是一种无所不包的行为。科学家最初认为所有的学习都能概括为适应、典型条件反射和工具性条件反射。然而这三种学习形式不能解释一些观测到的学习，如有的动物通过观察其他动物学会了作某些特殊的行为；或某些隐藏的学习，如大鼠第一次探索过一个迷宫，当再次通过的时候其速度会更快。

2 动物行为训练的方法——强化

行为训练的方法主要是强化和惩罚。强化是无关刺激和无条件刺激在时间上结合的过程，包括正强化和负强化[3]。正强化是使动物感到高兴或愉快，同时增加其特殊行为发生可能性的作用；而负强化则是使动物感到不高兴或不愉快，同时为了消除某些作用而增加其特殊行为发生可能性的作用。

与之相对有积极强化物和消极强化物，积极强化物是指能增强该反应与反应相伴随的刺激，如水、食物、奖赏等；所谓消极强化物，是指与反应相伴随的刺激物，从情境中被排除时可增强该反应。例如，将白鼠放进一特别箱子中，给予白鼠电击直至白鼠按压杠杆，经过几次强化后，白鼠很快学会了压杆反应，以逃避电击。电击即是增强压杆反应的消极强化物，其他诸如强光、噪声、批评等厌恶性刺激皆属此类（见图1）。

强化的程序分为连续强化和间歇强化，间歇强化一般可分为固定强化和非固定强化两种，固定强化又分定时强化和定比强化[4]。定时强化是指以反应时间而非反应数量为单位来实施强化，如每隔3或10min给予一次强化，人类的计时工资即是一例。实验表明，强化的时间间隔越短，动物的反应越快，反之亦然。此外，反应也随着接近强化点时间的长短而变得或慢或快，即反应之初，速度较慢，而接近强化时间点时，反应则加快。一次强化之后，反应重新变慢，开始了下一个循环。所谓定比强化是指以反应的数量而非时间为单位来实施强化。如设定白鼠只有压杆每20次才予以一次强化，人类的计件工资即是如此。实验表明，如果强化比率的标准不是高不可攀的话，定比强化下的动物反应要快于定时强化下的反应。斯金纳的研究还指出，如果使用非固定强化，即安排强化的时间间隔或反应次数不是以固定的标准出现，而采取变异的标准的话，这往往会克服固定强化的缺陷，而使得反应既稳定又均匀，而且难以消退。如果将固定强化和非固定强化混合安排使用，则效果非常好[5]（见图2）。

3 动物行为训练的方法——惩罚

惩罚也是行为训练的一个方法，合理地采用将有助于某些不必要行为的消失或减少[6]。惩罚的目的是为了降低或抑制某种行为的活动，并使某种行为消失或减少。通常我们都鼓励采用正强化的方法进行训练，然而，总用一种方式去实现行为训练往往达不到预期的效果，此时就要考虑运用惩罚的方法来完成所需要的动作。当然，我们反对运用体罚或任何对动物身心有伤害的方法，我们这里的惩罚是中止奖励、停止强化、中止行为训练或训练员可以采取走开的方法。为了减少不希望的行为，最有效的方法就是停止强化，让这一行为慢慢消失[7]。特别是在行为训练过程中动物显示攻击行为的时候，训练人员可以采取中止行为训练的方法；或者当发生了动物直接的攻击行为后，训练人员通过离开或走开作为对动物的惩罚。通过采取以上方法都能降低攻击行为再次发生的概率。如果发现用中止行为的方法来降低攻击行为需要频繁地延长时间才能达到效果，那么此时就应该重新评估以上方法。如果采取中止行为训练后动物仍然没有降低攻击的频率，表明该方法对这一动物已经没有效果了，需要采用新的技术来降低攻击行为的发生或重新调查行为训练的有效性[8]。

此外，要慎重采取其他的惩罚措施，由于实施惩罚的有效性是有限的，处罚并不能给动物恰当的行为，只能减少不希望行为的发生率[9]。而且惩罚是有消极影响的，尽管我们的本意是消除或减弱不希望行为，但是容易让动物把惩罚和训练行为本身联系起来，从而建立条件反射。为了使惩罚有效果，惩罚必须要有即时性和恒常性，并有一定的力度。要求在每次这种行为出现的时候都给予实施，不能有时惩罚，有时容忍。这样会把动物的行为准则弄混，分辨不清到底什么样的行为才是我们所要求的。总之，在实际训练中要具体问题具体分析。只要训练者对期望的某种行为予以奖励，这种行为就会得到强化，反之就会消退。若施予惩罚，则会加快消退的速度。（编辑：郭远）

参考文献：

[1]Mellen J.， Ellis S， D. Kleiman， M. Allen， K. Thompson， and S. Lumpkin. "Animal learning and husbandry training." In Wild Mammals in Captivity， eds[J]. Chicago： University of Chicago Press， 1996， 88-99.

[2]尚玉昌. 动物的经典条件反射和操作条件反射学习行为[J]. 2005， 40（12）： 7-9.

[3]彭聃龄主编. 普通心理学[J]. 北京师范大学出版社， 2001.

[4]郭志宏. 经典性条件反射与操作性条件反射的比较[J]. 内蒙古科技与经济， 2005， 101-103.

[5]章永. 间歇强化程序及其运用[J]. 乐山师范学院学报， 2006， 89-92.

[6]Kirtland， J. "Operant definitions of reinforcement and punishment： Getting the jargon right."[J]. Elephant Managers Association Newsletter， 1994， 5（1）： 23-25.

[7]Poole， T. "Principles involved in training animals." In Animal Training： A Review and Commentary on Current Practice[J]. Cambridge， U.K.： Universities Federation for Animal Welfare， Potters Bar， 1990.

[8]Kirkwood， J.， Kichenside， C.， and James， W. "Training zoo animals." In Proceedings of Animal Training Symposium. A Review and Commentary on Current Practices[J]. Cambridge， U.K.： Universities Federation for Animal Welfare， Potters Bar， 1989， 93-99.

[9]Daniel Q. Estep. Two Programs Educating the Public in Animal Learning and Behavior International Journal of Comparative Psychology[J]. 2002， 15， 242-248.

相关热词搜索： 理论基础 训练动物