情報源に依存したマッチング行動

匹配行为取决于信息源

基本信息

批准号：
20020027
负责人：
酒井裕
金额：
$ 1.28万
依托单位：
Tamagawa University
依托单位国家：
日本
项目类别：
Grant-in-Aid for Scientific Research on Priority Areas
财政年份：
2008
资助国家：
日本
起止时间：
2008 至 2009
项目状态：
已结题

来源：
https://kaken.nii.ac.jp/en/grant/KAKENHI-PROJECT-20020027/
关键词：
神経科学脳・神経意思決定強化学習動物行動

项目摘要

人や動物は,実験室で人工的に設定された確率ルールで得られる報酬が決まるような環境では,しばしば,得られる報酬を最大化することに失敗し,非合理な行動を示す.このとき,しばしばマッチング則と呼ばれる行動上の法則を満たすことが知られている.本研究課題では,これまで,このようなマッチング行動に至る学習アルゴリズムに共通の原理を明らかにし,その学習戦略がもっと広い枠組の中では報酬最大化という合理性をもつことを証明した.さらにこのマッチング学習戦略を実現するようなシナプス可塑性の特性に必要な条件を明らかにしてきた.今年度は,マッチング学習戦略を実現するシナプス変化則の1例として,「強化メタ学習則」という学習則を提案し,その学習則がもつ様々な能力について検証した.Bi & Poo(1998)は,可塑性を起こす前のシナプス強度によってその後に起こる可塑性の程度が変わり,しかもその依存性がシナプス増強と抑圧で非対称となり,ある強度付近以外では,増強と抑圧が極めて不均衡であることを示している.これは,予め決まっている学習則の特性によって,ある強度に強制的に集まってくるような力を常に受けている,と解釈できる.ニューロンが入力に対する選択性を獲得するためには,同じような入力を受けているシナプスの中から特定のシナプスだけ選ばれて,その強度が強くなり,他のシナプスの強度が弱くなる必要があり,小さな差異を強調して広げていく仕組みが必要である.予め大きな力を受けている学習則では,このようなことは不可能である.本研究では提案した「強化メタ学習則」がこの問題を解決すると共に,ニューロン活動と行動上の実報酬との時間遅延をどの様にシナプス学習に反映させるか,という遅延報酬問題も解決することを示した.

在实验室中人为设定的概率规则确定奖励的环境中，人类和动物常常无法最大化他们所获得的奖励并表现出非理性行为。众所周知，通常被称为匹配法则的行为法则得到了满足。，我们阐明了导致这种匹配行为的学习算法的共同原理。我们证明了这种学习策略具有在更广泛的框架内最大化奖励的合理性。此外，我们还阐明了突触可塑性特征使这种匹配学习策略成为现实的必要条件，提出了一种称为“强化元”的学习规则。以“学习规则”为例实现了匹配学习策略的突触变化规则，并验证了该学习规则的各种能力。 & Poo（1998）指出，随后发生的可塑性程度取决于可塑性发生之前的突触强度，并且这种依赖性在突触增强和抑制之间是不对称的，并且增强和抑制在一定强度之外是极其不平衡的。可以解释为，由于预定学习规则的特征，神经元不断地受到被迫以一定强度聚集的力。神经元获得关于输入的选择性。需要从系统中的突触中选择一个特定的突触并增强其强度，同时削弱其他突触的强度，并且需要一种机制来强调和扩大微小的差异，这对于我们收到的学习规则来说是不可能的。在这项研究中，我们提出了一种“强化元学习规则”来解决这个问题，并确定如何减少神经元活动和真实行为奖励之间的时间延迟，我们还证明了延迟奖励可以反映在突触学习中。以类似的方式。