Observational and reinforcement pattern-learning : An exploratory study
1
GREDEG -
Groupe de Recherche en Droit, Economie et Gestion
2 CNRS - Centre National de la Recherche Scientifique
3 UniCA - Université Côte d'Azur
4 EHESS - École des hautes études en sciences sociales
5 CAMS - Centre d'Analyse et de Mathématique sociales
6 AMU - Aix Marseille Université
7 BETA - Bureau d'Économie Théorique et Appliquée
8 University of Adelaide
2 CNRS - Centre National de la Recherche Scientifique
3 UniCA - Université Côte d'Azur
4 EHESS - École des hautes études en sciences sociales
5 CAMS - Centre d'Analyse et de Mathématique sociales
6 AMU - Aix Marseille Université
7 BETA - Bureau d'Économie Théorique et Appliquée
8 University of Adelaide
Nobuyuki Hanaki
- Fonction : Auteur
- PersonId : 970714
Résumé
Understanding how individuals learn in an unknown environment is an important problem in economics. We model and examine experimentally behavior in a very simple multi-armed bandit framework in which participants do not know the inter-temporal payoff structure. We propose a baseline reinforcement learning model that allows for pattern-recognition and change in the strategy space. We also analyse three augmented versions that accommodate observational learning from the actions and/or payoffs of another player. The models successfully reproduce the distributional properties of observed discovery times and total payoffs. Our study further shows that when one of the pair discovers the hidden pattern, observing another's actions and/or payoffs improves discovery time compared to the baseline case.
Domaines
Economies et financesFormat du dépôt | Fichier |
---|---|
Type de dépôt | Article dans une revue |
Titre |
en
Observational and reinforcement pattern-learning : An exploratory study
|
Résumé |
en
Understanding how individuals learn in an unknown environment is an important problem in economics. We model and examine experimentally behavior in a very simple multi-armed bandit framework in which participants do not know the inter-temporal payoff structure. We propose a baseline reinforcement learning model that allows for pattern-recognition and change in the strategy space. We also analyse three augmented versions that accommodate observational learning from the actions and/or payoffs of another player. The models successfully reproduce the distributional properties of observed discovery times and total payoffs. Our study further shows that when one of the pair discovers the hidden pattern, observing another's actions and/or payoffs improves discovery time compared to the baseline case.
|
Auteur(s) |
Nobuyuki Hanaki
1, 2, 3
, Alan Kirman
4, 5, 6
, Paul Pezanis-Christou
7, 8
1
GREDEG -
Groupe de Recherche en Droit, Economie et Gestion
( 185786 )
- GREDEG - Bâtiment 2 - Campus Azur du CNRS - 250 rue Albert Einstein - CS 10269 - F
06905 SOPHIA ANTIPOLIS Cedex
- France
2
CNRS -
Centre National de la Recherche Scientifique
( 441569 )
- France
3
UniCA -
Université Côte d'Azur
( 1039632 )
- Parc Valrose, 28, avenue Valrose 06108 Nice Cedex 2
- France
4
EHESS -
École des hautes études en sciences sociales
( 99539 )
- 54, boulevard Raspail 75006 Paris
- France
5
CAMS -
Centre d'Analyse et de Mathématique sociales
( 1318 )
- 54 boulevard Raspail 75006 Paris
- France
6
AMU -
Aix Marseille Université
( 198056 )
- Aix-Marseille Université
Jardins du Pharo
58 Boulevard Charles Livon
13284 Marseille cedex 7
- France
7
BETA -
Bureau d'Économie Théorique et Appliquée
( 93745 )
- Université de Lorraine, UFR Droit Sciences Economiques et Gestion, 13 place Carnot CO 70026, 54035 Nancy Cedex
Université de Strasbourg, Faculté des Sciences Economiques et de Gestion, 61 avenue de la Forêt Noire 67085 Strasbourg Cedex
- France
8
University of Adelaide
( 116469 )
- Adelaide, South Australia, 5005 Australia
- Australie
|
Nom de la revue |
|
Langue du document |
Anglais
|
Page/Identifiant |
1 - 21
|
Volume |
104
|
Date de publication |
2018-05
|
Audience |
Internationale
|
Comité de lecture |
Oui
|
Vulgarisation |
Non
|
Mots-clés (JEL) |
|
Domaine(s) |
|
Projet(s) ANR |
|
Collaboration/Projet |
|
Financement |
|
Mots-clés |
en
Multi-armed bandit, Reinforcement learning, Payoff patterns, Observational learning
|
DOI | 10.1016/j.euroecorev.2018.01.009 |
Origine :
Fichiers produits par l'(les) auteur(s)
Loading...