100% found this document useful (2 votes)
13 views

Complete Download The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python 1st Edition Michael Hu PDF All Chapters

Implementations

Uploaded by

toufekhagrs
Copyright
© © All Rights Reserved
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (2 votes)
13 views

Complete Download The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python 1st Edition Michael Hu PDF All Chapters

Implementations

Uploaded by

toufekhagrs
Copyright
© © All Rights Reserved
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 40

Get ebook downloads in full at ebookmeta.

com

The Art of Reinforcement Learning: Fundamentals,


Mathematics, and Implementations with Python 1st
Edition Michael Hu

https://ebookmeta.com/product/the-art-of-reinforcement-
learning-fundamentals-mathematics-and-implementations-with-
python-1st-edition-michael-hu/

OR CLICK BUTTON

DOWNLOAD NOW

Explore and download more ebook at https://ebookmeta.com


Recommended digital products (PDF, EPUB, MOBI) that
you can download immediately if you are interested.

The Art of Reinforcement Learning: Fundamentals,


Mathematics, and Implementations with Python 1st Edition
Michael Hu
https://ebookmeta.com/product/the-art-of-reinforcement-learning-
fundamentals-mathematics-and-implementations-with-python-1st-edition-
michael-hu/
ebookmeta.com

Python AI Programming: Navigating fundamentals of ML, deep


learning, NLP, and reinforcement learning in practice
Patrick J
https://ebookmeta.com/product/python-ai-programming-navigating-
fundamentals-of-ml-deep-learning-nlp-and-reinforcement-learning-in-
practice-patrick-j/
ebookmeta.com

Deep Reinforcement Learning with Python: With PyTorch,


TensorFlow and OpenAI Gym 1st Edition Nimish Sanghi

https://ebookmeta.com/product/deep-reinforcement-learning-with-python-
with-pytorch-tensorflow-and-openai-gym-1st-edition-nimish-sanghi-3/

ebookmeta.com

Divine Envy Jealousy and Vengefulness in Ancient Israel


and Greece 1st Edition Stuart Lasine

https://ebookmeta.com/product/divine-envy-jealousy-and-vengefulness-
in-ancient-israel-and-greece-1st-edition-stuart-lasine/

ebookmeta.com
The Apostolic Age and the New Testament George A. Barton

https://ebookmeta.com/product/the-apostolic-age-and-the-new-testament-
george-a-barton/

ebookmeta.com

Rethinking Rachel Doležal and Transracial Theory 1st


Edition Molly Littlewood Mckibbin

https://ebookmeta.com/product/rethinking-rachel-dolezal-and-
transracial-theory-1st-edition-molly-littlewood-mckibbin/

ebookmeta.com

The Urban Gaze Exploring Urbanity Through Art Architecture


Music Fashion Film and Media 1st Edition Silvia
Mazzucotelli Salice
https://ebookmeta.com/product/the-urban-gaze-exploring-urbanity-
through-art-architecture-music-fashion-film-and-media-1st-edition-
silvia-mazzucotelli-salice/
ebookmeta.com

Mastering Python for Web: A Beginner's Guide (Mastering


Computer Science) 1st Edition Sufyan Bin Uzayr

https://ebookmeta.com/product/mastering-python-for-web-a-beginners-
guide-mastering-computer-science-1st-edition-sufyan-bin-uzayr/

ebookmeta.com

Applied Numerical Methods with MATLAB for Engineers and


Scientists, 5th Edition Steven Chapra

https://ebookmeta.com/product/applied-numerical-methods-with-matlab-
for-engineers-and-scientists-5th-edition-steven-chapra/

ebookmeta.com
Indiana Steinhardt and the Quest for Quasicrystals A
Conversation with Paul Steinhardt 1st Edition Howard
Burton
https://ebookmeta.com/product/indiana-steinhardt-and-the-quest-for-
quasicrystals-a-conversation-with-paul-steinhardt-1st-edition-howard-
burton/
ebookmeta.com
The Art of
Reinforcement
Learning
Fundamentals, Mathematics,
and Implementations with Python

Michael Hu
The Art of Reinforcement Learning
Michael Hu

The Art of Reinforcement


Learning
Fundamentals, Mathematics,
and Implementations with Python
Michael Hu
Shanghai, Shanghai, China

ISBN-13 (pbk): 978-1-4842-9605-9 ISBN-13 (electronic): 978-1-4842-9606-6


https://doi.org/10.1007/978-1-4842-9606-6

Copyright © 2023 by Michael Hu


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the material is concerned,
specifically the rights of translation, reprinting, reuse of illustrations, recitation, broadcasting, reproduction on microfilms or in
any other physical way, and transmission or information storage and retrieval, electronic adaptation, computer software, or by
similar or dissimilar methodology now known or hereafter developed.
Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with every occurrence of
a trademarked name, logo, or image we use the names, logos, and images only in an editorial fashion and to the benefit of the
trademark owner, with no intention of infringement of the trademark.
The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not identified as such,
is not to be taken as an expression of opinion as to whether or not they are subject to proprietary rights.
While the advice and information in this book are believed to be true and accurate at the date of publication, neither the authors
nor the editors nor the publisher can accept any legal responsibility for any errors or omissions that may be made. The publisher
makes no warranty, express or implied, with respect to the material contained herein.

Managing Director, Apress Media LLC: Welmoed Spahr


Acquisitions Editor: Celestin Suresh John
Development Editor: Laura Berendson
Editorial Assistant: Gryffin Winkler

Cover designed by eStudioCalamar

Cover image designed by Freepik (www.freepik.com)

Distributed to the book trade worldwide by Springer Science+Business Media New York, 1 New York Plaza, Suite 4600,
New York, NY 10004-1562, USA. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail orders-ny@springer-sbm.com, or
visit www.springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer Science +
Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation.
For information on translations, please e-mail booktranslations@springernature.com; for reprint, paperback, or audio rights,
please e-mail bookpermissions@springernature.com.
Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and licenses are also
available for most titles. For more information, reference our Print and eBook Bulk Sales web page at http://www.apress.com/
bulk-sales.
Any source code or other supplementary material referenced by the author in this book is available to readers on GitHub (https://
github.com/Apress). For more detailed information, please visit https://www.apress.com/gp/services/source-code.

Paper in this product is recyclable


To my beloved family,
This book is dedicated to each of you, who have been a constant
source of love and support throughout my writing journey.
To my hardworking parents, whose tireless efforts in raising us
have been truly remarkable. Thank you for nurturing my dreams
and instilling in me a love for knowledge. Your unwavering
dedication has played a pivotal role in my accomplishments.
To my sisters and their children, your presence and love have
brought immense joy and inspiration to my life. I am grateful
for the laughter and shared moments that have sparked my
creativity.
And to my loving wife, your consistent support and
understanding have been my guiding light. Thank you for
standing by me through the highs and lows, and for being my
biggest cheerleader.
—Michael Hu
Contents

Part I Foundation
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 AI Breakthrough in Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 What Is Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Agent-Environment in Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Examples of Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5 Common Terms in Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Why Study Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7 The Challenges in Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Markov Decision Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Overview of MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Model Reinforcement Learning Problem Using MDP . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Markov Process or Markov Chain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Markov Reward Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Markov Decision Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6 Alternative Bellman Equations for Value Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.7 Optimal Policy and Optimal Value Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.8 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 Dynamic Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Use DP to Solve MRP Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Policy Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Policy Improvement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 General Policy Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6 Value Iteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4 Monte Carlo Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1 Monte Carlo Policy Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Incremental Update . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Exploration vs. Exploitation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Monte Carlo Control (Policy Improvement) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

vii
viii Contents

4.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5 Temporal Difference Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.1 Temporal Difference Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2 Temporal Difference Policy Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 Simplified -Greedy Policy for Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4 TD Control—SARSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.5 On-Policy vs. Off-Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.6 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.7 Double Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.8 N-Step Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.9 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

Part II Value Function Approximation


6 Linear Value Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.1 The Challenge of Large-Scale MDPs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.2 Value Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3 Stochastic Gradient Descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.4 Linear Value Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7 Nonlinear Value Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.1 Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.2 Training Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.3 Policy Evaluation with Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.4 Naive Deep Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.5 Deep Q-Learning with Experience Replay and Target Network . . . . . . . . . . . . . . . . . 147
7.6 DQN for Atari Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8 Improvements to DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.1 DQN with Double Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.2 Prioritized Experience Replay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.3 Advantage function and Dueling Network Architecture . . . . . . . . . . . . . . . . . . . . . . . . 169
8.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

Part III Policy Approximation


9 Policy Gradient Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.1 Policy-Based Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.2 Policy Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
9.3 REINFORCE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.4 REINFORCE with Baseline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.5 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Contents ix

9.6 Using Entropy to Encourage Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192


9.7 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
10 Problems with Continuous Action Space . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
10.1 The Challenges of Problems with Continuous Action Space . . . . . . . . . . . . . . . . . . . . 197
10.2 MuJoCo Environments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
10.3 Policy Gradient for Problems with Continuous Action Space . . . . . . . . . . . . . . . . . . . 200
10.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
11 Advanced Policy Gradient Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
11.1 Problems with the Standard Policy Gradient Methods . . . . . . . . . . . . . . . . . . . . . . . . . 205
11.2 Policy Performance Bounds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
11.3 Proximal Policy Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
11.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Part IV Advanced Topics


12 Distributed Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.1 Why Use Distributed Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.2 General Distributed Reinforcement Learning Architecture . . . . . . . . . . . . . . . . . . . . . 224
12.3 Data Parallelism for Distributed Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . 229
12.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13 Curiosity-Driven Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.1 Hard-to-Explore Problems vs. Sparse Reward Problems . . . . . . . . . . . . . . . . . . . . . . . 233
13.2 Curiosity-Driven Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
13.3 Random Network Distillation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
13.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
14 Planning with a Model: AlphaZero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
14.1 Why We Need to Plan in Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
14.2 Monte Carlo Tree Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
14.3 AlphaZero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
14.4 Training AlphaZero on a 9 × 9 Go Board . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
14.5 Training AlphaZero on a 13 × 13 Gomoku Board . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
14.6 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
About the Author

Michael Hu is an exceptional software engineer with a wealth of


expertise spanning over a decade, specializing in the design and
implementation of enterprise-level applications. His current focus
revolves around leveraging the power of machine learning (ML)
and artificial intelligence (AI) to revolutionize operational systems
within enterprises. A true coding enthusiast, Michael finds solace
in the realms of mathematics and continuously explores cutting-
edge technologies, particularly machine learning and deep learning.
His unwavering passion lies in the realm of deep reinforcement
learning, where he constantly seeks to push the boundaries of
knowledge. Demonstrating his commitment to the field, he has built
various numerous open source projects on GitHub that closely emu-
late state-of-the-art reinforcement learning algorithms pioneered by
DeepMind, including notable examples like AlphaZero, MuZero,
and Agent57. Through these projects, Michael demonstrates his
commitment to advancing the field and sharing his knowledge with
fellow enthusiasts. He currently resides in the city of Shanghai,
China.

xi
About the Technical Reviewer

Shovon Sengupta has over 14 years of expertise and a deepened


understanding of advanced predictive analytics, machine learning,
deep learning, and reinforcement learning. He has established a
place for himself by creating innovative financial solutions that
have won numerous awards. He is currently working for one of the
leading multinational financial services corporations in the United
States as the Principal Data Scientist at the AI Center of Excellence.
His job entails leading innovative initiatives that rely on artificial
intelligence to address challenging business problems. He has a US
patent (United States Patent: Sengupta et al.: Automated Predictive
Call Routing Using Reinforcement Learning [US 10,356,244 B1])
to his credit. He is also a Ph.D. scholar at BITS Pilani. He has
reviewed quite a few popular titles from leading publishers like
Packt and Apress and has also authored a few courses for Packt
and CodeRed (EC-Council) in the realm of machine learning. Apart
from that, he has presented at various international conferences on
machine learning, time series forecasting, and building trustworthy
AI. His primary research is concentrated on deep reinforcement
learning, deep learning, natural language processing (NLP), knowl-
edge graph, causality analysis, and time series analysis. For more
details about Shovon’s work, please check out his LinkedIn page:
www.linkedin.com/in/shovon-sengupta-272aa917.

xiii
Preface

Reinforcement learning (RL) is a highly promising yet challenging subfield of artificial intelligence
(AI) that plays a crucial role in shaping the future of intelligent systems. From robotics and
autonomous agents to recommendation systems and strategic decision-making, RL enables machines
to learn and adapt through interactions with their environment. Its remarkable success stories include
RL agents achieving human-level performance in video games and even surpassing world champions
in strategic board games like Go. These achievements highlight the immense potential of RL in solving
complex problems and pushing the boundaries of AI.
What sets RL apart from other AI subfields is its fundamental approach: agents learn by interacting
with the environment, mirroring how humans acquire knowledge. However, RL poses challenges that
distinguish it from other AI disciplines. Unlike methods that rely on precollected training data, RL
agents generate their own training samples. These agents are not explicitly instructed on how to
achieve a goal; instead, they receive state representations of the environment and a reward signal,
forcing them to explore and discover optimal strategies on their own. Moreover, RL involves complex
mathematics that underpin the formulation and solution of RL problems.
While numerous books on RL exist, they typically fall into two categories. The first category
emphasizes the fundamentals and mathematics of RL, serving as reference material for researchers
and university students. However, these books often lack implementation details. The second
category focuses on practical hands-on coding of RL algorithms, neglecting the underlying theory
and mathematics. This apparent gap between theory and implementation prompted us to create
this book, aiming to strike a balance by equally emphasizing fundamentals, mathematics, and the
implementation of successful RL algorithms.
This book is designed to be accessible and informative for a diverse audience. It is targeted toward
researchers, university students, and practitioners seeking a comprehensive understanding of RL. By
following a structured approach, the book equips readers with the necessary knowledge and tools to
apply RL techniques effectively in various domains.
The book is divided into four parts, each building upon the previous one. Part I focuses on the
fundamentals and mathematics of RL, which form the foundation for almost all discussed algorithms.
We begin by solving simple RL problems using tabular methods. Chapter 2, the cornerstone of this
part, explores Markov decision processes (MDPs) and the associated value functions, which are
recurring concepts throughout the book. Chapters 3 to 5 delve deeper into these fundamental concepts
by discussing how to use dynamic programming (DP), Monte Carlo methods, and temporal difference
(TD) learning methods to solve small MDPs.
Part II tackles the challenge of solving large-scale RL problems that render tabular methods
infeasible due to their complexity (e.g., large or infinite state spaces). Here, we shift our focus to value
function approximation, with particular emphasis on leveraging (deep) neural networks. Chapter 6
provides a brief introduction to linear value function approximation, while Chap. 7 delves into the

xv
xvi Preface

renowned Deep Q-Network (DQN) algorithm. In Chap. 8, we discuss enhancements to the DQN
algorithm.
Part III explores policy-based methods as an alternative approach to solving RL problems.
While Parts I and II primarily focus on value-based methods (learning the value function), Part III
concentrates on learning the policy directly. We delve into the theory behind policy gradient methods
and the REINFORCE algorithm in Chap. 9. Additionally, we explore Actor-Critic algorithms,
which combine policy-based and value-based approaches, in Chap. 10. Furthermore, Chap. 11 covers
advanced policy-based algorithms, including surrogate objective functions and the renowned Proximal
Policy Optimization (PPO) algorithm.
The final part of the book addresses advanced RL topics. Chapter 12 discusses how distributed
RL can enhance agent performance, while Chap. 13 explores the challenges of hard-to-explore RL
problems and presents curiosity-driven exploration as a potential solution. In the concluding chapter,
Chap. 14, we delve into model-based RL by providing a comprehensive examination of the famous
AlphaZero algorithm.
Unlike a typical hands-on coding handbook, this book does not primarily focus on coding exercises.
Instead, we dedicate our resources and time to explaining the fundamentals and core ideas behind
each algorithm. Nevertheless, we provide complete source code for all examples and algorithms
discussed in the book. Our code implementations are done from scratch, without relying on third-
party RL libraries, except for essential tools like Python, OpenAI Gym, Numpy, and the PyTorch
deep learning framework. While third-party RL libraries expedite the implementation process in real-
world scenarios, we believe coding each algorithm independently is the best approach for learning RL
fundamentals and mastering the various RL algorithms.
Throughout the book, we employ mathematical notations and equations, which some readers
may perceive as heavy. However, we prioritize intuition over rigorous proofs, making the material
accessible to a broader audience. A foundational understanding of calculus at a basic college level,
minimal familiarity with linear algebra, and elementary knowledge of probability and statistics
are sufficient to embark on this journey. We strive to ensure that interested readers from diverse
backgrounds can benefit from the book’s content.
We assume that readers have programming experience in Python since all the source code is
written in this language. While we briefly cover the basics of deep learning in Chap. 7, including
neural networks and their workings, we recommend some prior familiarity with machine learning,
specifically deep learning concepts such as training a deep neural network. However, beyond
the introductory coverage, readers can explore additional resources and materials to expand their
knowledge of deep learning.
This book draws inspiration from Reinforcement Learning: An Introduction by Richard S. Sutton
and Andrew G. Barto, a renowned RL publication. Additionally, it is influenced by prestigious
university RL courses, particularly the mathematical style and notation derived from Professor Emma
Brunskill’s RL course at Stanford University. Although our approach may differ slightly from Sutton
and Barto’s work, we strive to provide simpler explanations. Additionally, we have derived some
examples from Professor David Silver’s RL course at University College London, which offers a
comprehensive resource for understanding the fundamentals presented in Part I. We would like to
express our gratitude to Professor Dimitri P. Bertsekas for his invaluable guidance and inspiration
in the field of optimal control and reinforcement learning. Furthermore, the content of this book
incorporates valuable insights from research papers published by various organizations and individual
researchers.
In conclusion, this book aims to bridge the gap between the fundamental concepts, mathematics,
and practical implementation of RL algorithms. By striking a balance between theory and implementa-
tion, we provide readers with a comprehensive understanding of RL, empowering them to apply these
Preface xvii

techniques in various domains. We present the necessary mathematics and offer complete source
code for implementation to help readers gain a deep understanding of RL principles. We hope this
book serves as a valuable resource for readers seeking to explore the fundamentals, mathematics, and
practical aspects of RL algorithms. We must acknowledge that despite careful editing from our editors
and multiple round of reviews, we cannot guarantee the book’s content is error free. Your feedback and
corrections are invaluable to us. Please do not hesitate to contact us with any concerns or suggestions
for improvement.
Source Code
You can download the source code used in this book from github.com/apress/art-of-reinforcement-lear
ning.

Michael Hu
Part I
Foundation
Introduction
1

Artificial intelligence has made impressive progress in recent years, with breakthroughs achieved
in areas such as image recognition, natural language processing, and playing games. In particular,
reinforcement learning, a type of machine learning that focuses on learning by interacting with an
environment, has led to remarkable achievements in the field.
In this book, we focus on the combination of reinforcement learning and deep neural networks,
which have become central to the success of agents that can master complex games such as board
game Go and Atari video games.
This first chapter provides an overview of reinforcement learning, including key concepts such as
states, rewards, policies, and the common terms used in reinforcement learning, like the difference
between episodic and continuing reinforcement learning problems, model-free vs. model-based
methods.
Despite the impressive progress in the field, reinforcement learning still faces significant chal-
lenges. For example, it can be difficult to learn from sparse rewards, and the methods can suffer from
instability. Additionally, scaling to large state and action spaces can be a challenge.
Throughout this book, we will explore these concepts in greater detail and discuss state-of-the-art
techniques used to address these challenges. By the end of this book, you will have a comprehensive
understanding of the principles of reinforcement learning and how they can be applied to real-world
problems.
We hope this introduction has sparked your curiosity about the potential of reinforcement learning,
and we invite you to join us on this journey of discovery.

1.1 AI Breakthrough in Games


Atari

The Atari 2600 is a home video game console developed by Atari Interactive, Inc. in the 1970s. It
features a collection of iconic video games. These games, such as Pong, Breakout, Space Invaders,
and Pac-Man, have become classic examples of early video gaming culture. In this platform, players
can interact with these classic games using a joystick controller.

© The Author(s), under exclusive license to APress Media, LLC, part of Springer Nature 2023 3
M. Hu, The Art of Reinforcement Learning,
https://doi.org/10.1007/978-1-4842-9606-6_1
Other documents randomly have
different content
sentiment; je verrai mes sujets hors de péril. Mais si je ne puis te
persuader, aussi malheureux roi que malheureux père, la perte de
mon fils deviendra celle de ma nation; et j'aurai la douleur de ne
porter une couronne, que pour ne pouvoir être seul misérable.» Le
César attendri ne put retenir ses larmes. Les Chamaves se
désespéraient, lorsque Julien fit tout à coup paraître le jeune prince,
comme une de ces divinités qui viennent sur le théâtre pour démêler
une intrigue dont le dénouement semblait impossible. Il avait été fait
prisonnier, et les Romains le traitaient en fils de roi. Julien lui permit
d'entretenir son père, et ne perdit rien d'une entrevue si touchante. A
ce spectacle la surprise arrêta les gémissements. Les Barbares
muets et immobiles croyaient voir un fantôme. Au milieu de ce
profond silence, Julien élève sa voix: «Croyez-en vos yeux, leur dit-
il, c'est votre prince; la guerre vous l'avait fait perdre; Dieu et les
Romains vous l'ont rendu. Je le retiendrai non comme un otage que
me donne votre soumission, mais comme un présent que m'a fait la
victoire. Il trouvera auprès de moi tous les honneurs qui conviennent
à sa naissance. Pour vous, si vous êtes infidèles au traité, vous en
porterez la peine, non pas dans la personne de votre jeune prince; je
ressemblerais à ces bêtes féroces, qui, blessées par les chasseurs,
déchirent les voyageurs qu'elles rencontrent: il vivra comme une
preuve de notre valeur et de notre humanité. Mais vous serez punis,
d'abord par votre propre injustice; l'injustice ne manque jamais de
perdre les hommes, quoiqu'elle les flatte quelquefois en leur
procurant un succès passager; ensuite par moi et par les Romains,
dont vous ne pourrez ni surmonter les armes, ni désarmer la
colère.» Quand il eut cessé de parler, tous ces Barbares, l'adorant
comme un dieu, se prosternèrent devant lui et le comblèrent de
louanges. Il ne demanda pour ôtage que la mère de Nébiogaste; on
la lui mit entre les mains et le traité fut conclu. Il fit entrer dans ses
troupes un corps de Saliens et de Chamaves, qui subsistait encore
du temps de Théodose le jeune. La navigation du Rhin demeura
libre, et Charietton fut récompensé par des emplois honorables. Il
était huit ans après, quand il mourut, comte des deux Germanies.
Ensuite de cette expédition on rétablit sur les bords de la Meuse
trois forteresses, que les Barbares avaient détruites: et comme il
restait encore aux soldats des vivres pour dix-sept jours, Julien en fit
laisser une partie dans ces places, comptant sur les
moissons des Saliens et des Chamaves. Mais avant xl. Famine
quelles fussent en maturité, le blé manqua aux dans l'armée de
troupes; et le soldat ne trouvant pas de subsistance Julien.
s'abandonna aux murmures. La faim lui fit perdre Amm. l. 17. c. 9.
tout respect et toute estime pour son général: Julien
n'était plus alors qu'un sophiste, un imposteur, un Sulp. Sev. vita
Martini, c. 3.
faux philosophe[195]. «Que veut-on faire de nous,
s'écriaient les plus mutins? On épuise nos forces par
des marches plus meurtrières que des combats: on nous traînera
bientôt au travers des neiges et des glaces; et aujourd'hui, que nous
tenons aux ennemis le pied sur la gorge, on nous fait périr de faim.
Qu'on ne nous traite pas de séditieux, si ce n'est l'être que de
demander du pain. Qu'on ne nous donne ni or ni argent; nous avons
perdu l'habitude d'en toucher et même d'en voir; comme si la patrie
désavouait nos services, et que ce ne fût pas pour elle que nous
prodiguons notre vie.» Ces plaintes n'étaient que trop bien fondées.
Depuis que Julien commandait les armées de la Gaule, Constance,
loin de leur faire aucune gratification après les succès, ne leur payait
pas même leur solde. Julien n'avait aucun moyen d'y suppléer; et ce
qui prouve que c'était de la part de Constance un effet de malignité
plutôt que d'avarice, c'est qu'un jour Julien ayant fait une très-légère
libéralité à un soldat, le sécrétaire Gaudentius, qui était auprès de lui
l'espion de l'empereur, lui en fit un crime à la cour, et lui attira une
sévère réprimande. Cependant, s'il en faut croire Sulpice Sévère,
dans une occasion auprès de Worms [Vangiones], il distribua une
gratification aux soldats, sans doute à ses dépens.
[195] Asianum appellans, Græculum, et fallucem, et specie
sapientiæ stolidum. Amm. Marcell., l. 17, c. 9.—S.-M.
Julien plus touché du triste état de ses troupes,
qu'offensé de leurs murmures, ne songea qu'à les xii. Suomaire
soulager, au lieu de les punir. L'obéissance et le dompté.
respect revinrent avec l'abondance. On jeta un pont Amm. l. 17, c.
sur le Rhin, on entra sur les terres des Allemans. 10.
Sévère perdit toute sa gloire dans cette expédition.
Alsat. illustr. p.
Ce vieux général qui jusqu'alors avait inspiré le 408.
courage par ses paroles et par son exemple devint
tout à coup lâche et timide: il était toujours d'avis de ne point
combattre; il n'avançait qu'à regret; il corrompit même secrètement
les guides, et les obligea par les plus terribles menaces à dire
unanimement qu'ils ne connaissaient pas les chemins. Ces
obstacles ralentissaient la marche de l'armée; mais la terreur avait
saisi les ennemis. Suomaire, un de leurs rois, prince auparavant
féroce et ardent au pillage, se crut fort heureux de conserver son
pays, situé entre le Rhin et le Mein. Il vint au-devant de Julien avec
l'extérieur d'un suppliant, et, se jetant à ses genoux, il protestait qu'il
était prêt à accepter toutes les conditions qu'on voudrait lui imposer.
Julien exigea de lui qu'il rendît les prisonniers, et qu'il fournît des
vivres. Il voulut même qu'il s'assujettît à prendre des quittances, et
que, faute de les représenter quand il en serait requis, il s'obligeât à
faire une seconde fois les mêmes fournitures. Suomaire ne refusa
rien, et fut fidèle à l'exécution.
Il fallait passer le Necker [Nicer] pour mettre à la
raison un autre roi nommé Hortaire[196]. C'était xlii. Hortaire
aussi-bien que Suomaire un des rois qui s'étaient réduit à
trouvés à la bataille de Strasbourg. Comme on demander la
manquait de guides, Nestica, tribun de la garde, et paix.
Charietton furent chargés d'enlever quelque habitant Amm. l. 17, c.
du pays. Ils amenèrent un jeune Alleman, qui promit 10.
de conduire l'armée, pourvu qu'on lui accordât la vie. Zos. l. 3, c. 4.
On rencontra bientôt de grands abatis d'arbres qui Alsat. illustr. p.
obligèrent de prendre de longs détours. Enfin on 408.
arriva sur les terres d'Hortaire, où le soldat fatigué se
vengea par le ravage. Ce roi, voyant une armée
nombreuse et son pays désolé où il ne restait plus que des ruines et
des cendres, vint aussi implorer la miséricorde du César, et promit
avec serment d'obéir aux ordres qu'il recevrait, et de rendre tous les
prisonniers. Ils étaient en grand nombre dans ce canton; mais,
malgré sa promesse, il n'en rassembla que fort peu; et les ayant
amenés devant Julien, il s'approcha pour recevoir le présent qu'on
avait coutume de faire aux princes avec lesquels on traitait. Julien,
indigné de sa mauvaise foi, fit arrêter quatre des principaux
seigneurs qui l'accompagnaient, et prit des mesures pour ne perdre
aucun des Gaulois qui étaient en captivité. Il fit interroger tous ceux
qui s'étaient sauvés des villes et des campagnes, pillées les années
précédentes, pour savoir d'eux les noms de leurs compatriotes que
les Barbares avaient enlevés. Après que sur leur déposition on en
eut dressé un rôle exact, Julien monta sur son tribunal et fit défiler
devant lui tous les prisonniers en leur demandant à chacun leur
nom. Les secrétaires du prince, placés derrière son siége, tenaient
registre de tous ceux qui passaient. Cette revue étant finie, comme
le rôle en contenait un beaucoup plus grand nombre, Julien,
s'adressant aux Barbares, leur demanda qu'étaient devenus ceux
qui manquaient, en les désignant par leurs noms; et il leur signifia
qu'ils n'avaient point de paix à espérer, tant qu'il en manquerait un
seul. Les Barbares n'apercevant pas les secrétaires qui suggéraient
à Julien les noms de tous ces prisonniers absents, étaient frappés
d'étonnement; ils s'imaginaient qu'il était inspiré du ciel, et qu'on ne
pouvait lui rien cacher; et ils jurèrent avec des imprécations horribles
qu'ils lui mettraient fidèlement entre les mains tous ceux qui vivaient
encore. Hortaire, tremblant et humilié, s'obligea de fournir à ses
dépens les matériaux et les voitures de transport pour rebâtir les
villes que les Allemans avaient ruinées. On n'exigea point de lui qu'il
fît apporter des vivres, parce que son pays était entièrement
dévasté. On le renvoya, après qu'il eut répondu sur sa tête de son
exactitude à remplir les conditions. C'est ainsi que ces rois féroces,
nourris de sang et de pillage, furent enfin forcés de courber leur tête
superbe sous le joug de la puissance romaine.
[196] Zosime (l. 3, c. 4) appelle ce prince Vadomaire. C'est une
erreur.—S.-M.
Le retour des prisonniers fut le fruit de ces
glorieuses expéditions. C'était un spectacle touchant xliii. Retour des
de voir revenir par bandes ces malheureux, saluant captifs.
leur patrie par des cris d'allégresse, caressés de [Amm. l. 17, c.
leurs maîtres qui leur avaient fait sentir au-delà du 10.]
Rhin le plus dur esclavage, se prosternant aux pieds
Jul. ad Ath. p.
de leur libérateur, embrassant avec larmes leurs 280.
pères, leurs femmes, leurs enfants qui pleuraient
aussi de joie. Il en revint près de vingt mille. On Liban. or. 10, t.
2. p. 280.
demandait compte aux Barbares de ceux qu'ils ne
ramenaient pas; et ils étaient obligés de se justifier Zos. l. 3, c. 4 et
5.
en prouvant que ceux-là étaient morts, par le
témoignage de ceux qu'ils ramenaient. La Gaule Zon. l. 13, t. 2,
reprit une face nouvelle: les villes se relevaient; p. 20.
c'était pour Julien autant de trophées; et ce qu'il y
avait de plus glorieux et de plus nouveau, c'est que les Barbares qui
les avaient ruinées travaillaient à les rebâtir. Les campagnes
auparavant désertes et incultes se repeuplaient et se ranimaient; on
voyait refleurir les arts; les revenus publics augmentaient; ce n'était
que mariages, fêtes, assemblées; et l'hiver suivant fut une saison de
joie et de plaisir.
Des succès si brillants et si soutenus ne faisaient
pas taire l'envie. Le compte que Julien était obligé de xliv. Malice des
rendre à l'empereur, quelque modeste qu'il fût, courtisans.
semblait toujours exagéré et plein de vanité: et Amm. l. 17, c.
tandis que la Gaule retentissait des éloges du César, 11.
il n'était à la cour qu'un fanfaron, un poltron qui
s'enorgueillissait de faire fuir devant lui des sauvages encore plus
timides. Mais ces lâches courtisans, attentifs à flatter la basse
jalousie de l'empereur, travaillaient malgré eux à la gloire de Julien. Il
lui eût manqué un trait de ressemblance avec les plus grands
hommes, s'il n'eût pas eu des envieux et des ennemis.
Il fut bientôt délivré du plus dangereux. L'année
suivante, sous le consulat d'Eusèbe et d'Hypatius, Αn 359.
frères de l'impératrice, Barbation fut lui-même
sacrifié à ces défiances qu'il avait tant de fois xlv. Mort de
Barbation.
inspirées contre les autres. Ce méchant homme
joignait à beaucoup de malice une égale faiblesse. Amm. l. 18, c. 3.
Un essaim d'abeilles qui se forma dans sa maison lui
donna de grandes alarmes. C'était dans la superstition payenne un
pronostic des plus fâcheux. Il consulta les devins et partit avec ces
inquiétudes pour une expédition qui n'est pas autrement connue. Sa
femme, nommée Assyria, étourdie et ambitieuse, se met dans
l'esprit que son mari, pour s'affranchir de ses craintes, va détrôner
Constance. Elle voit déja Barbation empereur. Cette folle imagination
en enfante une autre: la voilà jalouse d'Eusébia; elle se persuade
que Barbation, ébloui des charmes de la princesse, ne manquera
pas de l'épouser. Sans perdre de temps, elle envoie secrètement à
son mari une lettre trempée de ses larmes, pour le conjurer de ne lui
pas faire l'injustice de la croire indigne du rang d'impératrice. Elle
avait employé pour l'écrire la main d'une femme esclave, qui lui était
venue de la confiscation des biens de Silvanus. Dès que Barbation
fut de retour, cette confidente, pour venger son ancien maître, va de
nuit trouver Arbétion; elle lui met entre les mains une copie de la
lettre. Celui-ci, trop heureux de trouver une si belle occasion de
perdre un rival, la porte à l'empereur; et sur-le-champ Barbation est
arrêté. Il avoue qu'il a reçu la lettre; sa femme est convaincue de
l'avoir écrite, et tous deux ont la tête tranchée. Constance, une fois
alarmé, ne se rassura pas si tôt. On arrête, on met à la question
beaucoup d'innocents. Le tribun Valentinus[197], qui ne savait rien de
cette prétendue intrigue, essuya de cruelles tortures: il eut assez de
force pour y survivre; et par forme de dédommagement l'empereur
lui donna le commandement des troupes dans l'Illyrie.
[197] Ex primicerio protectorum tribunus.—S.-M.
Il s'éleva cette année dans la ville de Rome de
violentes séditions. La flotte de Carthage qui xlvi. Séditions à
apportait le blé de l'Afrique, battue de la tempête, ne Rome.
pouvait aborder à Ostie; et le peuple, qui craignait la Amm. l. 17, c.
famine, rendait les magistrats responsables du 11, et l. 19, c.
caprice des vents. Le préfet Junius-Bassus était 10.
mort[198] peu de temps après qu'il fut entré en Grut. Inscr. p.
charge; il venait de se convertir au christianisme. La 1162, no 1.
sédition éclata sous Artémius, vicaire de Rome, qui
succéda à ses fonctions. Mais elle devint plus
furieuse lorsque Tertullus eut été nommé préfet. Ce magistrat, après
avoir épuisé tous les moyens d'apaiser le tumulte, se voyant sur le
point d'être mis en pièces, fit conduire au milieu de la place publique
ses enfants encore en bas âge, et les montrant au peuple: Romains,
dit-il, voilà vos concitoyens; si la colère du ciel continue, ils
partageront vos malheurs: mais si vous croyez sauver votre vie en
leur donnant la mort, je les mets entre vos mains. A la vue de ces
enfants, la compassion étouffa la rage de la multitude: elle attendit
avec patience; et peu de jours après, pendant que Tertullus, qui était
païen, faisait un sacrifice à Ostie dans le temple de Castor et de
Pollux, le vent tourna au midi, la flotte entra dans le Tibre, et la
superstition méconnaissant la main qui gouverne les tempêtes, et
qui distribue aux hommes leur nourriture, regarda cet événement
comme un miracle de ces chimériques divinités.
[198] Le 8 des kalendes de septembre ou le 25 août 359. Il était
âgé de quarante-deux ans et deux mois.—S.-M.
Constance était encore à Sirmium, lorsqu'il apprit
que les Limigantes, quittant peu à peu le pays où il xlvii. Anatolius,
les avait transplantés, se rapprochaient du Danube, préfet d'Illyrie.
et qu'ils commençaient déja à faire des courses. Amm. l. 19, c.
Craignant que s'il ne les arrêtait dès le premier pas, 11; et ibi Vales.
ils n'en devinssent plus hardis, il assemble ses
meilleures troupes, sans attendre l'été. Il comptait et Himer. apud
sur l'ardeur de son armée encore échauffée des Phot. cod. 165.
succès de la campagne précédente, et sur la Eunap. in
prévoyance d'Anatolius, préfet d'Illyrie, qui, sans Proœr. t. 1. p.
incommoder la province, avait pendant l'hiver établi 85-88, ed.
Boiss.
des magasins. Ce personnage mémorable était de
Béryte en Syrie. Après avoir étudié les lois dans sa Liban. or. 9, t. 2,
patrie, la plus célèbre école de jurisprudence qui fût p. 214.
en Orient, il vint à Rome du temps de Constantin; et
s'étant fait connaître à la cour par ses talents, il fut gouverneur de
Galatie, vicaire d'Afrique, et parvint à la charge de préfet en Illyrie. Il
resta dans les ténèbres du paganisme; d'ailleurs c'était un homme à
qui ses ennemis mêmes ne pouvaient refuser des éloges. On
admirait son amour pour la vérité et pour la justice, l'élévation de son
ame, sa noble franchise, son application au travail, son éloquence,
son désintéressement, la tendresse et la fermeté de son cœur
tellement assorties, qu'il ne mesurait pas le mérite des autres par
l'amitié qu'il avait pour eux, mais qu'il réglait au contraire la mesure
de son amitié sur celle du mérite. On dit qu'en faisant ses adieux à
l'empereur quand il partit pour l'Illyrie, il lui dit: Prince, désormais la
dignité ne sauvera plus les coupables: quiconque violera les lois,
officier civil ou militaire, en éprouvera la sévérité. Ce n'était pas qu'il
eût rien de dur dans le caractère; il aimait mieux corriger que punir,
et jamais l'Illyrie ne fut plus florissante et plus heureuse que sous
son gouvernement. Il soulagea le pays ruiné par l'entretien des
postes et des voitures publiques, et par l'excès des tailles, tant
réelles que personnelles. Les habitants le pleurèrent après sa mort;
mais ils le regrettèrent bien davantage, quand on lui eut donné pour
successeur Florentius, auparavant préfet des Gaules. Ce financier
intraitable, armé de toutes les rigueurs du fisc, étant venu fondre sur
eux comme un vautour, plusieurs se pendirent de désespoir.
L'empereur, bien assuré de trouver des
subsistances, marche en grand appareil vers la xlviii.
Valérie, dès les premiers jours du printemps. Il arrive Limigantes
au bord du Danube, lorsque les Barbares se détruits.
disposaient à le passer sur les glaces qui n'étaient
pas encore fondues. Pour ne pas laisser languir ses
troupes, qui souffraient beaucoup des rigueurs du Amm. l. 19, c.
froid, il envoie aussitôt demander aux Limigantes, 11.
pourquoi ils franchissaient les limites marquées par Cellar. geog.
un traité solennel. Les Barbares s'excusent sur de antiq. t. 1, p.
vains prétextes, et demandent humblement la 448.
permission de passer le fleuve, pour expliquer à
l'empereur les incommodités de leur nouvelle habitation; ils
protestent qu'ils sont prêts, s'il y consent, à se transporter partout
ailleurs, pourvu que ce soit dans l'intérieur de l'empire; et qu'il n'aura
point de sujets plus obéissants ni plus tranquilles. L'empereur, ravi
de terminer sans coup férir une expédition qui paraissait difficile et
périlleuse, leur accorde le passage: il croyait gagner beaucoup en
les établissant dans l'empire: c'était, lui disaient ses flatteurs aussi
mauvais politiques que bons courtisans, une pépinière de braves
soldats, qui rempliraient ses armées, tandis que les provinces
donneraient volontiers de l'argent pour être dispensées de fournir
des recrues. Constance, pour recevoir les Barbares à leur passage,
va camper près d'Acimincum, qu'on croit être Salenkemen, presque
vis-à-vis de l'embouchure de la Théiss; et ayant fait élever une
terrasse en forme de tribunal, il détache quelques légionaires sous la
conduite d'un ingénieur[199] nommé Innocentius qui lui avait donné
ce bon conseil, et les fait placer sur les bords du Danube, avec ordre
d'observer les mouvements des Barbares, et de les prendre à dos
en cas qu'ils voulussent faire quelque violence, quand ils auraient
passé le fleuve. La précaution ne fut pas inutile. Les Limigantes,
ayant traversé le fleuve, se tenaient d'abord la tête baissée en
posture de suppliants, et semblaient attendre les ordres de
l'empereur. Mais quand ils le virent qui s'apprêtait à les haranguer
sans défiance, un d'entre eux, comme saisi d'un accès de fureur,
ayant lancé sa chaussure contre le tribunal, se met à y courir de
toutes ses forces en criant, Marha, marha: c'était le cri de guerre de
la nation. Tous ses compatriotes élèvent en même-temps un
drapeau, poussent d'affreux hurlements, et le suivent en confusion.
Constance, du haut de la terrasse où il était assis, voyant accourir
cette multitude qui faisait briller à ses yeux les épées et les javelots,
descend à la hâte, quitte ses habits impériaux pour n'être pas
reconnu, et montant promptement à cheval se sauve à toute bride.
Ses gardes essaient de faire résistance et sont massacrés; le siége
impérial est pillé et mis en pièces. Constance avait eu l'imprudence
de laisser assembler les Barbares sur la rive, sans faire mettre ses
troupes sous les armes. Elles étaient encore dans le camp,
lorsqu'elles apprirent que l'empereur était en péril. Aussitôt les
soldats accourent à demi armés, et poussant un cri terrible,
enflammés de colère et de honte, ils se jettent tête baissée au
travers de ces perfides ennemis: ils égorgent tout ce qu'ils
rencontrent; le détachement qui bordait le Danube les charge par
derrière; on les enveloppe, on les serre de toutes parts: les vivants,
les mourants et les morts ne formant qu'un monceau tombent pêle-
mêle les uns sur les autres. L'exécution fut horrible; et l'on ne sonna
la retraite qu'après le massacre du dernier des Limigantes. Les
Romains ne perdirent que ceux qui furent surpris dans la première
attaque. On regretta surtout Cella, tribun de la garde, qui se jeta le
premier dans le plus épais des bataillons ennemis. Cette plaine fut le
tombeau des Limigantes; il n'en est plus parlé dans l'histoire, et cette
nation fut détruite, comme elle s'était formée, par sa propre perfidie.
[199] Agrimensor.—S.-M.
Constance, après avoir pris des mesures pour la
sûreté des frontières, revint à Sirmium[200]. Il en xlix. Premier
partit peu de jours après pour Constantinople, afin préfet de C. P.
de se rapprocher de l'Orient, que Sapor menaçait Idat. chron.
d'envahir. Jusque-là les duumvirs, qui dans les villes Amm. l. 19, c.
municipales tenaient le même rang que les consuls 11.
à Rome, avaient été à la tête du sénat de
Chron. Hier.
Constantinople: c'étaient les chefs de la
magistrature. Constance, afin d'y établir le même Socr. l. 2, c. 41.
gouvernement qu'à Rome, créa cette année pour la Soz. l. 4, c. 23.
première fois un préfet de la ville[201]. Ce fut Chron. Alex. vel
Honoratus qui avait été préfet des Gaules. Pasch. p. 293.
L'empereur distingua ce nouveau magistrat des Cod. Th. l. 6, tit.
préteurs, dont il régla la juridiction. Il déclara que les 4, leg. 14, 15 et
appels des trois provinces de la Thrace nommées ibi Godef.
Europe, Rhodope et Hémimont, et ceux de la Cod. Just. l. 7,
Bithynie, de la Paphlagonie, de la Lydie, de tit. 62, leg. 2, 3.
l'Hellespont, des îles de la mer Egée et de la Phrygie
Salutaire, ressortiraient devant ce préfet.
[200] Il y était le 22 mai 359. Le 18 juin suivant, il se trouvait à
Singidunum dans la Mœsie. Le 10 octobre il était auprès
d'Andrinople.—S.-M.
[201] Ce fut le 11 décembre, selon Idatius, ou le 11 septembre
selon la Chronique Paschale.—S.-M.
La faiblesse de Constance était un fonds inépuisable
pour Paul le délateur. Ce scélérat insatiable d'argent l. Prétendue
ne savait, pour s'enrichir, d'autre métier que de conjuration.
réveiller de temps en temps les inquiétudes du Amm. l. 19, c.
prince. Une cause très-légère fit, vers ce temps-là, 12.
périr un grand nombre d'innocents. Dans Abydus,
Liban, or. 9, t. 2,
ville de la Thébaïde, était un oracle fameux d'un dieu p. 213 et 214,
nommé Bésa[202]. On le consultait de vive voix ou ed. Morel. epist.
par écrit, et les absents n'avaient pas toujours soin 734, p. 332, ed.
de faire retirer leurs billets avec la réponse de Wolf.
l'oracle. On en envoya quelques-uns à l'empereur. Il
crut y voir des questions dangereuses, et qui tiraient à conséquence
pour la sûreté de sa personne. Aussitôt il fait partir Paul, dont il
estimait la sagacité dans ces sortes de recherches; il le charge de
mettre en justice tous ceux qu'il jugera à propos: il nomme, pour
présider aux interrogatoires, non pas Hermogène, préfet du prétoire
d'Orient, qui avait succédé à Musonianus (il connaissait trop son
équité et sa douceur), mais Modestus, comte d'Orient, propre à ces
commissions sanguinaires. Paul arrive, ne projetant que tortures et
que supplices. Ses accusations alarment et bouleversent l'Egypte et
les contrées voisines. On amène devant lui des gens de toute
condition, dont plusieurs périssent dans les fers avant le jugement.
On avait choisi pour le théâtre de ces sanglantes exécutions
Scythopolis, en Palestine, parce qu'elle était située entre les villes
d'Antioche et d'Alexandrie, d'où l'on faisait venir la plupart des
accusés. Un des premiers fut le fils de ce Philippe qui avait été
préfet du prétoire et consul, et qui avait prêté ses propres mains,
pour ôter la vie à Paul, évêque de Constantinople. Son fils, nommé
Simplicius, fut accusé d'avoir consulté l'oracle sur les moyens de
parvenir à l'empire. Constance, qui n'avait jamais rien excusé ni
pardonné sur cet article, avait ordonné de l'appliquer à la torture.
Simplicius fut cependant assez heureux pour s'en garantir, sans
doute à force d'argent; il en fut quitte pour être banni. Ce fut aussi le
sort de Parnasius, quoiqu'il eût été condamné à mort. C'était un
homme de bien, qui avait été préfet d'Egypte: il obtint dans la suite la
permission de retourner à Patras, ville d'Achaïe, sa patrie, et de
rentrer en possession de ses biens. Andronicus, homme de lettres,
et célèbre alors par ses poésies, déconcerta ses accusateurs par la
force de ses réponses, et se fit absoudre. La même fermeté sauva le
philosophe Démétrius surnommé Chytras, fort avancé en âge, mais
dont le corps et l'esprit avaient conservé toute leur vigueur. Après
une longue torture qu'il soutint avec courage, on lui permit de
retourner à Alexandrie. Ceux-là échappèrent à la calomnie; mais
quantité d'autres en furent les victimes. Les uns furent déchirés à
coups de fouets; d'autres périrent d'une manière plus cruelle; et la
confiscation des biens était toujours la suite du supplice. Paul mettait
en usage mille détours, mille piéges pour surprendre l'innocence:
porter à son col quelque préservatif superstitieux, passer le soir
auprès d'une sépulture, c'en était assez pour perdre la vie, comme
convaincu de sortilège ou de commerce avec les morts, dans
l'intention de détrôner ou de faire périr l'empereur.
[202] Au sujet de ce dieu égyptien, dont les fonctions
mythologiques nous sont inconnues, voyez Jablonski, Pantheon
Ægyptiorum, l. 5, c. 7, p. 200.—S.-M.
Depuis que les Isauriens avaient manqué leur
entreprise sur Séleucie, ils s'étaient tenus quelque li. Courses des
temps cachés dans leurs montagnes. Enfin Isauriens.
s'ennuyant du repos, ils recommençaient leurs Amm. l. 19, c.
courses. Accoutumés à franchir aisément les lieux 13.
les moins praticables, ils échappaient aux troupes
qui défendaient le pays. On envoya pour les contenir
le comte Lauricius, plus politique que guerrier. Sa bonne conduite fit
plus que la valeur. Il sut si bien les intimider et les resserrer, qu'ils ne
purent rien exécuter de considérable, tant qu'il fut dans la province.
Les menaces de Sapor éclatèrent cette année. Ce
prince avide de conquêtes, ayant trouvé de lii. Sapor se
nouveaux secours dans les nations féroces avec prépare à la
lesquelles il venait de conclure la paix, s'occupa, guerre.
pendant l'hiver, à ramasser des vivres, des armes, et Amm. l. 18, c. 4,
à lever des soldats, dans le dessein d'entrer sur les 5, et ibi Vales.
terres de l'empire. Résolu de faire les plus grands
efforts, il consulta tous les devins de son royaume: on dit même qu'il
alla jusqu'à immoler des hommes[203], pour chercher dans leurs
entrailles des pronostics de ses succès. Mais un transfuge lui fournit
des lumières plus sûres que tous ses oracles et tous ses sacrifices.
Antonin était un riche négociant établi en Mésopotamie, et très-
connu dans ces contrées. Sa fortune fit envie à des hommes
puissants qui lui suscitèrent des procès. Afin de ne pas manquer leur
proie, ils s'appuyèrent des officiers du fisc qui entrèrent en collusion
avec eux. Antonin habile et rompu aux affaires, après avoir, malgré
la protection d'Ursicin, perdu plusieurs procès, n'espérant rien de
ses juges vendus à l'injustice, feignit de s'exécuter de bonne grâce; il
reconnut des dettes qu'il n'avait pas contractées, et fit des billets
payables à termes, se réservant au fond du cœur l'espoir de la
vengeance. Ayant dressé son plan, il se mit au service de
Cassianus, commandant des troupes de la province, qui, comptant
sur son intelligence, l'employa à tenir ses rôles[204]. Cette
commission lui donna sans doute le moyen de s'instruire à fond, et
en peu de temps, de tout le détail militaire. Quand il eut acquis ces
connaissances, il songea à les porter en Perse; et pour se procurer
la facilité d'approcher des frontières sans donner de soupçons, il
acheta une petite terre sur les bords du Tigre[205]. Il y transporta sa
famille, et, dans les fréquents voyages qu'il y faisait, il trouva moyen
de lier un commerce secret avec Tamsapor, qui commandait de
l'autre côté du fleuve[206]. Le terme de l'échéance de ses billets
arriva, et l'intendant des finances d'intelligence avec ses prétendus
créanciers se mettait en devoir de le poursuivre, lorsqu'Antonin
escorté d'un parti de Perses, qui se rendirent auprès de lui pour
favoriser sa fuite, se jeta dans des barques avec sa femme, ses
enfants et tous ses effets, et passa à l'autre bord. On le conduit à
Sapor, qui le reçoit à bras ouverts, et lui donne place à sa table et
dans son conseil[207]. Ce transfuge, animé par le ressentiment et par
le désir de servir son nouveau maître, devint le plus mortel ennemi
des Romains. Il ne cessait d'animer Sapor, en lui reprochant qu'il
savait vaincre, mais qu'il ne savait pas faire usage de ses victoires: il
lui rappelait ses campagnes passées[208], tant d'efforts sans succès,
tant de succès sans aucun fruit; qu'après avoir terrassé les Romains
à Singara[209], il avait laissé la victoire ensevelie dans les ombres de
la nuit, et que les Perses vainqueurs, comme de concert avec les
vaincus, n'avaient osé approcher d'Édesse, ni des ponts de
l'Euphrate; quels avantages n'aurait pas remportés le plus brave et
le plus puissant monarque du monde, s'il fût tombé sur l'empire dans
le temps où les Romains le déchiraient eux-mêmes par la guerre
civile. C'était la coutume des Perses de délibérer sur les affaires les
plus importantes au milieu des festins. Antonin, attentif à se ménager
en ces occasions, profitait de la chaleur que le vin inspirait aux
autres: il les échauffait encore par ses discours; et le roi, enivré de
ses conseils et de l'idée de sa propre grandeur, se détermina à
mettre en mouvement toutes ses forces, dès que l'hiver serait passé,
et à faire usage du zèle d'Antonin, qui lui promettait hardiment les
services les plus essentiels.
[203] Consilia tartareis manibus miscens, et præstigiatores omnes
consulens de futuris. Rien n'indique précisément dans ce passage
d'Ammien Marcellin, que Sapor ait eu recours à des pratiques
superstitieuses qui paraissent si contraires à ce que nous
connaissons de l'ancienne religion des Perses. Cependant, il est
vrai de dire qu'un poète latin anonyme, cité par Henri Valois dans
ses notes sur Ammien Marcellin, s'exprime plus clairement sur ce
point,

Fata per humanas solitus prænoscere fibras


Impius infanda relligione Sapor;
Pectoris ingenui salientia viscera flammis
Imposuit: magico carmine rupit humum.
Ausus ab Elysiis Pompeium ducere campis, etc.

Il serait possible que ces horribles imputations ne fussent que des


bruits populaires, fondés sur ce qu'on disait alors des rites
barbares usités dans les cérémonies magiques, et sur ce qu'on
racontait des sacrifices humains, pratiqués dans les mystères de
Mithra, sur lesquels on peut voir, en particulier, Socrate (l. 3, c. 2
et l. 5, c. 16), et Sozomène (l. 5, c. 7). Cependant il est bon de
remarquer que long-temps avant cette époque, Pline paraît aussi
accuser les mages d'avoir pratiqué de semblables sacrifices. Nam
homines immolare gratissimum, dit-il (l. 30, c. 6), en parlant des
cérémonies magiques en usage chez les Perses.—S.-M.
[204] Il était protector, ou soldat de la garde, et exerçait les
fonctions de Rationarius Apparitor Mesopotamiæ ducis.—S.-M.
[205] Dans un lieu nommé Hiaspis, selon Ammien Marcellin, et
arrosé par le Tigre. Fundum in Hiaspide, qui locus Tigridis fluentis
adluitur. Amm. Marc. l. 18, c. 5.—S.-M.
[206] Qui tractus omnes adversos ducis potestate tunc tuebatur.
Amm. Marc. ibid.—S.-M.
[207] Le roi lui avait conféré le droit de porter la tiare, ce qui lui
donnait l'entrée au conseil. Et apicis nobilitatus auctoritate, quo
honore participantur mensæ regales, et meritorum apud Persas
ad suadendum ferendasque sententias in concionibus ora
panduntur. Le même auteur dit plus loin, l. 18, c. 8, en parlant du
même Antonin, sublatâ tiarâ, quam capiti summo ferebat honoris
insigne.—S.-M.
[208] Ce qui était arrivé depuis quarante ans, selon le texte
d'Ammien Marcellin. Jam inde quadragesimi anni memoriam
replicabat. Ce passage ferait voir que les deux empires étaient en
état de guerre, depuis une époque de beaucoup antérieure à la
mort de Constantin. Cette indication est plus conforme à ce que
nous apprend l'histoire d'Arménie, qu'à ce que nous savons par
les auteurs grecs et latins qui nous restent.—S.-M.
[209] En rapportant ce discours d'Antonin, Ammien Marcellin
indique une circonstance que Lebeau n'a pas fait entrer dans le
récit de la bataille de Singara (voyez ci-devant, l. vi, § 50). Il
mentionne les victoires d'Hileïa et de Singara: Et maximè, dit-il,
apud Hileiam et Singaram, ubi acerrimâ illâ nocturnâ
concertatione pugnatum est. Sans un passage de l'abrégé
historique de Sextus Rufus, on pourrait croire qu'il s'agit de deux
actions différentes; mais on y voit qu'Hiléia, que ce dernier
écrivain appelle Eleia, était un endroit voisin de Singara, et qui fut
sans doute plus particulièrement le théâtre de cette affaire.
Nocturna verò, dit-il, Eleiensi prope Singaram pugnâ, ubi præsens
Constantius adfuit. La position de ce lieu m'est tout-à-fait
inconnue.—S.-M.
Il eût été à propos de choisir le meilleur capitaine de
l'empire, pour l'opposer à un si redoutable liii. Ursicin
ennemi [210]: l'imprudence de Constance et les rappelé.
intrigues de cour dépouillèrent du commandement [Amm. l. 18, c.
l'unique général qui fût en état de soutenir cette 4, 5 et 6.]
guerre. Ursicin était en Orient avec le titre de général
de la cavalerie. Consommé dans le métier des armes, il avait appris
par une longue expérience à combattre les Perses. Mais il était
coupable aux yeux d'Eusèbe de deux crimes impardonnables: ce
guerrier magnanime était le seul qui dédaignât de s'appuyer de la
faveur de l'eunuque; et malgré les instances les plus pressantes, il
n'avait jamais voulu consentir à lui céder une belle maison qu'il
possédait dans la ville d'Antioche. C'en était assez pour rendre
Ursicin criminel dans l'esprit d'Eusèbe, et pour engager cet eunuque
à travailler à sa perte. C'était, à l'entendre, un présomptueux, un
perfide, dont les services étaient autant d'insultes, et pouvaient
dégénérer en attentats. Cet esprit dangereux avait inspiré sa
passion aux eunuques de la chambre[211], qui profitaient de l'accès
que leur donnait leur ministère, pour tenir tous de concert le même
langage; et ceux-ci disposaient à leur gré de la langue des
courtisans à qui ils procuraient les entrées et les grâces du prince.
Ainsi Constance n'entendait jour et nuit que des rapports propres à
augmenter des soupçons qui ne lui étaient que trop naturels. La
perte d'Ursicin fut donc encore une fois résolue; mais il fallait, disait
Eusèbe, user de précaution, pour ne pas alarmer ce général, qui, sur
la moindre défiance, ne manquerait pas d'éclater. Ursicin était alors
à Samosate; l'empereur le mande à la cour, pour y venir recevoir la
qualité de général de l'infanterie, qu'avait possédée Barbation. Il
charge de sa lettre celui qu'il envoyait pour commander en sa place:
c'était Sabinianus, vieillard sans vigueur comme sans courage, trop
peu connu jusqu'alors pour avoir droit de prétendre à un emploi si
important; mais assez riche pour l'acheter de ces agents de cour, qui
vendaient l'empereur et l'empire.
[210] Il aurait fallu le faire venir même de Thulé, dit Ammien
Marcellin, etiamsi apud Thulen moraretur Ursicinus: c'est comme
s'il disait qu'on eut dû l'aller chercher au bout du monde.—S.-M.
[211] Palatina cohors, dit Ammien Marcellin.—S.-M.

Dès que le bruit de ce changement se fut répandu,


ce fut dans tout l'Orient un cri général. Toutes les liv. Il est
villes témoignaient leurs regrets par des décrets renvoyé en
honorables en faveur d'Ursicin: on gémissait de se Mésopotamie.
voir enlever un puissant défenseur, qui avec de Amm. l. 18, c. 6.
mauvaises troupes avait su si long-temps défendre
cette partie de l'empire. L'incapacité de son
successeur dans des circonstances si périlleuses augmentait le
chagrin de sa perte. Ce même événement donnait aux Perses les
plus belles espérances. Antonin conseillait à Sapor de ne pas
s'arrêter à des siéges toujours ruineux; mais de passer l'Euphrate et
de fondre rapidement sur ces riches provinces que la guerre avait
épargnées depuis Valérien. Il s'offrait de le conduire à une conquête
assurée. Ce conseil fut approuvé; on fit les préparatifs de cette
brillante expédition. Ursicin revenait en Italie; il était déja aux bords
de l'Hèbre, quand il reçut une seconde lettre du prince, qui le
renvoyait sur ses pas, mais sans emploi. Les eunuques avaient
changé d'avis; ils avaient fait réflexion qu'en laissant Ursicin en
Orient, ils pourraient lui imputer toutes les fautes de Sabinianus, et
donner à celui-ci tout l'honneur des succès.
Les rapports des espions et des transfuges
s'accordaient sur les mouvements des Perses. On lv. Arrivée des
crut que leur dessein était d'attaquer Nisibe; et Perses.
comme Sabinianus restait dans l'inaction, Ursicin y
accourut pour mettre la ville en état de défense. Dès qu'il y fut entré,
la fumée et les flammes, qui se faisaient voir depuis les bords du
Tigre jusque fort près de la ville[212], annoncèrent l'arrivée des
coureurs ennemis. Ursicin sortit pour les reconnaître, et s'avança
jusqu'à deux milles[213] de Nisibe. Il fut coupé au retour et obligé de
s'enfuir avec sa troupe vers le mont Izala[214], situé entre cette ville
et celle d'Amid[215]. Les ennemis le poursuivirent vivement, à la
faveur de la lune qui était dans son plein; et comme le pays qu'il
traversait était une campagne toute découverte et sans aucune
retraite, il était pris, si, pour donner le change, il n'eût fait attacher
une lanterne sur la selle d'un cheval, qu'on fit tourner vers la gauche,
tandis qu'Ursicin prenait sur la droite, du côté des montagnes. Les
Perses suivirent cette lumière et furent dupes de ce stratagème.
L'historien Ammien Marcellin, attaché à la personne d'Ursicin,
l'accompagnait dans ce péril. Ils arrivèrent à un lieu nommé
Meïacarire, planté de vignes et d'arbres fruitiers: ce mot signifiait en
syrien sources d'eau fraîche[216]. Les habitants avaient pris la fuite;
on n'y trouva qu'un soldat qui s'y tenait caché: on l'amena au
général. Ce malheureux s'étant coupé dans ses réponses, on le
força par menaces à dire la vérité. Il déclara qu'il était Parisien, qu'il
avait servi en Gaule dans la cavalerie, et que, par crainte d'un
châtiment qu'il avait mérité, il s'était sauvé jusqu'en Perse; qu'il s'y
était marié, et qu'il avait plusieurs enfants; qu'étant employé en
qualité d'espion, il avait souvent donné aux Perses de bons avis;
qu'actuellement Tamsapor et Nohodarès, chefs des coureurs,
l'avaient envoyé en avant pour prendre langue. Quand on eut tiré de
lui les instructions dont on avait besoin, on le tua. Ursicin courut
promptement à Amid, pour laquelle il craignait une surprise. Il y vit
bientôt arriver des espions romains, dépêchés par Procope et par le
comte Lucillianus, ambassadeurs de Constance auprès de Sapor, et
que ce prince retenait en Perse. L'avis qu'ils portaient était écrit sur
un parchemin collé au-dedans du fourreau de leur épée. Il était
conçu en termes énigmatiques, qui signifiaient que le roi de Perse,
excité par le traître Antonin, allait passer l'Anzabas et le Tigre, dans
l'intention de se rendre maître de tout l'Orient[217]. Ursicin, pour avoir
des connaissances plus précises, envoya dans la Gordyène[218]
Ammien Marcellin, avec un centurion d'une fidélité reconnue. Le
satrape de ce pays s'appelait Jovinianus[219]: envoyé dès sa
première jeunesse en Syrie, en qualité d'ôtage, il y avait pris le goût
des lettres, et brûlant d'envie de revenir sur les terres de l'empire
pour y passer sa vie, il entretenait avec les Romains une secrète
intelligence. Ammien fut bien reçu, exposa le sujet de sa mission, et
fut conduit par un guide fidèle, sur un rocher fort élevé, d'où l'on
découvrait une étendue de seize à dix-sept lieues de pays. Au
troisième jour, il aperçut à l'horizon au-delà du Tigre une multitude
immense: c'était l'armée des Perses conduite par Sapor; à la gauche
duquel (cette place était chez les Perses la plus honorable) marchait
Grumbates, roi des Chionites[220]: ce prince quoiqu'il ne fût encore
que de moyen âge, portait déja sur son front les rides de la
vieillesse, témoignage glorieux de ses travaux: son courage et ses
exploits l'avaient rendu fameux dans tout l'Orient. A la droite de
Sapor on voyait le roi d'Albanie[221]. Ils étaient suivis d'un grand
nombre de seigneurs, et d'une armée innombrable, rassemblée de
diverses nations, et composée de vieilles troupes accoutumées aux
hasards et aux fatigues de la guerre.
[212] Depuis le Tigre jusqu'au Camp des Maures, jusqu'à Sisara
et même jusqu'auprès de la ville, dit Ammien Marcellin. A Tigride
per Castra Maurorum, et Sisara, et conlimitia reliqua adusque
civitatem. Sisara m'est inconnu. Pour le lieu appelé Castra
Maurorum (le Camp des Maures), d'Anville s'est trompé en disant
qu'il en est question dans la Notice de l'empire, où selon lui il y
aurait une faute (Géogr. anc., t. 2, p. 203), et où il faudrait lire
Castra Mororum (le Camp des mûriers). C'est une erreur de
d'Anville; dans aucun endroit de la Notice de l'empire il n'est
question d'un lieu nommé Castra Maurorum, soit en
Mésopotamie, soit partout ailleurs. Il prétend aussi que c'est le
lieu nommé par les modernes Kafartouta, entre Dara et Rasaïn.
Quand cette identité serait incontestable, je ne vois pas pourquoi
on rejetterait la leçon fournie par Ammien. Ce lieu pouvait bien
être une station des troupes Maures, qui à cette époque étaient
en fort grand nombre au service de l'empire. Il est probable que
c'est à cette circonstance que cette forteresse devait le nom
qu'elle portait. Ammien Marcellin dit ailleurs (l. 25, c. 7.) que c'était
une place importante, munimentum perquam opportunum.—S.-M.
[213] Ad secundum lapidem.—S.-M.
[214] C'est le nom que les Syriens donnaient au mont Masius, qui
séparait la Mésopotamie de l'Arménie. Voyez mes Mémoires hist.
et géogr. sur l'Arménie, t. 1, p. 48 et 49.—S.-M.
[215] Jusqu'à un mauvais château, munimentum infirmum,
nommé Amudis.—S.-M.
[216] Cette étymologie donnée par Ammien Marcellin est très-
exacte. Meïacarire, dit-il, nomine venissemus, cui fontes dedere
vocabulum gelidi, l. 18, c. 6.—S.-M.
[217] Cette lettre était ainsi conçue: Amandatis procul Graiorum
legatis, forsitan et necandis, Rex longævus non contentus
Hellesponto, junctis Granici et Rhyndaci pontibus, Asiam cum
numerosis populis pervasurus adveniet, suopte ingenio irritabilis
et asperrimus, auctore et incensore Hadriani quondam Romani
principis successore: actum et conclamatum est, ni caverit
Græcia. Amm. Marcell. l. 18, c. 6.—S.-M.
[218] Ammien Marcellin l'appelle Corduene: c'est le même pays,
dont le nom est prononcé d'une manière un peu différente. C'est
le pays et le nom des Curdes modernes.—S.-M.
[219] Ce satrape paraît être le même que celui qui est nommé
Junius dans la chronique de Malala (part. 2, p. 27, ed. Chilmead).
—S.-M.
[220] Voyez ce que j'ai dit de ces peuples, ci-devant, liv. ix, § 30,
p. 177, note 1.—S.-M.
[221] Il s'agit peut-être ici des peuples barbares qui habitaient la
partie septentrionale du Schirwan actuel, qui est l'Albanie des
anciens. Ce pays occupé actuellement par les Lezghis, encore la
terreur des régions environnantes, était alors possédé par le
mème peuple, appelé par les anciens Legæ, et par les Arméniens
Gheg ou Leg. Ceux-ci les représentent comme les alliés
constants des rois de Perse, dans leurs guerres contre l'Arménie
et contre l'empire. Peu après l'époque qui nous occupe un certain
Schergir était leur roi, et c'est sans doute de lui que parle Ammien
Marcellin.—S.-M.

Ces princes ayant passé au-delà de Ninive, grande


ville de l'Adiabène, s'arrêtèrent au milieu d'un pont lvi. Précautions
sur le fleuve Anzabas qui se décharge dans le Tigre. des Romains.
Ce fleuve est celui qui portait chez les Grecs le nom Amm. l. 18, c. 7.
de Capros[222]. Ils y firent un sacrifice et consultèrent Cell. geog. ant.
les entrailles de la victime. Ammien jugea qu'il fallait t. 2, p. 656.
au moins trois jours à une armée aussi nombreuse
pour passer le fleuve, et il retourna porter ces
nouvelles à Ursicin. On dépêche aussitôt des courriers à Cassius et
à Euphronius gouverneur de la province[223]. Ceux-ci obligent les
paysans de se retirer dans les places fortes avec leurs familles et
leurs troupeaux; ils font évacuer la ville de Carrhes, qui n'était pas

You might also like