100% found this document useful (1 vote)
12 views

Explainable and Interpretable Models in Computer Vision and Machine Learning Hugo Jair Escalante pdf download

The document discusses the importance of explainable and interpretable models in computer vision and machine learning, highlighting the challenges posed by the black box nature of deep learning models. It compiles research on various methodologies for enhancing model explainability and interpretability, emphasizing their necessity for applications requiring human oversight. The book is structured into four parts, covering general concepts, machine learning perspectives, computer vision applications, and specific case studies in job candidate screening.

Uploaded by

mileanaddy80
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (1 vote)
12 views

Explainable and Interpretable Models in Computer Vision and Machine Learning Hugo Jair Escalante pdf download

The document discusses the importance of explainable and interpretable models in computer vision and machine learning, highlighting the challenges posed by the black box nature of deep learning models. It compiles research on various methodologies for enhancing model explainability and interpretability, emphasizing their necessity for applications requiring human oversight. The book is structured into four parts, covering general concepts, machine learning perspectives, computer vision applications, and specific case studies in job candidate screening.

Uploaded by

mileanaddy80
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 56

Explainable and Interpretable Models in Computer

Vision and Machine Learning Hugo Jair Escalante


download

https://textbookfull.com/product/explainable-and-interpretable-
models-in-computer-vision-and-machine-learning-hugo-jair-
escalante/

Download more ebook from https://textbookfull.com


We believe these products will be a great fit for you. Click
the link to download now, or visit textbookfull.com
to discover even more!

Interpretable AI Building explainable machine learning


systems MEAP V02 Ajay Thampi

https://textbookfull.com/product/interpretable-ai-building-
explainable-machine-learning-systems-meap-v02-ajay-thampi/

Human and Machine Learning Visible Explainable


Trustworthy and Transparent Jianlong Zhou

https://textbookfull.com/product/human-and-machine-learning-
visible-explainable-trustworthy-and-transparent-jianlong-zhou/

Numerical Algorithms Methods for Computer Vision


Machine Learning and Graphics 1st Edition Justin
Solomon

https://textbookfull.com/product/numerical-algorithms-methods-
for-computer-vision-machine-learning-and-graphics-1st-edition-
justin-solomon/

Hyperparameter Optimization in Machine Learning: Make


Your Machine Learning and Deep Learning Models More
Efficient 1st Edition Tanay Agrawal

https://textbookfull.com/product/hyperparameter-optimization-in-
machine-learning-make-your-machine-learning-and-deep-learning-
models-more-efficient-1st-edition-tanay-agrawal/
Hyperparameter Optimization in Machine Learning: Make
Your Machine Learning and Deep Learning Models More
Efficient 1st Edition Tanay Agrawal

https://textbookfull.com/product/hyperparameter-optimization-in-
machine-learning-make-your-machine-learning-and-deep-learning-
models-more-efficient-1st-edition-tanay-agrawal-2/

Deep learning in computer vision: principles and


applications First Edition. Edition Mahmoud Hassaballah

https://textbookfull.com/product/deep-learning-in-computer-
vision-principles-and-applications-first-edition-edition-mahmoud-
hassaballah/

Applied Machine Learning for Health and Fitness: A


Practical Guide to Machine Learning with Deep Vision,
Sensors and IoT Kevin Ashley

https://textbookfull.com/product/applied-machine-learning-for-
health-and-fitness-a-practical-guide-to-machine-learning-with-
deep-vision-sensors-and-iot-kevin-ashley/

Machine Learning for Economics and Finance in


TensorFlow 2: Deep Learning Models for Research and
Industry Isaiah Hull

https://textbookfull.com/product/machine-learning-for-economics-
and-finance-in-tensorflow-2-deep-learning-models-for-research-
and-industry-isaiah-hull/

Computer Vision With Maker Tech: Detecting People With


A Raspberry Pi, A Thermal Camera, And Machine Learning
1st Edition Fabio Manganiello

https://textbookfull.com/product/computer-vision-with-maker-tech-
detecting-people-with-a-raspberry-pi-a-thermal-camera-and-
machine-learning-1st-edition-fabio-manganiello/
The Springer Series on Challenges in Machine Learning

Hugo Jair Escalante · Sergio Escalera


Isabelle Guyon · Xavier Baró
Yağmur Güçlütürk · Umut Güçlü
Marcel van Gerven Editors

Explainable and
Interpretable Models
in Computer Vision and
Machine Learning
The Springer Series on Challenges in Machine
Learning

Series editors
Hugo Jair Escalante, INAOE, Puebla, Mexico
Isabelle Guyon, INRIA, Université Paris Sud, Université Paris Saclay, Paris, France
and ChaLearn, Berkeley, CA, USA
Sergio Escalera, University of Barcelona, Barcelona, Spain
The books of this innovative series collect papers written by successful competitions
in machine learning. They also include analyses of the challenges, tutorial material,
dataset descriptions, and pointers to data and software. Together with the websites
of the challenge competitions, they offer a complete teaching toolkit and a valuable
resource for engineers and scientists.

More information about this series at http://www.springer.com/series/15602


Hugo Jair Escalante • Sergio Escalera
Isabelle Guyon • Xavier Baró • Yağmur Güçlütürk
Umut Güçlü • Marcel van Gerven
Editors

Explainable and Interpretable


Models in Computer Vision
and Machine Learning

123
Editors
Hugo Jair Escalante Sergio Escalera
INAOE University of Barcelona
Puebla, Mexico Barcelona, Spain

Isabelle Guyon Xavier Baró


INRIA, Université Paris Sud, Université Open University of Catalonia
Paris Saclay, Paris, France Barcelona, Spain
ChaLearn Umut Güçlü
Berkeley, CA, USA Radboud University Nijmegen
Nijmegen, The Netherlands
Yağmur Güçlütürk
Radboud University Nijmegen
Nijmegen, The Netherlands

Marcel van Gerven


Radboud University Nijmegen
Nijmegen, The Netherlands

ISSN 2520-131X ISSN 2520-1328 (electronic)


The Springer Series on Challenges in Machine Learning
ISBN 978-3-319-98130-7 ISBN 978-3-319-98131-4 (eBook)
https://doi.org/10.1007/978-3-319-98131-4

Library of Congress Control Number: 2018962179

© Springer Nature Switzerland AG 2018


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of
the material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology
now known or hereafter developed.
The use of general descriptive names, registered names, trademarks, service marks, etc. in this publication
does not imply, even in the absence of a specific statement, that such names are exempt from the relevant
protective laws and regulations and therefore free for general use.
The publisher, the authors, and the editors are safe to assume that the advice and information in this book
are believed to be true and accurate at the date of publication. Neither the publisher nor the authors or
the editors give a warranty, express or implied, with respect to the material contained herein or for any
errors or omissions that may have been made. The publisher remains neutral with regard to jurisdictional
claims in published maps and institutional affiliations.

This Springer imprint is published by the registered company Springer Nature Switzerland AG
The registered company address is: Gewerbestrasse 11, 6330 Cham, Switzerland
Foreword

“Too much of a black box to me”. That is an often heard and long-standing criticism
of data-driven machine learning methods, in general, and (deep) neural networks,
in particular. Nevertheless, astounding results have been obtained with these black
boxes.
Interestingly, one could argue that this is, to a large extent, not in spite of but
rather thanks to their black box nature: researchers no longer aim at full control over
the model intrinsics, a common practice in the hand-crafted features era. Instead, the
data leads the way, optimising the whole system in an end-to-end manner for the task
at hand, yielding superior results.
The flip side of the coin is that, given the complexity of the models used these
days, with millions of parameters, it is hard to understand the processes inside the
box. As a consequence, the question rises whether such systems can be trusted at
all – especially when it comes to safety-critical applications such as self-driving cars
or medical image interpretation.
Three more observations further add to this scepticism. First, networks often
struggle to generalise beyond the circumstances seen at training time. Yet, they
keep making (often wrong) predictions with high confidence for out-of-distribution
samples. Second, there is the issue with adversarial examples, where it has been
shown that adding relatively low amounts of noise suffices to change the output of
a neural network in an arbitrary predefined direction. Finally, with artificial systems
reaching or even surpassing human performance, the long-standing criticism of the
black box approach now becomes more relevant than ever.
After the initial enthusiasm at the start of the third summer of AI about the
good performance obtained with deep learning, more and more concerns are raised
along the lines sketched above. As a countermeasure, we need more research
towards model explainability and interpretability. Let us build a new generation of
machine learning models that are capable not only of predicting the output with
high accuracy but also of explaining the produced result and enabling researchers
to interpret the learned models. This is a challenging endeavour, with several
open research questions: How to visualise or communicate model explanations and
interpretations with the user? How to avoid a misguided feeling of trust? How

v
vi Foreword

to evaluate model explanations and interpretations? How to avoid or deal with


subjectivity in this matter? Within this book, a fine collection of the current state
of the art in this direction is brought together, highlighting different approaches to
tackle the problem.

KU Leuven, Flanders, Belgium Tinne Tuytelaars


June 2018
Preface

Research progress in computer vision and pattern recognition has led to a variety of
modelling techniques with (almost) human-like performance in a variety of tasks.
A clear example of this type of models is neural networks, whose deep variants
dominate the arenas of computer vision among other fields. Although this type of
models has obtained astounding results in a variety of tasks (e.g. face recognition),
they are limited in their explainability and interpretability. That is, in general, users
cannot say too much about:
• What is the rationale behind the decision made? (explainability)
• What in the model structure explains its functioning? (interpretability)
Hence, while good performance is a critical required characteristic for learning
machines, explainability/interpretability capabilities are highly needed if one wants
to take learning machines to the next step and, in particular, include them into
decision support systems involving human supervision (for instance, in medicine
or in security). Because of their critical importance, there is a research trend within
the computer vision and machine learning communities in studying both aspects. In
fact, in recent years, much work has been devoted to defining what is explainability
and interpretability in the context of models and how to evaluate these aspects,
proposing and analysing mechanisms for explaining recommendations of models
and interpreting their structure.
All this progress puts us in perfect time to compile in a single book the
latest research advances on explainable and interpretable models in the context of
computer vision and machine learning. The book is divided into four parts that cover
complimentary and relevant topics around this subject.
Part I focuses on general notions and concepts around explainability and inter-
pretability. F. Doshi-Velez and Kim elaborate on considerations for the evaluation of
interpretable machine learning models. They provide a definition of interpretability,
principles for evaluation and a taxonomy of evaluation approaches. They conclude
with recommendations for researchers in the field. In the same line, Ras et al.
elaborate on issues regarding deep learning and explainability, trying to bridge a gap

vii
viii Preface

between expert users and lay/average users. They discuss the relation between users
laws and regulations, explanations and methods in the context of explainability.
The second part of the book is devoted to chapters that focus on explainability
and interpretability from the machine learning point of view. Goudet et al. describe
Causal Generative Neural Networks, a methodology to infer causal relations from
observational data. More specifically, they provide a means to estimate a generative
model of the joint distribution of observed variables. Since causality is the ultimate
explanatory mechanism desired for most modelling techniques, this methodology
can have a great impact into the field. Loza Mencia et al. contribute to the book
with a chapter on rule-based methods for multi-label classification. The chapter
emphasises the interpretability characteristics of rule-based approaches to multi-
label classification, and two approaches for learning predictive rule-based models
are reviewed in detail. Rieger et al. study the relationship between performance
and quality of explainability in the context of deep neural networks. They aim to
determine whether explanations exhibit a systematic bias and how the structure of
the neural network can be adapted to reduce such bias.
The third part of the book focuses on explainability and interpretability in
computer vision. Akata el al. describe a novel methodology for generating expla-
nations in image-object classification. The key features of the proposed method
are a relevance loss that conditions sentence generation on the image category
and, on the other hand, a discriminative loss inspired on reinforcement learning
that relies on a sentence classifier. N. Fatema and R. Mooney present a novel
methodology to generate explanations for ensembles of visual question answering
(VQA) systems. In addition, two evaluation protocols are described and used to
evaluate explanations generated by their ensemble. This is among the first works
dealing with explanation of ensembles of VQA systems.J. Kim and J. Canny
describe a methodology for generating visually interpretable images in the context
of autonomous vehicle driving. The methodology comprises two steps: a CNN with
attention model that highlights potentially salient regions in images and a filtering
step that aims at removing spurious salient regions. The methodology is extensively
evaluated, comprising qualitative and quantitative assessments.
Last but not least, Part IV covers methodologies related to explainability and
interpretability in the context of first impressions and job candidate screening.
Liem et al. elaborate on the gap between machine learning (and computer science
in general) and psychology in the context of job candidate screening. Through a
detailed review, the authors try to fill an understanding gap between both areas.
Liem at al. describe their solution to the job candidate screening competition. H.
Kaya and A. Salah describe the winning methodology of the job candidate screening
competition. The authors focus on the explanatory characteristics of their solution
and discuss the potential bias of their model. Similarly, Aakur et al. describe their
winning methodology for the explainable job candidate screening challenge. The
authors provide an detailed description of their method and an in depth analysis of
their results.
Preface ix

To the best of our knowledge, this is the first compilation of research on this
topic. We were fortunate to gather 11 chapters of extraordinary quality that, together,
capture a snapshot of the state of the art in this pretty much important topic.

Puebla, Mexico Hugo Jair Escalante


Barcelona, Spain Sergio Escalera
Paris, France Isabelle Guyon
Barcelona, Spain Xavier Baró
Nijmegen, The Netherlands Yağmur Güçlütürk
Nijmegen, The Netherlands Umut Güçlü
Nijmegen, The Netherlands Marcel van Gerven
June 2018
Acknowledgements

The editors are grateful with the attendees and participants of the First Impressions
Challenges @ECCV16 and @ICPR2916 and the Job Candidate Screening Coope-
tition @CVPR2017 @IJCNN2017. The editors gratefully acknowledge a grant
from Azure for Research, which allowed running the challenges on the CodaLab
platform and the technical support of Université Paris-Saclay. ChaLearn provided
prizes and travel awards to the winners of the aforementioned competitions. This
work was partially supported by CONACyT under grant 241306, Spanish Ministry
projects TIN2016-74946-P and TIN2015-66951-C2-2-R (MINECO/FEDER, UE),
and CERCA Programme/Generalitat de Catalunya. H. J. Escalante was supported
by Red Temáticas CONACyT en Tecnologías del Lenguaje (RedTTL) e Inteligencia
Computacional Aplicada (RedICA). We gratefully acknowledge the support of
NVIDIA Corporation with the donation of the Titan Xp GPU used for this research.

xi
Contents

Part I Notions and Concepts on Explainability


and Interpretability
Considerations for Evaluation and Generalization in Interpretable
Machine Learning .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 3
Finale Doshi-Velez and Been Kim
Explanation Methods in Deep Learning: Users, Values, Concerns
and Challenges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 19
Gabriëlle Ras, Marcel van Gerven, and Pim Haselager

Part II Explainability and Interpretability in Machine Learning


Learning Functional Causal Models with Generative Neural
Networks . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 39
Olivier Goudet, Diviyan Kalainathan, Philippe Caillou, Isabelle Guyon,
David Lopez-Paz, and Michèle Sebag
Learning Interpretable Rules for Multi-Label Classification . . . . . . . . . . . . . . . 81
Eneldo Loza Mencía, Johannes Fürnkranz, Eyke Hüllermeier,
and Michael Rapp
Structuring Neural Networks for More Explainable Predictions .. . . . . . . . . . 115
Laura Rieger, Pattarawat Chormai, Grégoire Montavon, Lars Kai Hansen,
and Klaus-Robert Müller

Part III Explainability and Interpretability in Computer Vision


Generating Post-Hoc Rationales of Deep Visual Classification
Decisions . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 135
Zeynep Akata, Lisa Anne Hendricks, Stephan Alaniz,
and Trevor Darrell

xiii
xiv Contents

Ensembling Visual Explanations . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 155


Nazneen Fatema Rajani and Raymond J. Mooney
Explainable Deep Driving by Visualizing Causal Attention .. . . . . . . . . . . . . . . . 173
Jinkyu Kim and John Canny

Part IV Explainability and Interpretability


in First Impressions Analysis
Psychology Meets Machine Learning: Interdisciplinary
Perspectives on Algorithmic Job Candidate Screening . .. . . . . . . . . . . . . . . . . . . . 197
Cynthia C. S. Liem, Markus Langer, Andrew Demetriou,
Annemarie M. F. Hiemstra, Achmadnoer Sukma Wicaksana,
Marise Ph. Born, and Cornelius J. König
Multimodal Personality Trait Analysis for Explainable Modeling
of Job Interview Decisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 255
Heysem Kaya and Albert Ali Salah
On the Inherent Explainability of Pattern Theory-Based Video
Event Interpretations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . 277
Sathyanarayanan N. Aakur, Fillipe D. M. de Souza, and Sudeep Sarkar
Contributors

Sathyanarayanan N. Aakur University of South Florida, Department of Com-


puter Science and Engineering, Tampa, FL, USA
Zeynep Akata AMLAB, University of Amsterdam, Amsterdam, The Netherlands
Stephan Alaniz AMLAB, University of Amsterdam, Amsterdam, The
Netherlands
Marise Ph. Born Erasmus School of Social and Behavioral Sciences, Erasmus
University, Rotterdam, The Netherlands
Philippe Caillou Team TAU - CNRS, INRIA, Université Paris Sud, Université
Paris Saclay, Paris, France
John Canny Department of Electrical Engineering and Computer Sciences, UC
Berkeley, Berkeley, CA, USA
Pattarawat Chormai Department of Electrical Engineering and Computer Sci-
ence, Technische Universität Berlin, Berlin, Germany
Trevor Darrell EECS, University of California Berkeley, Berkeley, CA, USA
Andrew Demetriou Multimedia Computing Group, Delft University of Technol-
ogy, Delft, The Netherlands
Fillipe D. M. de Souza University of South Florida, Department of Computer
Science and Engineering, Tampa, FL, USA
Finale Doshi-Velez Harvard University, Cambridge, MA, USA
Johannes Fürnkranz Knowledge Engineering Group, Technische Universität
Darmstadt, Darmstadt, Germany
Olivier Goudet Team TAU - CNRS, INRIA, Université Paris Sud, Université Paris
Saclay, Paris, France

xv
xvi Contributors

Isabelle Guyon INRIA, Université Paris Sud, Université Paris Saclay, Paris,
France
ChaLearn, Berkeley, CA, USA
Lars Kai Hansen DTU Compute, Technical University of Denmark, Kongens
Lyngby, Denmark,
Pim Haselager Radboud University, Nijmegen, The Netherlands
Lisa Anne Hendricks EECS, University of California Berkeley, Berkeley, CA,
USA
Annemarie M. F. Hiemstra Erasmus School of Social and Behavioral Sciences,
Erasmus University, Rotterdam, The Netherlands
Eyke Hüllermeier Intelligent Systems, Universität Paderborn, Paderborn,
Germany
Diviyan Kalainathan Team TAU - CNRS, INRIA, Université Paris Sud, Univer-
sité Paris Saclay, Paris, France
Heysem Kaya Department of Computer Engineering, Namik Kemal University,
Corlu, Tekirdag, Turkey
Been Kim Google Brain, Mountain View, CA, USA
Jinkyu Kim Department of Electrical Engineering and Computer Sciences, UC
Berkeley, Berkeley, CA, USA
Cornelius J. König Universität des Saarlandes, Saarbrücken, Germany
Markus Langer Universität des Saarlandes, Saarbrücken, Germany
Cynthia C. S. Liem Multimedia Computing Group, Delft University of Technol-
ogy, Delft, The Netherlands
David Lopez-Paz Facebook AI Research, Menlo Park, CA, USA
Eneldo Loza Mencía Knowledge Engineering Group, Technische Universität
Darmstadt, Darmstadt, Germany
Grégoire Montavon Department of Electrical Engineering and Computer Science,
Technische Universität Berlin, Berlin, Germany
Raymond J. Mooney Department of Computer Science, The University of Texas
at Austin, Austin, TX, USA
Klaus-Robert Müller Department of Electrical Engineering and Computer Sci-
ence, Technische Universität Berlin, Berlin, Germany
Department of Brain and Cognitive Engineering, Korea University, Seongbuk-gu,
Seoul, South Korea
Max Planck Institute for Informatics, Saarbrücken, Germany
Contributors xvii

Nazneen Fatema Rajani Department of Computer Science, The University of


Texas at Austin, Austin, TX, USA
Michael Rapp Knowledge Engineering Group, Technische Universität Darmstadt,
Darmstadt, Germany
Gabriëlle Ras Radboud University, Nijmegen, The Netherlands
Laura Rieger DTU Compute, Technical University of Denmark, Kongens Lyngby,
Denmark
Albert Ali Salah Department of Computer Engineering, Bogazici University,
Istanbul, Turkey
Future Value Creation Research Center, Nagoya University, Nagoya, Japan
Sudeep Sarkar University of South Florida, Department of Computer Science and
Engineering, Tampa, FL, USA
Michèle Sebag Team TAU - CNRS, INRIA, Université Paris Sud, Université Paris
Saclay, Paris, France
Marcel van Gerven Radboud University, Nijmegen, The Netherlands
Achmadnoer Sukma Wicaksana Datasintesa Teknologi Nusantara, Jakarta,
Indonesia
Part I
Notions and Concepts on Explainability
and Interpretability
Considerations for Evaluation and
Generalization in Interpretable Machine
Learning

Finale Doshi-Velez and Been Kim

Abstract As machine learning systems become ubiquitous, there has been a surge
of interest in interpretable machine learning: systems that provide explanation
for their outputs. These explanations are often used to qualitatively assess other
criteria such as safety or non-discrimination. However, despite the interest in
interpretability, there is little consensus on what interpretable machine learning is
and how it should be measured and evaluated. In this paper, we discuss a definitions
of interpretability and describe when interpretability is needed (and when it is not).
Finally, we talk about a taxonomy for rigorous evaluation, and recommendations for
researchers. We will end with discussing open questions and concrete problems for
new researchers.

Keywords Interpretability · Machine learning · Accountability · Transparency

1 Introduction

From autonomous cars and adaptive email-filters to predictive policing systems,


machine learning (ML) systems are increasingly commonplace; they outperform
humans on specific tasks (Mnih et al. 2013; Silver et al. 2016; Hamill 2017) and
often guide processes of human understanding and decisions (Carton et al. 2016;
Doshi-Velez et al. 2014). The deployment of ML systems in complex, realworld

Authors “Finale Doshi-Velez and Been Kim” contributed equally.


F. Doshi-Velez ()
Harvard University, Cambridge, MA, USA
e-mail: finale@seas.harvard.edu
B. Kim
Google Brain, Mountain View, CA, USA
e-mail: beenkim@google.com

© Springer Nature Switzerland AG 2018 3


H. J. Escalante et al. (eds.), Explainable and Interpretable Models in Computer
Vision and Machine Learning, The Springer Series on Challenges in Machine
Learning, https://doi.org/10.1007/978-3-319-98131-4_1
4 F. Doshi-Velez and B. Kim

settings has led to increasing interest in systems optimized not only for expected
task performance but also other important criteria such as safety (Otte 2013;
Amodei et al. 2016; Varshney and Alemzadeh 2016), nondiscrimination (Bostrom
and Yudkowsky 2014; Ruggieri et al. 2010; Hardt et al. 2016), avoiding technical
debt (Sculley et al. 2015), or satisfying the right to explanation (Goodman and Flax-
man 2016). For ML systems to be used robustly in realworld situations, satisfying
these auxiliary criteria is critical. However, unlike measures of performance such
as accuracy, these criteria often cannot be completely quantified. For example, we
might not be able to enumerate all unit tests required for the safe operation of a
semi-autonomous car or all confounds that might cause a credit scoring system to be
discriminatory. In such cases, a popular fallback is the criterion of interpretability:
if the system can explain its reasoning, we then can verify whether that reasoning is
sound with respect to these auxiliary criteria.
Unfortunately, there is little consensus on what interpretability in machine
learning is—let alone how to evaluate it for benchmarking or reason about how
it may generalize to other contexts. Current interpretability evaluation typically
falls into two categories. The first evaluates interpretability in the context of an
application: if the interpretable system provides human-understandable explanation
in either a practical application or a simplified version of it, then it must be
interpretable (e.g. Ribeiro et al. 2016; Lei et al. 2016; Kim et al. 2015a; Doshi-
Velez et al. 2015; Kim et al. 2015b). The second evaluates interpretability via a
quantifiable proxy: a researcher might first claim that some model class—e.g. sparse
linear models, rule lists, gradient boosted trees—are interpretable and then present
algorithms to optimize within that class (e.g. Buciluǎ et al. 2006; Wang et al. 2017;
Wang and Rudin 2015; Lou et al. 2012).
To large extent, both evaluation approaches rely on some notion of “you’ll
know it when you see it.” Should we be concerned about a lack of rigor? Yes
and no: the notions of interpretability above appear reasonable because they are
reasonable: they pass the first test of having face-validity on the correct test set of
subjects: human beings. However, this basic notion leaves many kinds of questions
unanswerable: Are all models in all defined-to-be-interpretable model classes
equally interpretable? Quantifiable proxies such as sparsity may seem to allow for
comparison, but how does one think about comparing a model sparse in features to
a model sparse in prototypes? Moreover, if one builds and evaluates an interpretable
machine learning model from a particular dataset for a particular application, does
that provide insights on whether the model will be similarly interpretable with a
different dataset or different application? If we are to move this field forward—
to compare methods and understand when methods may generalize—we need to
formalize these notions and make them evidence-based.
The objective of this chapter is to describe a set of principles for the evaluation
of interpretability. The need is urgent: European Union regulation may require
algorithms that make decisions based on user-level predictors and “significantly
affect” users to provide explanation (“right to explanation”) (Parliament and
of the European Union 2016). Meanwhile, interpretable machine learning is an
increasingly popular area of research, with forms of interpretability ranging from
Considerations for Evaluation and Generalization in Interpretable Machine Learning 5

regressions with simplified functions (e.g. Caruana et al. 2015; Kim et al. 2015a;
Rüping 2006; Buciluǎ et al. 2006; Ustun and Rudin 2016; Doshi-Velez et al. 2015;
Kim et al. 2015b; Krakovna and Doshi-Velez 2016; Hughes et al. 2016), various
kinds of logic-based methods (e.g. Wang and Rudin 2015; Lakkaraju et al. 2016;
Singh et al. 2016; Liu and Tsang 2016; Safavian and Landgrebe 1991; Wang et al.
2017), methods of probing black box models (e.g. Ribeiro et al. 2016; Lei et al.
2016; Adler et al. 2016; Selvaraju et al. 2016; Smilkov et al. 2017; Shrikumar et al.
2016; Kindermans et al. 2017; Ross et al. 2017; Singh et al. 2016). International
conferences regularly have workshops on interpretable machine learning, and
Google Scholar finds more than 20,000 publications related to interpretability in
ML in the last 5 years. How do we know which methods work best when? While
there have been reviews of interpretable machine learning more broadly (e.g. Lipton
2016), the lack of consensus on how to evaluate interpretability limits both research
progress and the effectiveness of interpretability-related regulation.
In this chapter, we start with a short discussion of what interpretability is
Sect. 2. Next we describe when interpretability is needed, including a taxonomy
of use-cases (Sect. 3). In Sect. 4, we review current approaches to evaluation and
propose a taxonomy for the evaluation of interpretability—application-grounded,
human-grounded and functionally-grounded. Finally, we discuss considerations for
generalization in Sect. 5. We review suggestions for researchers doing work in
interpretability in Sect. 6.

2 Defining Interpretability

According to the Merriam-Webster dictionary, the verb interpret means to explain


or to present in understandable terms.1 In the context of ML systems, we add an
emphasis on providing explanation to humans, that is, to explain or to present in
understandable terms to a human.
While explanation may be a more intuitive term than interpretability, we still
must answer what then is an explanation? A formal definition of explanation
remains elusive; we turn to the field of psychology for insights. Lombrozo (2006)
argue that “explanations are more than a human preoccupation—they are central
to our senses of understanding, and the currency in which we exchanged beliefs”
and notes that questions such as what constitutes an explanation, what makes
some explanations better than others, how explanations are generated and when
explanations are sought are just beginning to be addressed. Indeed, the definition of
explanation in the psychology literature ranges from the “deductive-nomological”
view (Hempel and Oppenheim 1948), where explanations are thought of as logical
proofs to providing some more general sense of mechanism (Bechtel and Abraham-
sen 2005; Chater and Oaksford 2006; Glennan 2002). More recently (Keil 2006)

1 Merriam-Webster dictionary, accessed 2017-02-07.


6 F. Doshi-Velez and B. Kim

considered a broader definition of explanations—implicit explanatory understand-


ing. All the activities in the processes of providing and receiving explanations are
considered as a part of what explanation means.
In this chapter, we propose data-driven ways to derive operational definitions
and evaluations of explanations. We emphasize that the explanation needs within
the context of an application may not require knowing the flow of bits through a
complex neural architecture—it may be much simpler, such as being able to identify
to which input the model was most sensitive, or whether a protected category was
used when making a decision.

3 Defining the Interpretability Need

Interpretable Machine Learning as a Verification Tool


In Sect. 1, we mentioned that interpretability is often used as a proxy for some other
criteria. There exist many desiderata that we might want of our ML systems. Notions
of fairness or unbiasedness imply that protected groups (explicit or implicit) are
not somehow discriminated against. Privacy means the method protects sensitive
information in the data. Properties such as safety, reliability and robustness ascertain
whether algorithms reach certain levels of performance in the face of parameter
or input variation. Causality implies that the predicted change in output due to a
perturbation will occur in the real system. Usable methods provide information
that assist users to accomplish a task—e.g. a knob to tweak image lighting—
while trusted systems have the confidence of human users—e.g. aircraft collision
avoidance systems.
There exist many ways of verifying whether an ML system meets such desider-
ata. In some cases, properties can be proven. For example, formalizations of fairness
(Hardt et al. 2016) and privacy (Toubiana et al. 2010; Dwork et al. 2012; Hardt and
Talwar 2010) have resulted in algorithms that are guaranteed to meet those criteria.
In other cases, we can track the performance of a system and validate the criteria
empirically. For example, pilots trust aircraft collision avoidance systems because
they knew they are based on millions of simulations (Kochenderfer et al. 2012) and
these systems have an excellent track record.
However, both of these cases require us to be able to formalize our desiderata
in advance, and, in the case of empirical validation, accept the cost of testing
the ML system to collect data on its performance with respect to our desiderata.
Unfortunately, formal definitions of auxiliary desiderata are often elusive. In such
cases, explanation can be valuable to qualitatively ascertain whether desiderata such
as fairness, privacy, reliability, robustness, causality, usability and trust are met. For
example, one can provide a feasible explanation that fails to correspond to a causal
structure, exposing a potential concern.
This observation, of interpretability as a verification tool, suggests that carefully
thought-out work in interpretable machine learning should be able to specify What
are the downstream goals of this interpretable machine learning system? and Why
is interpretability the right tool for achieving those goals?
Considerations for Evaluation and Generalization in Interpretable Machine Learning 7

When Is Interpretability the Right Tool?


As noted above, there are many tools for verification. Not all ML systems
require interpretability. Ad servers, postal code sorting, air craft collision avoidance
systems—all can be evaluated without interpretable machine learning and perform
their tasks without human intervention. In these cases, we have a formal guarantee of
performance or evidence that the problem is sufficiently well-studied and validated
in real applications that we trust the system’s decision, even if the system is
not perfect. In other cases, explanation is not necessary because there are no
significant consequences for unacceptable results (e.g. an occasional poor book
recommendation).
We argue that the need for interpretability stems from an incompleteness in the
problem formalization, creating a fundamental barrier to optimization and evalua-
tion. Indeed, in the psychology literature, (Keil et al. 2004) notes “explanations may
highlight an incompleteness,” that is, explanations can be one of ways to ensure that
effects of gaps in problem formalization are visible to us.
Before continuing, we note that incompleteness is distinct from uncertainty: the
fused estimate of a missile location may be uncertain, but such uncertainty can
be rigorously quantified and formally reasoned about. In machine learning terms,
we distinguish between cases where unknowns result in quantified variance—e.g.
trying to learn from small data set or with limited sensors—and incompleteness
that produces some kind of unquantified bias—e.g. the effect of including domain
knowledge in a model selection process.
Below we provide some illustrative scenarios in which incomplete problem
specifications are common:
• Scientific Understanding: The human’s goal is to gain knowledge. We do not
have a complete way of stating what knowledge is; thus the best we can do is ask
for explanations we can convert into knowledge.
• Safety: For complex tasks, the end-to-end system is almost never completely
testable; one cannot create a complete list of scenarios in which the system
may fail. Enumerating all possible outputs given all possible inputs be computa-
tionally or logistically infeasible, and we may be unable to flag all undesirable
outputs.
• Ethics: The human may want to guard against certain kinds of discrimination,
and their notion of fairness may be too abstract to be completely encoded into
the system (e.g., one might desire a ‘fair’ classifier for loan approval). Even if we
can encode protections for specific protected classes into the system, there might
be biases that we did not consider a priori (e.g., one may not build gender-biased
word embeddings on purpose, but it was a pattern in data that became apparent
only after the fact).
• Mismatched objectives: The agent’s algorithm may be optimizing an incomplete
objective—that is, a proxy function for the ultimate goal. For example, a
clinical system may be optimized for cholesterol control, without considering
the likelihood of adherence; an automotive engineer may be interested in engine
data not to make predictions about engine failures but to more broadly build a
better car.
8 F. Doshi-Velez and B. Kim

• Multi-objective trade-offs: Two well-defined desiderata in ML systems may


compete with each other, such as privacy and prediction quality (Hardt et al.
2016) or privacy and non-discrimination (Strahilevitz 2008). Even if each
objectives are fully-specified, the exact dynamics of the trade-off may not be
fully known, and the decision may have to be case-by-case.
Additional taxonomies for situations in which explanation is needed, as well as a
survey of interpretable models, are reviewed in Lipton (2016). In this work, we focus
on making clear that interpretability is just one tool for the verification, suited for
situations in which problems are incompletely specified, and focus most of efforts
on its evaluation. To expand upon our suggestion above, we suggest that research
in interpretable machine learning should specify How is the problem formulation
incomplete?

4 Evaluation

Once we know that we need an interpretable machine learning approach from


Sect. 3, the next logical question is to determine how to evaluate it. Even in standard
ML settings, there exists a taxonomy of evaluation that is considered appropriate.
In particular, the evaluation should match the claimed contribution. Evaluation of
applied work should demonstrate success in the application: a game-playing agent
might beat a human player, a classifier may correctly identify star types relevant
to astronomers. In contrast, core methods work should demonstrate generalizability
via careful evaluation on a variety of synthetic and standard benchmarks.
In this section we lay out an analogous taxonomy of evaluation approaches for
interpretability: application-grounded, human-grounded, and functionally-grounded
(see Fig. 1). These range from task-relevant to general, also acknowledge that while
human evaluation is essential to assessing interpretability, human-subject evaluation

Fig. 1 Taxonomy of evaluation approaches for interpretability


Considerations for Evaluation and Generalization in Interpretable Machine Learning 9

is not an easy task. A human experiment needs to be well-designed to minimize


confounding factors, consumed time, and other resources. We discuss the trade-offs
between each type of evaluation and when each would be appropriate.
Application-Grounded Evaluation: Real Humans, Real Tasks
As mentioned in Sect. 3, interpretability is most often used a tool to verify
some other objective, such as safety or nondiscrimination. Application-grounded
evaluation involves conducting human experiments within a real application. If the
researcher has a concrete application in mind—such as working with doctors on
diagnosing patients with a particular disease—the best way to show that the model
works is to evaluate it with respect to the task: doctors performing diagnoses. This
reasoning aligns with the methods of evaluation common in the human-computer
interaction and visualization communities, where there exists a strong ethos around
making sure that the system delivers on its intended task (Antunes et al. 2012;
Lazar et al. 2010). For example, a visualization for correcting segmentations from
microscopy data would be evaluated via user studies on segmentation on the target
image task (Suissa-Peleg et al. 2016); a homework-hint system is evaluated on
whether the student achieves better post-test performance (Williams et al. 2016).
Specifically, we evaluate the quality of an explanation in the context of its end-
task, such as whether it results in better identification of errors, new facts, or less
discrimination. Examples of experiments include:
• Domain expert experiment with the exact application task.
• Domain expert experiment with a simpler or partial task to shorten experiment
time and increase the pool of potentially-willing subjects.
In both cases, an important baseline is how well human-produced explanations assist
in other humans trying to complete the task.
Finally, to make high impact in real world applications, it is essential that we
as a community respect the time and effort involved to do such evaluations, and
also demand high standards of experimental design when such evaluations are
performed. As HCI community recognizes (Antunes et al. 2012), this is not an easy
evaluation metric. Nonetheless, it directly tests the objective that the system is built
for, and thus performance with respect to that objective gives strong evidence of
success.
Human-Grounded Metrics: Real Humans, Simplified Tasks
Human-grounded evaluation is about conducting simpler human-subject exper-
iments that maintain the essence of the target application. Such an evaluation
is appealing when experiments with the target community is challenging. These
evaluations can be completed with lay humans, allowing for both a bigger subject
pool and less expenses, since we do not have to compensate highly trained domain
experts. Human-grounded evaluation is most appropriate when one wishes to test
more general notions of the quality of an explanation. For example, to study what
kinds of explanations are best understood under severe time constraints, one might
create abstract tasks in which other factors—such as the overall task complexity—
can be controlled (Kim et al. 2013, 2014; Lakkaraju et al. 2016).
10 F. Doshi-Velez and B. Kim

The key question, of course, is how we can evaluate the quality of an explanation
without a specific end-goal (such as identifying errors in a safety-oriented task
or identifying relevant patterns in a science-oriented task). Ideally, our evaluation
approach will depend only on the quality of the explanation, regardless of whether
the explanation is the model itself or a post-hoc interpretation of a black-box model,
and regardless of the correctness of the associated prediction. Examples of potential
experiments include:
• Binary forced choice: humans are presented with pairs of explanations, and must
choose the one that they find of higher quality (basic face-validity test made
quantitative).
• Forward simulation/prediction: humans are presented with an explanation and
an input, and must correctly simulate the model’s output (regardless of the true
output).
• Counterfactual simulation: humans are presented with an explanation, an input,
and an output, and are asked what must be changed to change the method’s
prediction to a desired output (and related variants).
As an example, the common intrusion-detection test (Chang et al. 2009) in topic
models is a concrete form of the forward simulation/prediction task: we ask the
human to find the difference between the model’s true output and some corrupted
output as a way to determine whether the human has correctly understood what the
model’s true output is.
Functionally-Grounded Evaluation: No Humans, Proxy Tasks
Functionally-grounded evaluation requires no human experiments; instead, it uses
some formal definition of interpretability as a proxy for explanation quality. Such
experiments are appealing because even general human-subject experiments require
time and costs both to perform and to get necessary approvals (e.g., IRBs), which
may be beyond the resources of a machine learning researcher. Functionally-
grounded evaluations are most appropriate once we have a class of models or
regularizers that have already been validated, e.g. via human-grounded experiments.
They may also be appropriate when a method is not yet mature or when human
subject experiments are unethical.
The challenge, of course, is to determine what proxies to use. For example,
decision trees have been considered interpretable in many situations (Freitas 2014).
In Sect. 5, we describe open problems in determining what proxies are reasonable.
Once a proxy has been formalized, the challenge is squarely an optimization
problem, as the model class or regularizer is likely to be discrete, non-convex and
often non-differentiable. Examples of experiments include
• Show the improvement of prediction performance of a model that is already
proven to be interpretable (assumes that someone has run human experiments
to show that the model class is interpretable).
• Show that one’s method performs better with respect to certain regularizers—for
example, is more sparse—compared to other baselines (assumes someone has
run human experiments to show that the regularizer is appropriate).
Considerations for Evaluation and Generalization in Interpretable Machine Learning 11

5 Considerations for Generalization

Identifying a need (Sect. 3) and being able to perform quantitative comparisons


(Sect. 4) allows us to know that we are justified in our use of an interpretable
machine learning approach and determine whether our approach is more inter-
pretable than our baselines. However, we are often interested in more than just a
comparison; we want insights on how our method might perform on other tasks.
For example, when it comes to the form of the explanation, Subramanian et al.
(1992) found that users prefer decision trees to tables in games, whereas Huysmans
et al. (2011) found users prefer, and are more accurate, with decision tables rather
than other classifiers in a credit scoring domain. Hayete and Bienkowska (2004)
found a preference for non-oblique splits in decision trees. When it comes to the
amount of explanation, a number of human-subject studies have found that longer or
more complex explanations can result in higher human accuracy and trust (Kulesza
et al. 2013; Bussone et al. 2015; Allahyari and Lavesson 2011; Elomaa 2017), yet
sparsity remains closely tied with interpretablity in the machine learning community
(Mehmood et al. 2012; Chandrashekar and Sahin 2014) (often citing the famous
seven plus or minus two rule (Miller 1956)). From this collection of results, are
there ways to infer what method might perform well on a new task?
In this section, we describe a taxonomy of factors to describe contexts within
interpretability is needed. These features can be used to link across experiments and
the three types of evaluations, and thus being able to generalize to new problems
where interpretability is needed. We also argue that a shared set of key terms for
describing different interpretability contexts is essential to other researchers being
able to find other methods that they should be including in their comparisons.
Task-Related Factors of Interpretability
Disparate-seeming applications may share common categories: an application
involving preventing medical error at the bedside and an application involving
support for identifying inappropriate language on social media might be similar
in that they involve making a decision about a specific case—a patient, a post—
in a relatively short period of time. However, when it comes to time constraints,
the needs in those scenarios might be different from an application involving the
understanding of the main characteristics of a large omics data set, where the goal—
science—is much more abstract and the scientist may have hours or days to inspect
the model outputs.
Below, we list a set of factors that might make tasks similar in their explanation
needs:
• Global vs. Local. Global interpretability implies knowing what patterns are
present in general (such as key features governing galaxy formation), while local
interpretability implies knowing the reasons for a specific decision (such as why a
particular loan application was rejected). The former may be important for when
scientific understanding or bias detection is the goal; the latter when one needs a
justification for a specific decision.
12 F. Doshi-Velez and B. Kim

• Characterization of Incompleteness. What part of the problem formulation


is incomplete, and how incomplete is it? We hypothesize that the types of
explanations needed may vary depending on whether the source of concern is due
to incompletely specified inputs, constraints, domains, internal model structure,
costs, or even in the need to understand the training algorithm. The severity of the
incompleteness may also affect explanation needs. For example, one can imagine
a spectrum of questions about the safety of self-driving cars. On one end, one may
have general curiosity about how autonomous cars make decisions. At the other,
one may wish to check a specific list of scenarios (e.g., sets of sensor inputs that
causes the car to drive off of the road by 10 cm). In between, one might want
to check a general property—safe urban driving—without an exhaustive list of
scenarios and safety criteria.
• Time Constraints. How long can the user afford to spend to understand the
explanation? A decision that needs to be made at the bedside or during the
operation of a plant must be understood quickly, while in scientific or anti-
discrimination applications, the end-user may be willing to spend hours trying
to fully understand an explanation.
• Nature of User Expertise. How experienced is the user in the task? The user’s
experience will affect what kind of cognitive chunks they have, that is, how
they organize individual elements of information into collections (Neath and
Surprenant 2003). For example, a clinician may have a notion that autism and
ADHD are both developmental diseases. The nature of the user’s expertise will
also influence what level of sophistication they expect in their explanations.
For example, domain experts may expect or prefer a somewhat larger and
sophisticated model—which confirms facts they know—over a smaller, more
opaque one. These preferences may be quite different from hospital ethicist who
may be more narrowly concerned about whether decisions are being made in
an ethical manner. More broadly, decision-makers, scientists, compliance and
safety engineers, data scientists, and machine learning researchers all come with
different background knowledge and communication styles.
Each of these factors an be isolated in human-grounded experiments in simulated
tasks to determine which methods work best when they are present; more factors
can be added if it turns out generalization within applications sharing these factors
is poor. As mentioned above, these factors can also be used as key terms when
searching for methods that might be relevant for a new problem.
Explanation-Related Factors of Interpretability
Just as disparate applications may share common categories, disparate explanations
may share common qualities that correlate to their utility. As before, we provide a
set of factors that may correspond to different explanation needs. Here, we define
cognitive chunks to be the basic units of explanation.
• Form of cognitive chunks. What are the basic units of the explanation? Are
they raw features? Derived features that have some semantic meaning to the
Considerations for Evaluation and Generalization in Interpretable Machine Learning 13

expert (e.g. “neurological disorder” for a collection of diseases or “chair” for


a collection of pixels)? Prototypes?
• Number of cognitive chunks. How many cognitive chunks does the explanation
contain? How does the quantity interact with the type: for example, a prototype
can contain a lot more information than a feature; can we handle them in similar
quantities?
• Level of compositionality. Are the cognitive chunks organized in a structured
way? Rules, hierarchies, and other abstractions can limit what a human needs to
process at one time. For example, part of an explanation may involve defining
a new unit (a chunk) that is a function of raw units, and then providing an
explanation in terms of that new unit.
• Monotonicity and other interactions between cognitive chunks. Does it matter
if the cognitive chunks are combined in linear or nonlinear ways? In monotone
ways (Gupta et al. 2016)? Are some functions more natural to humans than others
(Wilson et al. 2015; Schulz et al. 2016)?
• Uncertainty and stochasticity. How well do people understand uncertainty
measures? To what extent is stochasticity understood by humans?
Identifying methods by their characteristics will also make it easier to search
for general properties of high-quality explanation that span across multiple meth-
ods, and facilitate meta-analyses that study whether these factors are associated
with deeper interpretability-related universals. Ultimately, we would hope to dis-
cover that certain task-related properties benefit from explanations with certain
explanation-specific properties.

6 Conclusion: Recommendations for Researchers

In this work, we have laid the groundwork for a process performing rigorous science
in interpretability: defining the need; careful evaluation; and defining factors for
generalization. While there are many open questions, this framework can help
ensure that our research outputs in this field are evidence-based and generalizable.
Below, we summarize our recommendations.
The claim of the research should match the type of the evaluation. Just as one
would be critical of a reliability-oriented paper that only cites accuracy statistics,
the choice of evaluation should match the specificity of the claim being made. A
contribution that is focused on a particular application should be expected to be
evaluated in the context of that application (application-grounded evaluation), or on
a human experiment with a closely-related task (human-grounded evaluation). A
contribution that is focused on better optimizing a model class for some definition
of interpretability should be expected to be evaluated with functionally-grounded
metrics. As a community, we must be careful in the work on interpretability, both
recognizing the need for and the costs of human-subject experiments. We should
14 F. Doshi-Velez and B. Kim

also make sure that these evaluations are on problems where there is a need for
interpretability.
We should categorize our applications and methods with a common taxonomy. In
Sect. 5, we hypothesized factors that may be the factors of interpretability. Creating
a shared language around such factors is essential not only to evaluation, but also
for the citation and comparison of related work. For example, work on creating a
safe healthcare agent might be framed as focused on the need for explanation due
to unknown inputs at the local scale, evaluated at the level of an application. In
contrast, work on learning sparse linear models might also be framed as focused on
the need for explanation due to unknown inputs, but this time evaluated at global
scale. As we share each of our work with the community, we can do each other a
service by describing factors such as
1. What is the ultimate verification (or other) goal? How is the problem formulation
incomplete? (Sect. 3)
2. At what level is the evaluation being performed? (Sect. 4)
3. What are the task-related and explanation-related factors in the experiments?
(Sect. 5)
These considerations should move us away from vague claims about the inter-
pretability of a particular model and toward classifying applications by a common
set of generalizable terms.

Acknowledgements This piece would not have been possible without the dozens of deep
conversations about interpretability with machine learning researchers and domain experts. Our
friends and colleagues, we appreciate your support. We want to particularity thank Ian Goodfellow,
Kush Varshney, Hanna Wallach, Solon Barocas, Stefan Rüping and Jesse Johnson for their
feedback.

References

Adler P, Falk C, Friedler SA, Rybeck G, Scheidegger C, Smith B, Venkatasubramanian S (2016)


Auditing black-box models for indirect influence. In: Data Mining (ICDM), 2016 IEEE 16th
International Conference on, IEEE, pp 1–10
Allahyari H, Lavesson N (2011) User-oriented assessment of classification model understandabil-
ity. In: 11th scandinavian conference on Artificial intelligence, IOS Press
Amodei D, Olah C, Steinhardt J, Christiano P, Schulman J, Mané D (2016) Concrete problems in
AI safety. arXiv preprint arXiv:160606565
Antunes P, Herskovic V, Ochoa SF, Pino JA (2012) Structuring dimensions for collaborative
systems evaluation. In: ACM Computing Surveys, ACM
Bechtel W, Abrahamsen A (2005) Explanation: A mechanist alternative. Studies in History and
Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical
Sciences
Bostrom N, Yudkowsky E (2014) The ethics of artificial intelligence. The Cambridge Handbook
of Artificial Intelligence
Buciluǎ C, Caruana R, Niculescu-Mizil A (2006) Model compression. In: Proceedings of the 12th
ACM SIGKDD international conference on Knowledge discovery and data mining, ACM
Other documents randomly have
different content
que sans avoir fait de grandes choses, il avait été un grand prince;
qu'il avait souffert en héros et qu'il était mort comme un saint.»

Plus que jamais retenu dans sa demeure par le chagrin, le


Dauphin s'occupa de l'éducation de ses enfants. Les devoirs d'un
père envers ses enfants avaient à ses yeux un caractère sacré, et il
les remplissait avec un zèle infatigable. «Si l'obscur citoyen, disait-il,
doit rendre compte à son pays de la conduite de ses enfants,
combien davantage doit satisfaire à cette dette celui dont les fils
gouverneront un jour l'État! Il faut que j'en fasse des hommes, pour
que plus tard ils deviennent des princes; toute négligence de ma
part à cet égard serait un crime, comme au contraire chaque vertu
que je leur inspirerai sera un bienfait pour la patrie, puisque je suis
responsable envers la postérité de tout le mal qu'ils pourront faire et
de tout le bien qu'ils ne feront pas.» On comprend avec quelle
ardeur scrupuleuse un prince guidé par de pareils principes
s'occupait de l'éducation de ses enfants. Il tenait surtout à leur
infiltrer dans le cœur cette bonté compatissante qui honore et
distingue les princes généreux et cléments. Il recommandait à leur
gouverneur et à leurs précepteurs de les conduire souvent dans la
demeure du pauvre. «Montrez-leur, disait-il, ce qui peut les attendrir;
qu'ils voient le pain noir dont se nourrit le malheureux; qu'ils
touchent de leurs mains la paille sur laquelle il couche; qu'ils
apprennent à pleurer. Un prince qui n'a jamais versé de larmes ne
peut être bon.»

Un mémoire imprimé en 1778, et attribué à un célèbre ministre


d'État, détracteur et ennemi déclaré du Dauphin, présente sur ce
prince une étrange critique, en lui reprochant d'avoir un caractère
polonais. Quand il est question d'apprécier sérieusement les qualités
et les vices des hommes et particulièrement des princes, on devrait,
ce semble, au lieu de prendre pour règles les coutumes et les
préjugés des cours, s'élever aux grands principes de morale et
d'honneur qui sont les immortels flambeaux de la conscience
humaine. Ce caractère polonais, que le Dauphin tenait de sa noble
mère Marie Leckzinska, n'était au fond que l'amour de la vertu et
l'horreur du vice. Il eût été à souhaiter pour la France et la
monarchie que toute la Cour de Louis XV eût imité le prince qu'on
insultait d'en bas, faute de pouvoir s'élever jusqu'à lui. Il n'est ni
dans mon sujet ni dans mes intentions de chercher à diminuer le
mérite de M. de Choiseul ou à surfaire le mérite du Dauphin; mais il
me sera permis de dire que tous les hommes sensés n'hésiteront pas
à préférer à cette légèreté d'un esprit sceptique avec laquelle le
ministre se vantait d'être fort novice en examen de conscience, la
gravité pleine de sagesse du prince qui, désireux de donner à ses fils
une leçon d'humanité et d'égalité chrétienne, faisait apporter au
palais de Versailles le registre de la paroisse où ils avaient été
baptisés, et l'ouvrant en leur présence, leur disait: «Voyez, mes
enfants, vos noms inscrits à la suite de celui du pauvre et de
l'indigent. La religion et la nature ont fait les hommes égaux; la
vertu seule établit une différence entre eux. Peut-être même que le
malheureux qui vous précède dans cette liste sera plus grand aux
yeux de Dieu que vous ne le serez jamais aux yeux des peuples.»

Parmi les enfants qui écoutaient ces paroles, il n'y avait guère que
le duc de Berry qui fût en âge de les comprendre. Élisabeth, qui
devait un jour pratiquer cette morale, n'en reçut pas l'initiation des
lèvres paternelles. Venue, nous l'avons dit, la dernière de la lignée,
elle ne devait point connaître celui qu'elle était appelée à imiter.

Peu de temps après sa naissance, le Dauphin et la Dauphine


vinrent à Paris, en l'église de Notre-Dame, remercier Dieu de leur
avoir accordé une seconde fille. Fort empressés, à cette époque, à
se porter sur les pas de la famille royale, les Parisiens remarquèrent
que le prince, qui était naguère d'un embonpoint plus qu'ordinaire,
avait maigri d'une façon surprenante, et que le coloris de son teint
s'était tout à fait effacé. Le mal dont ce changement était le
symptôme ne tarda pas à se révéler. Cependant, malgré sa langueur,
il voulut se rendre à un camp de plaisance établi à Compiègne, puis
il suivit la cour à Fontainebleau. Là devait s'arrêter sa course. Étendu
sur un lit de souffrance dont il ne se releva plus, il retrouva près de
lui sa fidèle compagne, cette garde angélique qu'il tenait de Dieu.
«Quelle digne femme! s'écria-t-il; après avoir fait le bonheur de ma
vie, elle m'aide encore à mourir!» Lorsque son confesseur entra dans
sa chambre et approcha de son lit, le Dauphin voyant son air triste,
lui dit le premier: «Ne vous affligez pas; je n'ai, grâce à Dieu,
aucune attache à la vie. Je n'ai jamais été ébloui de l'éclat du trône
auquel j'étais appelé par ma naissance; je ne l'envisageais que par
les redoutables devoirs qui l'accompagnent et les périls qui
l'environnent.»

Le Dauphin demanda au cardinal de Luynes s'il y avait des caves


de sépulture dans le chœur de sa cathédrale. «Monseigneur, lui
répondit le cardinal, il n'y en a qu'une sous l'autel pour les
archevêques.—Il faudra donc, reprit le prince, en faire une autre; car
je dois faire un voyage à Sens.»

Ces mots se trouvèrent bientôt expliqués.

Au dehors du château et dans toute la France des vœux se


faisaient pour la conservation de ce prince, tandis que de son côté le
prince faisait cette suprême prière: «Mon Dieu, je vous en conjure,
protégez à jamais ce royaume, comblez-le de vos grâces et de vos
bénédictions les plus abondantes.» Dieu ne voulut exaucer ni les
prières de la France ni les prières du prince: le Dauphin mourut le
vendredi 20 novembre 1765, à huit heures du matin, âgé de trente-
six ans et trois mois et demi.

Louis XV, qui n'avait point voulu quitter Fontainebleau pendant la


maladie de ce fils tendrement aimé, fut vivement ému de sa mort, et
surtout de la manière dont il l'apprit. Les jeunes princes, fils du
Dauphin, avaient connu avant le Roi le malheur qui venait de les
frapper. L'aîné d'entre eux, le jeune duc de Berry, s'en montrait
inconsolable et refusait de quitter sa chambre. Son gouverneur, le
duc de la Vauguyon, lui fit comprendre qu'il était de son devoir de le
conduire auprès de son royal aïeul. Arrivé aux appartements du Roi,
le duc de la Vauguyon donna l'ordre d'annoncer Monsieur le
Dauphin. À ce nom qu'on lui donnait pour la première fois, l'enfant
fondit en larmes et s'évanouit. «Pauvre France! s'écria Louis XV en
sanglotant, un Roi âgé de cinquante-cinq ans et un Dauphin de
onze!»

Dans cette dramatique scène, on dirait que Louis XV, en prenant le


deuil de son fils, porte celui de la monarchie. Il semble qu'on voit
apparaître les misères du présent, et que par une rapide échappée
on aperçoit les nuages sombres et chargés de tempêtes qui montent
à l'horizon de l'avenir.

Le présent, en effet, offrait tant de scandales et l'avenir tant de


périls, que le prince qui venait de mourir dans la force de l'âge
n'avait pu jusqu'à sa dernière heure en détourner ses tristes
pensées. Il s'éteignait comme accablé sous le poids des terribles
obligations qui le menaçaient.—«Ce qui rend, disait-il un jour en
soupirant, la réforme de l'État si difficile, c'est qu'il faudrait deux
bons règnes de suite, l'un pour extirper les abus, l'autre pour les
empêcher de renaître.» Et remarquant que ce déclin du sens moral,
qui avait déjà frappé Leibnitz, était dû surtout au déréglement
effréné de la plume et de la parole: «Vous le voyez, s'écriait-il, il ne
paraît presque point de livres où la religion ne soit traitée de
superstition et de chimère, où les rois ne soient représentés comme
des tyrans, et leur autorité comme un despotisme intolérable. Les
uns le disent ouvertement et avec audace, les autres se contentent
de l'insinuer adroitement.»

Le respect que le Dauphin professait pour son père ne lui


permettait pas d'ajouter que les vices étalés dans une haute sphère
autorisaient ces attaques contre le trône, et que pendant qu'au
dehors on battait en brèche les remparts de la monarchie, ils étaient
ébranlés au dedans par ceux qui avaient mission de les défendre.
Les licences du règne fournissaient des armes aux licences de la
presse. Le cri d'alarme prophétique que jetait le Dauphin sur l'avenir
était donc doublement motivé. On a écrit que celui qui jugeait ainsi
son époque succomba à une maladie dont il portait le germe depuis
plusieurs années. Je n'ai vu nulle part que la science ait constaté ce
fait. On a dit que l'abolition de la Compagnie de Jésus, dont il croyait
l'existence nécessaire à l'éducation chrétienne de la jeunesse dans
les provinces du royaume[22], lui avait causé un chagrin qui avait
altéré sa santé. La chose n'est pas impossible, car le Dauphin sentait
profondément toute atteinte portée à la religion, qui était à ses yeux
le premier fondement des empires.

On est allé plus loin. On a insinué que M. de Choiseul avait voulu


se débarrasser par le poison d'un concurrent dangereux[23], capable
autant que digne de gagner la confiance du Roi son père. Je ne puis
me résoudre à croire à une pareille infamie.

Ceux qui, sans amnistier complétement M. de Choiseul, assignent


à la mort du Dauphin une cause naturelle, se bornent à soutenir que
les amertumes dont l'avaient abreuvé madame de Pompadour et M.
de Choiseul, aussi bien que le profond chagrin qu'il avait ressenti de
la perte de son fils aîné, avaient précipité le terme de ses jours. Je
suis disposé à le croire.

Enfin, ceux qui ne voient que le côté matériel des choses


humaines ont prétendu que le prince était mort des fatigues qu'il
s'était données au camp de Compiègne. Ceci ne me paraît point
vraisemblable.

La véritable cause de sa mort, nous persistons à le croire, ce fut le


spectacle qu'il avait sous les yeux, le sentiment réfléchi des périls de
sa maison, de la catastrophe qui menaçait sa patrie, et de sa propre
impuissance à la prévenir. Il y avait là une torture qui était autre
chose que la fatigue occasionnée par des parades militaires et des
manœuvres d'artillerie. C'était moins à l'aspect d'un simulacre de
bataille que les forces lui manquaient qu'à l'aspect de ce royal édifice
qui penchait déjà sur sa race, et dont, malgré son grand cœur, il ne
se sentait pas capable d'empêcher la chute.

Ses funérailles eurent lieu avec tous les honneurs dus à son rang.
La Gazette de France du vendredi 3 janvier 1766 en donne le récit
officiel:

«Après la mort de Mgr le Dauphin, son corps est demeuré exposé


dans le château de Fontainebleau. Le Roi a ordonné que le duc
d'Orléans y resteroit pour commander les détachements de sa
maison militaire et domestique qui devoient faire le service, et pour
donner tous les ordres convenables relativement aux obsèques et au
transport du corps de Fontainebleau à Sens, où feu Mgr le Dauphin a
désiré d'être enterré. Le samedi 28 du mois dernier, tout étant prêt
pour le départ du convoi, l'archevêque de Reims, grand aumônier, fit
à onze heures du matin la cérémonie de lever le corps, qui fut placé
dans le char destiné à le porter à l'église métropolitaine de Sens. Le
convoi se mit en marche peu après dans l'ordre suivant: Deux
gardes du corps, soixante pauvres portant des flambeaux, plusieurs
carrosses des personnes qui composoient le deuil, cinquante
mousquetaires de la seconde compagnie, cinquante de la première,
cinquante chevau-légers, deux carrosses du Roi occupés par les
menins, un autre carrosse du Roi dans lequel étoient le duc
d'Orléans, le duc de Tresmes, le duc de Fronsac et le marquis de
Chauvelin, un quatrième dans lequel étoient l'archevêque de Reims,
un aumônier du Roi, le confesseur de feu Mgr le Dauphin et le curé
de l'église paroissiale de Fontainebleau, les pages de Madame la
Dauphine, les pages de la Reine, vingt-quatre pages du Roi et
plusieurs écuyers de Leurs Majestés, quatre trompettes des écuries,
les hérauts d'armes, le maître des cérémonies, le marquis de Dreux,
grand maître des cérémonies, quatre chevau-légers, le char funèbre,
aux deux côtés duquel marchoient les Cent-Suisses de la garde du
Roi, et qui étoit entouré d'un grand nombre de valets de pied de Sa
Majesté. Quatre aumôniers du Roi portoient les quatre coins du
poêle; les commandants des gendarmes, des chevau-légers et des
mousquetaires marchoient près des roues. Le sieur de Saint-Sauveur,
lieutenant des gardes du corps, suivoit le char à la tête de son
détachement, qui précédoit cinquante gendarmes. Toutes les
troupes de Sa Majesté, ainsi que les pages et les valets de pied,
portoient des flambeaux. La marche étoit fermée par des carrosses
des personnes qui composoient le deuil.

»Vers les sept heures du soir, le convoi arriva à Sens. Le cardinal


de Luynes, archevêque de cette ville, reçut le corps de Mgr le
Dauphin à la porte de l'église; l'archevêque de Reims le présenta au
cardinal; le cercueil fut porté dans le chœur; on chanta les prières
ordinaires; après quoi le duc d'Orléans et toutes les personnes qui
avoient accompagné le convoi se retirèrent. Le corps de Mgr le
Dauphin a été exposé dans le chœur de l'église pendant la nuit, et le
lendemain 29, on a fait un service solennel, qui a été célébré par le
cardinal de Luynes, et auquel le duc d'Orléans et toutes les
personnes nommées ci-dessus ont assisté. Après le service, le corps
de Mgr le Dauphin a été inhumé dans le caveau qui avoit été
construit pour l'y déposer.»

Telles furent les funérailles du Dauphin de France, père des rois


Louis XVI, Louis XVIII et Charles X, ces trois frères qui se
succédèrent dans la lignée des Bourbons, comme celle des Valois
avait été close par trois frères. Un mausolée lui fut élevé dans la
métropole de Sens, des historiens écrivirent sa vie, des orateurs
prononcèrent son éloge; la douleur du peuple fut sa plus belle
oraison funèbre. Encore un quart de siècle, et ces cérémonies des
royales obsèques ne se seraient pas déroulées à la mort du fils de
Louis XV. C'est pour cela que j'ai cru devoir m'arrêter un instant
devant le cercueil de ce prince, avant de toucher à l'histoire de
Madame Élisabeth, sa fille. Son cercueil, en effet, est comme une
borne milliaire entre les choses d'autrefois et les choses nouvelles,
entre le repos et les orages, entre la monarchie et la révolution. Il
nous servira à constater la marche que nous aurons faite sur le
terrain brûlant des réformes sociales et des essais politiques. Ce fils
de Louis XV avait assez vécu pour voir l'esprit orgueilleux des libres
penseurs prévaloir sur l'esprit de l'Évangile. Il savait que Voltaire
dominait le siècle, et que la raillerie ou la révolte ne laisserait debout
aucune autorité consacrée par le temps. Aussi, avant de mourir, il
demanda pour ses restes une sépulture moins royale que celle de
ses aïeux. Il semble que ce n'était pas assez pour lui de fuir le
Louvre, il voulut s'éloigner de Saint-Denis, que la révolution devait
aussi visiter dans ses fureurs.

L'orphelin de onze ans que nous avons vu apparaître dans


l'appartement de Louis XV au moment où la vie du Dauphin venait
de s'éteindre, était sous quelques rapports digne d'un père si
justement regretté. Sa jeune âme s'ouvrait à tous les sentiments
vertueux, son esprit à toutes les sciences utiles. Il est permis de
croire que si son père eût occupé le trône pendant quinze à vingt
ans, et que ce jeune prince, avant d'y monter à son tour, eût été
formé à l'école paternelle, la France aurait eu ces deux bons règnes
que le Dauphin jugeait nécessaires pour sauver la monarchie.

Malheureusement son héritier ne fut point préparé par une


intelligente et mâle éducation aux luttes qu'il devait rencontrer. Ses
études subissaient l'influence de ce temps d'imprévoyance et
d'erreur. Les instituteurs des princes leur enseignaient à modérer
leur pouvoir beaucoup mieux qu'à le maintenir, et de leur côté les
princes, désireux de complaire à l'opinion, dépouillaient le trône de
son prestige et mettaient de l'orgueil à montrer qu'ils n'étaient plus à
craindre.

Louis XV toutefois, malgré ses défauts, n'était pas un prince sans


clairvoyance et sans fermeté. Apportant un grand esprit de
modération dans son conseil, il laissait volontiers, dans les matières
ordinaires, passer la décision à la majorité, alors même qu'elle était
contraire à son avis; mais il savait, dans les affaires d'État, imposer
son opinion. Aucun prince ne sut mieux écouter ni observer plus
mûrement avant de prendre un parti. On sait combien il fut lent à se
décider dans les deux actes les plus importants de son règne,
l'expulsion des jésuites et le changement des parlements. Mais
lorsqu'il n'était question que des prérogatives et affaires des princes
de sa maison, il ne consultait même point son conseil, se regardant
comme le seul législateur des droits de sa famille. Voici une loi qui
fait également l'éloge de son esprit et de son cœur. Sollicité de
régler le cérémonial entre Madame la Dauphine et l'aîné de ses fils
(Louis XVI): «Il n'y a que la couronne, dit-il, qui puisse décider
absolument du rang. Le droit naturel le donne aux mères: ainsi
Madame la Dauphine l'aura sur son fils jusqu'à ce qu'il soit roi.»

Pénétrée des devoirs sacrés que lui imposait la perte qu'elle venait
de faire, Madame la Dauphine essaya de surmonter sa douleur pour
se dévouer à l'éducation de ses enfants. Élisabeth, qui n'avait que
dix-huit mois, et dont le tempérament était toujours extrêmement
délicat, occupait particulièrement sa vigilante sollicitude. Chaque jour
la chétive existence de cette enfant était en péril, et ce ne fut qu'à
force de soins et de tendresse qu'elle fut disputée à la mort: elle dut
donc deux fois la vie à sa mère.

Un peu rassurée sur la santé de sa dernière-née, dont le pâle


visage se colorait de jour en jour d'un rayon de vie, la Dauphine
songea à se tracer pour l'instruction de ses enfants un plan de
conduite et d'étude, et en chercha les éléments dans une liasse de
papiers laissés par leur père avec cette suscription: «Écrits pour
l'éducation de mon fils de Berry.» L'examen de ces documents,
qu'avec un sentiment pieux elle appelait son trésor, ne se terminait
jamais sans larmes. Avec le concours d'une personne éclairée et
discrète, elle en tira des notes, des observations, des conseils qu'elle
fondit dans un plan d'étude suivi, dont elle médita longuement
chaque article. Ce labeur occupa sa première année de deuil, et elle
s'y était appliquée avec tant d'attention qu'elle avait appris par cœur
quelques préceptes touchants afin de les enseigner à ses fils. Ce
plan d'étude achevé, elle le soumit à l'approbation du Roi[24].

Qui dira l'influence qu'auraient pu exercer sur les destinées de la


France les leçons de cette royale institutrice, inspirée par l'élévation
de son esprit et l'énergie de son caractère, aussi bien que par
l'amour maternel? Qui sait si, sous cette forte main, le jeune duc de
Berry, qui fut plus tard Louis XVI, n'eût pas senti germer dans son
cœur, à côté des instincts droits qui font l'honnête homme, la
décision d'esprit et la fermeté de caractère qui font le roi? Mais tour
à tour les guides éclairés, les tuteurs habiles devaient manquer à
cette pléiade de princes éclose à une heure difficile. Dieu, qui avait
décidé que la grande monarchie française serait anéantie, voulut que
la veuve inconsolée allât rejoindre son époux dans le tombeau. Ce
malheur arriva à Versailles le vendredi 13 mars 1767.

Les bruits qui avaient circulé sur la cause de la mort du Dauphin


se renouvelèrent au sujet de la mort de la Dauphine. Plus d'un
historien a voulu encore charger de ce crime la politique du duc de
Choiseul[25], mais ces assertions ont rencontré peu de crédit.

Le Dauphin, on l'a vu, avait demandé de reposer dans la


cathédrale de Sens. Les restes de sa digne compagne y furent réunis
aux siens. Guillaume Coustou fut chargé de l'exécution du mausolée,
qui leur fut commun. On peut dire, sans être taxé d'exagération, que
dans ce simple monument, qui représente deux urnes enlacées de
guirlandes d'immortelles et les attributs symboliques des vertus
chrétiennes, venaient de descendre l'espérance et le bonheur de la
France[26].

La mort de la Dauphine fut en effet le prélude des calamités qui


devaient affliger le royaume. Élisabeth était à peine âgée de trois
ans quand elle devint orpheline. Elle vit des larmes sur le visage de
toutes les personnes qui l'entouraient; mais elle ne comprit pas, à un
âge si tendre, l'étendue de la perte qu'elle venait de faire, et que
rien ne pouvait réparer pour elle.

Vers la fin de l'année 1768, il fut question de la présentation de


madame du Barry à la cour. Le duc de Choiseul s'opposa le plus qu'il
put au nouvel amour du Roi. Dévoué à la cour d'Autriche, il travaillait
à amener le mariage du Roi avec une archiduchesse, dans la pensée
que cette combinaison assurerait le maintien de sa politique. Le parti
du duc de Choiseul paria que madame du Barry ne serait point
présentée. Le parti du duc d'Aiguillon tint la gageure; triste gageure,
qui peint l'époque, et qui devait être gagnée contre la fortune de la
France! Le duc de Richelieu, habile dans ce genre d'affaires,
présenta madame du Barry. La favorite reçut les hommages des
princes de Condé et de Conti; mesdames de Château-Renaud, de
l'Hospital, d'Aiguillon, de Mirepoix, la fréquentèrent; elle ne manqua
ni de courtisans ni d'adorateurs. Le duc de Choiseul, vaincu dans
cette intrigue, ne renonça point pour cela à l'alliance autrichienne;
seulement il négocia pour le Dauphin le mariage qu'il avait projeté
pour Louis XV. La jeune archiduchesse arriva le 14 mai 1770 à
Compiègne, où elle fut reçue par le Roi et le Dauphin; le 15 elle
soupa à la Muette avec la famille royale, y coucha, ainsi que ses
femmes, et alla le lendemain à Versailles se réunir à la cour et
recevoir la bénédiction nuptiale. Les témoins des fêtes données à
Versailles à ce sujet ont attesté qu'aucune description n'en saurait
donner une idée, et qu'elles dépassaient en magnificence les fêtes
les plus célèbres du règne de Louis XIV. On a prétendu que la
somme énorme de vingt millions fut dépensée à cette cérémonie;
mais il est probable que le chiffre en a été exagéré par l'opposition
philosophique, qui, justement irritée des profusions de la cour,
regardait les abus avec un verre grossissant, afin de s'en faire un
argument pour décrier le pouvoir. L'élégance splendide des toilettes
étalées à cette occasion, la beauté des parures ruisselantes de
diamants, l'illumination du jardin, éclairé en une seconde et comme
par enchantement de plusieurs millions de lampions, offraient un
coup d'œil magique. Le bouquet du feu d'artifice fit éclore ensemble
trente mille fusées, qui embrasèrent l'espace et remplacèrent la nuit
par l'éclat du jour. Quatorze jours après, un effroyable accident
consterna la France. La ville de Paris voulut aussi avoir son feu
d'artifice. Les présages funestes qui avaient troublé les fêtes dans le
palais de Louis XIV se renouvelèrent à Paris autour de la statue de
Louis XV. Si le 16 mai, au moment même de la cérémonie nuptiale,
un violent orage avait éclaté sur Versailles, si le tonnerre avait
grondé, si les éclairs avaient brillé, si des torrents de pluie avaient
inondé la ville, à Paris il y eut quelque chose de plus que des
présages fâcheux: ce furent des désastres réels qui marquèrent d'un
deuil ineffaçable la soirée du 30 mai. À qui peut-on attribuer la
responsabilité de ce malheur public? L'incurie de l'autorité et les
calculs coupables de la malveillance doivent partager cette
responsabilité. La rue Royale-Saint-Honoré, que l'on rebâtissait à
cette époque, présentait l'aspect d'un terrain entrecoupé de
décombres, d'échafaudages, de monceaux de pierres, de gravois qui
en rendaient le passage difficile. Des mesures mal prises, la
négligence qu'on eut de ne pas débarrasser les issues de la place
Louis XV, où se tirait le feu d'artifice, un rassemblement de filous
faisant presse afin de voler plus facilement, l'absence de la police et
de la force armée, toutes ces circonstances concoururent à amener
une confusion inextricable et un engorgement dans lequel trois cents
personnes restèrent étouffées sur place. Un grand nombre d'autres
demeurèrent pendant des heures renversées, abattues, foulées aux
pieds, écrasées, et moururent des suites de leurs blessures[27].
Quelques historiens portent à plus de douze cents le nombre des
victimes de cette catastrophe, qui jeta le deuil dans tant de familles.

Après avoir dit les funestes événements qui vinrent assombrir ces
fêtes, il faut ajouter, sans pouvoir préciser un chiffre, qu'elles furent
très-dispendieuses. Il reste à ce sujet un mot historique de l'abbé
Terray qui peint tout ensemble le cynisme de son esprit et la dureté
de son âme. Louis XV lui ayant demandé comment il avait trouvé ces
fêtes: «Ah! Sire, impayables,» répondit-il en déridant son front
nébuleux. En effet, il ne se pressa pas de payer les fournisseurs.

Le Dauphin et la Dauphine furent inconsolables de ce malheur; ils


essayèrent d'en effacer la trace, ou du moins d'en adoucir les
souvenirs par des largesses et des témoignages de bonté.

Les fêtes de la cour aussi eurent leurs contre-temps: elles


soulevèrent en effet des conflits d'amour-propre et des prétentions
de préséance. L'Impératrice avait témoigné le désir que
Mademoiselle de Lorraine et le prince de Lambesc, ses parents, y
prissent rang immédiatement après les princes du sang. Cette
demande avait provoqué une vive opposition de la part de la
noblesse française, et comme la Dauphine, qui ne comprenait pas
cette susceptibilité, en exprimait sa surprise aux duchesses de
Noailles et de Bouillon, ces dames, tout en protestant de leur
respectueuse déférence pour la princesse, répondirent que
l'inexorable étiquette ne leur permettait pas de faire le sacrifice de
droits et de priviléges consacrés par le temps. La jeune Dauphine,
dit-on, se prit à sourire, et ce sourire causa un tel scandale que la
noblesse du royaume se crut obligée d'intervenir en corps dans le
débat. Un mémoire fut rédigé en son nom et remis au Roi par
l'évêque de Noyon[28]. Marie-Antoinette se soumit de bonne grâce,
mais elle conçut pour l'étiquette inexorable un dégoût qu'elle ne put
surmonter et qui lui attira des ennemis plus inexorables encore que
l'étiquette.

Ce mémoire, dont quelques considérants étaient parfaitement


applicables à la vieille noblesse guerrière, et qui par cela même avait
le tort de se tromper un peu de date à la fin du dix-huitième siècle,
quand la noblesse comptait tant d'anoblis, éveilla une foule de
susceptibilités qu'on n'avait pas prévues. Il occupa aussi les
causeries railleuses de l'ancienne bourgeoisie, qui commençait à
compter dans la société française, et qui déjà, dans son impatience
envieuse, sentait que son règne était proche. N'apercevant pas dans
ce rapport le côté national qui aurait dû trouver grâce à ses yeux, la
ville fit comme Marie-Antoinette, elle se mit à rire de prétentions qui
irritaient sa jalousie tout autant qu'elles avaient blessé la naïve fierté
de la Dauphine. Quant au Roi, il se tira de cette méchante affaire par
un moyen terme, qui semblait offrir une satisfaction à l'Impératrice
sans porter atteinte aux priviléges de la noblesse du royaume[29].

L'entrée publique du Dauphin et de la Dauphine dans la capitale


fut saluée par les plus chaleureuses acclamations. Pour répondre à
l'empressement du peuple parisien, le prince et la princesse se
promenèrent longtemps dans le jardin des Tuileries, au milieu d'une
foule compacte de spectateurs. Ce fut comme un témoignage
incessant de sympathie et d'affection échangé entre ce jeune couple
destiné au trône, et ce bon peuple, alors si dévoué encore à ses
princes en ce temps-là.
De nombreux mariages, conclus presque à la même époque,
avaient pour ainsi dire renouvelé l'aspect de la cour de France,
devenue déjà si brillante par le mariage de l'héritier du trône avec
une archiduchesse d'Autriche. Les deux frères du Dauphin avaient
épousé[30] deux princesses de Savoie, sœurs elles-mêmes. Le duc
de Chartres s'était marié[31] à la fille du duc de Penthièvre; le duc de
Bourbon à une princesse d'Orléans[32]; et la princesse de Lamballe
essayait de cacher sous son voile de veuve l'éclat d'une jeunesse en
fleur. Le roi Louis XV se trouvait ainsi au milieu d'une cour toute
printanière, comme disait madame du Deffand. Dans de pareilles
circonstances, Louis XIV vieillissant s'était fait le centre de la société
brillante formée par les générations nouvelles des princes de sa
maison; entouré de ses petits-fils, de leurs femmes, de leurs cours, il
s'informait d'eux, de leurs intérêts, de leurs habitudes; il s'occupait
de leurs plaisirs; sa sollicitude inspirait une respectueuse affection.
Aussi, aïeul, enfants, petits-enfants, se rencontraient-ils volontiers,
certains de n'avoir point à subir un ennui ou à redouter un blâme.
Mais Louis XV n'était ni père ni roi dans son palais: il n'aimait ni la
gravité du cérémonial qui impose une gêne, ni la sévérité de
l'étiquette qui se fait gardienne de la décence. Arraché aux
sentiments de la famille par des passions devenues plus déplorables
avec l'âge, il se renfermait pour s'épargner l'ennui d'un contrôle ou
la honte d'un scandale.

D'après les bruits qui coururent à cette époque, mais qui n'ont que
la valeur d'hypothèses accueillies par la malignité publique, il aurait
eu un trésor particulier qu'il n'aurait pas dédaigné de grossir, comme
aurait pu le faire un simple agioteur, par le jeu des actions et des
effets royaux; spéculateur d'autant plus habile qu'instruit de l'état
exact et du mouvement des fonds publics, il aurait pu diriger ses
opérations selon le thermomètre de son intérêt. Il aurait étendu
même ses trafics sur le commerce des blés. Ce qu'il y a de certain,
c'est que les souffrances rancuneuses du peuple lui attribuèrent
plusieurs fois la disette. Si le caractère d'un prince doux, patient et
qu'on disait ami de son peuple, ne mérite pas une telle flétrissure, il
faut dire toutefois que son insouciance et son incurie autorisaient de
graves accusations. Louis XV ne croyait pas à la probité: cette triste
incrédulité était-elle le reflet d'une mauvaise conscience ou le
résultat de l'expérience qu'il avait faite des hommes? Je ne sais;
mais il avait un grand dégoût pour les affaires comme un grand
mépris pour l'humanité. Le bien qu'il ne se sentait pas la force de
faire, il n'imaginait pas qu'un autre pût le tenter. Il regardait comme
chose étrangère ce qui ne lui était point personnel, et les plaisirs
mêmes qu'il recherchait cessaient de lui plaire dès que l'uniformité
s'y mêlait.

Cependant, le gouvernement qui s'accommodait de la dépravation


des mœurs commençait à s'inquiéter du déréglement effréné des
écrits. Pendant son séjour à Fontainebleau, au mois d'octobre 1771,
M. de Maupeou appela l'attention du Roi sur cette question. Ce
n'était point sa sollicitude pour l'intérêt public qui le portait à agir
ainsi, encore moins la pensée de rendre hommage à la mémoire du
Dauphin; il obéissait exclusivement à un intérêt de préservation
personnelle. Mais aucun moyen ne fut encore proposé pour arrêter
ce fléau contagieux des libelles licencieux qui avait envahi les
provinces[33].

Une question aussi grave occupait moins la société française qu'un


vers de Voltaire ou un bon mot de mademoiselle Arnould. Le billet
d'enterrement du duc de la Vauguyon attira l'attention publique cent
fois plus que n'avait fait l'annonce de sa mort.

Marie-Antoinette, qui imputait à cet ancien gouverneur du Dauphin


et des princes ses frères tout ce qui lui paraissait défectueux dans
leurs habitudes et dans leurs goûts, n'avait aucune sorte de
sympathie pour lui, et ne témoigna aucun regret de sa mort. Comme
une de ses femmes accourut tout émue lui raconter les actes de
piété, de repentir et de charité qui avaient honoré ses derniers
instants, disant qu'il avait fait venir ses gens près de son lit pour leur
demander pardon... «Pardon de quoi? reprit la Dauphine avec
vivacité: il a placé tous ses valets, il les a tous enrichis; c'était au
Dauphin et à ses frères que le saint homme que vous pleurez avait à
demander pardon pour avoir donné si peu de soins à l'éducation des
princes dont dépendent les destinées et le bonheur de vingt-cinq
millions d'hommes. Heureusement que leur bon naturel et leur
aptitude personnelle n'ont point cessé de travailler à racheter la
coupable incurie de leur gouverneur.»

Le billet d'enterrement de ce vieillard, œuvre d'une composition


réfléchie et laborieuse, avait été envoyé, selon l'usage, aux portes de
tous les hôtels de Versailles; il n'en devint pas moins bientôt, par sa
singularité, un effet de bibliothèque, d'autant plus recherché, qu'une
émulation de curiosité le rendit de jour en jour plus rare. En voici la
teneur:

«Vous êtes prié d'assister au convoi, service et enterrement


de Monseigneur Antoine-Paul-Jacques de Quelen, chef des
noms et armes des anciens seigneurs de la châtellenie de
Quelen, en haute Bretagne, juveigneur[34] des comtes de
Porhoët, substitué aux noms et armes de Stuer de Caulsade,
duc de la Vauguyon, pair de France, prince de Carency, comte
de Quélen et du Boulay, marquis de Saint-Mégrin, de Callonge
et d'Archiac; vicomte de Calvaignac; baron des anciennes et
hautes baronnies de Tonneins, Gratteloup, Villeton, la Gruère
et Picornet; seigneur de Larnagol et Talcoimur; vidame,
chevalier et avoué de Sarlac, haut baron de Guyenne, second
baron de Quercy, lieutenant général des armées du Roi,
chevalier de ses ordres, menin de feu monseigneur le
Dauphin, premier gentilhomme de la chambre de
monseigneur le Dauphin, grand maître de sa garde-robe, ci-
devant gouverneur de sa personne et de celle de
monseigneur le comte de Provence, gouverneur de la
personne de monseigneur le comte d'Artois, premier
gentilhomme de sa chambre, grand maître de sa garde-robe
et surintendant de sa maison, qui se feront jeudi 6 février
1772, à dix heures du matin, en l'église royale et paroissiale
de Notre-Dame de Versailles, où son corps sera inhumé.
»De profundis.»

Grimm, après avoir transcrit cette lettre d'invitation dans sa


Correspondance, ajoutait plaisamment: «Il seroit à propos de fonder
et d'ériger une chaire dont le professeur ne feroit autre chose, toute
l'année, que d'expliquer à la jeunesse le billet d'enterrement de M. le
duc de la Vauguyon, sans quoi il est à craindre que l'érudition
nécessaire pour le bien entendre ne se perde insensiblement, et que
ce billet ne devienne, avec le temps, le désespoir des critiques.»

Madame Élisabeth en fit justice à sa manière. Comme l'on revenait


sans cesse sur ce billet incroyable: «Combien M. de Saint-Mégrin,
dit-elle, doit regretter d'avoir donné prétexte à tant de bruit sur la
tombe de son père!»

La France présentait un singulier spectacle: rien ne bougeait dans


la politique, et les esprits étaient agités. La légèreté de la nation, son
insouciance naturelle s'accommodaient trop bien de la douceur du
gouvernement intérieur pour attacher de l'importance aux
événements qui se préparaient au delà de l'horizon.

Le choix des distractions, la poursuite des plaisirs étaient les seuls


mobiles qui imprimassent une impulsion à la société endormie dans
une douce quiétude. Le mouvement n'était pas dans les faits, il était
dans les idées. Aussi les nouveautés de tout genre étaient-elles
accueillies avec faveur. Les discussions du jansénisme et du
molinisme, qui avaient passionné la génération précédente, ne
rencontraient qu'une profonde indifférence chez l'insouciante oisiveté
des gens du monde. Un opéra nouveau, une séance de l'Académie
française, les Mémoires de Beaumarchais, quelques lignes de
l'Encyclopédie, dont chaque livraison était annoncée à son de trompe
par la Gazette de France, voilà quels étaient les principaux éléments
des passions du jour.

Une question de musique enflammait les esprits bien autrement


que le démembrement de la Pologne ou l'indépendance de
l'Amérique. Les noms de Gluck et de Piccini étaient les cris de
ralliement; la salle de l'Opéra était le théâtre de la guerre, guerre
puérile et pourtant de longue durée, guerre de chansons,
d'épigrammes et de pamphlets, prélude étrange des divisions
politiques qui allaient déchirer la France. Le sujet des querelles était
sans doute médiocre et puéril, mais l'esprit de lutte et d'antagonisme
se révélait déjà. Un enthousiasme extraordinaire accueillait aussi les
découvertes merveilleuses qui étaient signalées dans le domaine des
sciences physiques.

La société peu instruite, que ces révélations étonnaient et


ravissaient, y puisait je ne sais quel idéal chimérique qu'elle allait
bientôt poursuivre à travers tous les obstacles. Les bornes de
l'impossible semblaient au moment d'être franchies par le génie de
l'homme. Les systèmes les plus extravagants et les chimères les plus
insensées trouvaient des prôneurs.

La Gazette de France annonçait tous les deux mois comme une


nouvelle importante l'apparition d'un nouveau volume de
l'Encyclopédie; tous les jours elle enregistrait la collation faite par le
Roi d'abbayes et de prébendes à des ecclésiastiques moins nourris
de leur bréviaire et de l'histoire de l'Église que de l'étude des romans
de Voltaire ou de Restif de la Bretonne. La plupart de ces bénéfices
étant à la nomination et présentation des princes et seigneurs,
l'autorité royale se bornait à les sanctionner aveuglément comme
autant de faveurs accordées au népotisme ou arrachées par
l'importunité. Et pourtant le sentiment public attribuait forcément au
Roi lui-même toute la responsabilité des désordres enfantés par ces
abus. Le mal que faisait une partie du haut clergé au sommet de
l'édifice social par sa corruption, une partie du bas clergé le
continuait dans les degrés inférieurs par son ignorance. Le prêtre du
dix-huitième siècle était ainsi, aux deux extrêmes degrés de l'échelle,
bien loin de ressembler au prêtre tel que le neuvième siècle en
concevait l'idéal.
«Le docteur ecclésiastique, déclarait le concile d'Aix-la-Chapelle en
836, doit briller par la science comme par la piété de la vie, car la
science sans la piété le rend arrogant, la piété sans la science le
rend inutile.»

En convenant que le défaut de piété est plus criminel, nous ferons


remarquer que le défaut de science est plus irréparable: un
mouvement de la grâce peut changer les mœurs d'un mauvais
prêtre et le ramener à Dieu; mais pour acquérir la science il faut de
grands efforts et des années. Si, dans chaque état, il est besoin
d'une instruction spéciale pour en remplir dignement les fonctions;
si, faute de cette instruction spéciale, le négociant se ruine, le
capitaine se fait battre, le juge commet des injustices, le médecin
tue ses malades, que dirons-nous donc si le ministère des âmes, cet
art des arts, comme l'appelle saint Grégoire, c'est-à-dire le ministère
le plus important de tous, est confié à des prêtres dépourvus des
lumières qu'ils doivent enseigner, et par conséquent défenseurs
inhabiles des dogmes qu'on attaque, et gardiens impuissants de la
morale qu'on altère? L'hérésie du seizième siècle avait dû presque
tous ses succès à l'ignorance du clergé. Ce malheur devait se
reproduire dans le dernier siècle, avec des chances d'autant plus
fatales que l'esprit de la philosophie était plein d'audace et maniait
avec un rare talent l'arme de la raillerie.

Cependant il ne faut pas croire que le clergé français tout entier


fût atteint de l'aveuglement de l'ignorance ou de la gangrène de la
corruption. S'il en avait été ainsi, la Révolution, quand elle descendit
menaçante dans l'arène, n'aurait pas trouvé tant de prêtres prêts à
renouveler les merveilles du christianisme héroïque, et à protester
par le martyre contre la profanation des choses saintes et
l'usurpation des droits de l'Église. À l'époque même où se
manifestaient dans la sphère ecclésiastique les abus que nous avons
signalés, on voyait monter dans la chaire des prêtres qui, usant de la
liberté de la parole presque égale à la licence des mœurs,
dévoilaient et combattaient ces abus. Les voix du clergé français les
plus écoutées s'élevaient contre la dépravation de la morale, et
faisaient remarquer, dans les progrès de l'irréligion, le présage de la
décadence de l'État. Un archidiacre de l'Église de Montpellier, nourri
de l'étude de Bossuet et de Bourdaloue et qui s'était acquis une
certaine renommée par le panégyrique de saint Louis, prononcé en
présence de l'Académie française, avait été choisi en 1757 pour
prêcher devant le Roi de France. L'abbé de Cambacérès (c'était son
nom[35]) avait l'amour du bien, un grand zèle pour le service de
l'Église et de l'humanité; dénué de toute ambition personnelle et peu
soucieux des faveurs du prince, il étala devant Louis XV le tableau de
la société et du gouvernement avec des paroles si vraies qu'elles
étonnèrent le monarque et firent trembler les courtisans.

Ces avertissements descendirent encore de la chaire avec plus de


précision. L'abbé de Beauvais, qui dut à ses vertus sacerdotales
encore plus qu'à son éloquence son élévation à l'épiscopat[36],
prononça, dans les premiers mois de 1774, un sermon dont nous
extrayons ce passage: «Sire, mon devoir de ministre d'un Dieu de
vérité m'ordonne de vous dire que vos peuples sont malheureux,
que vous en êtes la cause, et qu'on vous le laisse ignorer.» Ajoutons
que l'orateur avait pris pour texte de son discours ces paroles de
Jonas: «Adhuc quadraginta dies, et Ninive subvertetur. Encore
quarante jours, et Ninive sera renversée.» Ces paroles doublement
prophétiques ne retentirent pas en vain. Quarante jours après, le roi
Louis XV mourut.

Le mercredi 27 avril 1774, ce prince, étant à Trianon, eut un


frisson suivi de fièvre, de mal de tête et de douleurs dans les reins.
Il se détermina à revenir à Versailles.

Le vendredi 29, il fut saigné deux fois, et dans la soirée la petite


vérole parut. Cette atteinte n'offrit d'abord aucun signe alarmant.

La Gazette de France du lundi 9 mai donnait les nouvelles


suivantes:

«De Versailles, le 8 mai 1774.


»Le 5 de ce mois, la petite vérole de Sa Majesté a fait
beaucoup de progrès pendant la journée; le redoublement de
la nuit a été plus fort que les précédents; il y a eu beaucoup
de chaleur et même quelques moments de délire. Néanmoins
la journée du 6 s'est passée fort tranquillement.... La nuit
suivante, le redoublement a été plus modéré, et quoiqu'il eût
été moins long que dans la nuit précédente, Sa Majesté fit
appeler de son propre mouvement l'abbé Maudeux, son
confesseur, et demanda sur les sept heures du matin à
recevoir le saint viatique, qui lui fut apporté par le cardinal de
la Roche-Aymon, grand aumônier de France. La famille royale,
les princes et princesses du sang, les grands officiers de la
couronne, les ministres secrétaires d'État, etc.,
accompagnèrent le saint sacrement jusqu'aux appartements
du Roi et le reconduisirent à la chapelle dans le même ordre.
Les gardes françoises et suisses étoient sous les armes dans
la grande cour du château et battoient aux champs. Sa
Majesté a montré dans cette maladie beaucoup de force, de
fermeté, de constance et de courage, et principalement dans
cette occasion des sentiments de piété et de religion dignes
d'un roi très-chrétien.... La journée du 7 a été fort calme....
Ce matin, vers les cinq heures et demie, le redoublement est
devenu très-fort, et Sa Majesté a eu quelques moments de
délire. Ces accidents ont été bientôt calmés par des efforts
pour vomir qui sont survenus naturellement. La suppuration
se soutient, et la plus grande partie des boutons du visage et
du col sont déjà desséchés.»

Ce bulletin, fait pour rassurer sur les suites de la maladie, ne


laissait pas que de causer une grande émotion. La consternation est
dans Versailles. On annonce que l'air du château est infecté:
cinquante personnes gagnent la petite vérole pour avoir traversé
seulement la galerie; dix en meurent.
«Le Roi est à toute extrémité: outre la petite vérole, il a le
pourpre; on ne peut entrer sans danger dans sa chambre. M. de
Létorière est mort pour avoir entr'ouvert sa porte afin de le regarder
deux minutes. Les médecins eux-mêmes prennent toutes sortes de
précautions pour se préserver de la contagion de ce mal affreux, et
Mesdames, qui n'ont jamais eu la petite vérole, qui ne sont plus
jeunes, et dont la santé est naturellement mauvaise, sont toutes
trois dans la chambre, assises près de son lit et sous ses rideaux;
elles passent là le jour et la nuit. Tout le monde leur a fait à ce sujet
les plus fortes représentations; on leur a dit que c'étoit plus que
d'exposer leur vie, que c'étoit la sacrifier: rien n'a pu les empêcher
de remplir ce pieux devoir[37].»

La conduite de Mesdames inspira à Madame la Dauphine un


sentiment d'estime et d'attachement dont elle se plut à leur donner
de nombreux témoignages lorsqu'elle fut Reine. Madame Élisabeth,
que son âge avait empêchée d'être initiée à ces détails, en apprit
plus tard le récit, qui la pénétra aussi de respect pour ses tantes.

La seule pensée de la mort du Roi suffisait dans ce temps-là pour


agiter profondément les esprits. De toutes parts s'élevaient des
prières; les villes, les confréries, les abbayes, les communautés
religieuses et les corps militaires faisaient célébrer des messes pour
le rétablissement de la santé du Roi. La ville de Strasbourg disputait
aux plus vieilles cités de la monarchie le droit de montrer en cette
occasion des sentiments français. Dès qu'elle apprit la maladie du
prince, elle ordonna des prières publiques; elle fit une procession
générale, où derrière le saint sacrement marchèrent le maréchal de
Contades et tous les corps du clergé, de la magistrature et de la
noblesse. Pendant la grand'messe, les magistrats en corps se
présentèrent à l'offrande, et firent lire par l'un des avocats généraux
de la ville l'acte d'un vœu solennel, qui fut déposé sur l'autel.

«Dieu tout-puissant, arbitre des destinées, vous donnez aux


peuples dans votre miséricorde les rois selon votre cœur. Les jours
de notre auguste monarque Louis le Bien-Aimé sont menacés. Voyez
Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade

Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.

Let us accompany you on the journey of exploring knowledge and


personal growth!

textbookfull.com

You might also like