100% found this document useful (5 votes)
65 views

Full download Synthetic Data for Deep Learning: Generate Synthetic Data for Decision Making and Applications with Python and R 1st Edition Necmi Gürsakal pdf docx

Generate

Uploaded by

gyselgabi
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
100% found this document useful (5 votes)
65 views

Full download Synthetic Data for Deep Learning: Generate Synthetic Data for Decision Making and Applications with Python and R 1st Edition Necmi Gürsakal pdf docx

Generate

Uploaded by

gyselgabi
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 76

Download Full Version ebookmass - Visit ebookmass.

com

Synthetic Data for Deep Learning: Generate


Synthetic Data for Decision Making and
Applications with Python and R 1st Edition Necmi
Gürsakal
https://ebookmass.com/product/synthetic-data-for-deep-
learning-generate-synthetic-data-for-decision-making-and-
applications-with-python-and-r-1st-edition-necmi-gursakal/

OR CLICK HERE

DOWLOAD NOW

Discover More Ebook - Explore Now at ebookmass.com


Instant digital products (PDF, ePub, MOBI) ready for you
Download now and discover formats that fit your needs...

Synthetic Data for Deep Learning: Generate Synthetic Data


for Decision Making and Applications with Python and R 1st
Edition Necmi Gürsakal
https://ebookmass.com/product/synthetic-data-for-deep-learning-
generate-synthetic-data-for-decision-making-and-applications-with-
python-and-r-1st-edition-necmi-gursakal/
ebookmass.com

Data Universe: Organizational Insights with Python:


Embracing Data Driven Decision Making Van Der Post

https://ebookmass.com/product/data-universe-organizational-insights-
with-python-embracing-data-driven-decision-making-van-der-post/

ebookmass.com

Beginner's Guide to Streamlit with Python: Build Web-Based


Data and Machine Learning Applications 1st Edition Sujay
Raghavendra
https://ebookmass.com/product/beginners-guide-to-streamlit-with-
python-build-web-based-data-and-machine-learning-applications-1st-
edition-sujay-raghavendra/
ebookmass.com

Saunders Q & A Review Cards for the NCLEX-RNu00ae


Examination 3rd Edition

https://ebookmass.com/product/saunders-q-a-review-cards-for-the-nclex-
rn-examination-3rd-edition/

ebookmass.com
An Imperial Disaster: The Bengal Cyclone of 1876 Benjamin
Kingsbury

https://ebookmass.com/product/an-imperial-disaster-the-bengal-cyclone-
of-1876-benjamin-kingsbury-2/

ebookmass.com

Commodities as an Asset Class: Essays on Inflation, the


Paradox of Gold and the Impact of Crypto Alan G. Futerman

https://ebookmass.com/product/commodities-as-an-asset-class-essays-on-
inflation-the-paradox-of-gold-and-the-impact-of-crypto-alan-g-
futerman/
ebookmass.com

World of Worldly Gods: The Persistence and Transformation


of Shamanic Bon in Buddhist Bhutan Kelzang T. Tashi

https://ebookmass.com/product/world-of-worldly-gods-the-persistence-
and-transformation-of-shamanic-bon-in-buddhist-bhutan-kelzang-t-tashi/

ebookmass.com

The Lattice Boltzmann Equation: For Complex States of


Flowing Matter Sauro Succi

https://ebookmass.com/product/the-lattice-boltzmann-equation-for-
complex-states-of-flowing-matter-sauro-succi/

ebookmass.com

Real Estate Investment: Theory and Practice Colin A. Jones

https://ebookmass.com/product/real-estate-investment-theory-and-
practice-colin-a-jones/

ebookmass.com
Nestor (Green Hill Pride #6) Catherine Lievens

https://ebookmass.com/product/nestor-green-hill-pride-6-catherine-
lievens/

ebookmass.com
Synthetic
Data for
Deep Learning
Generate Synthetic Data for Decision
Making and Applications with
Python and R

Necmi Gürsakal
Sadullah Çelik
Esma Birişçi
Synthetic Data for Deep
Learning
Generate Synthetic Data for Decision
Making and Applications with Python
and R

Necmi Gürsakal
Sadullah Çelik
Esma Birişçi
Synthetic Data for Deep Learning: Generate Synthetic Data for Decision Making and
Applications with Python and R
Necmi Gürsakal Sadullah Çelik
Bursa, Turkey Aydın, Turkey

Esma Birişçi
Bursa, Turkey

ISBN-13 (pbk): 978-1-4842-8586-2 ISBN-13 (electronic): 978-1-4842-8587-9


https://doi.org/10.1007/978-1-4842-8587-9

Copyright © 2022 by Necmi Gürsakal, Sadullah Çelik, and Esma Birişçi


This work is subject to copyright. All rights are reserved by the Publisher, whether the whole or part of the
material is concerned, specifically the rights of translation, reprinting, reuse of illustrations, recitation,
broadcasting, reproduction on microfilms or in any other physical way, and transmission or information
storage and retrieval, electronic adaptation, computer software, or by similar or dissimilar methodology now
known or hereafter developed.
Trademarked names, logos, and images may appear in this book. Rather than use a trademark symbol with
every occurrence of a trademarked name, logo, or image we use the names, logos, and images only in an
editorial fashion and to the benefit of the trademark owner, with no intention of infringement of the
trademark.
The use in this publication of trade names, trademarks, service marks, and similar terms, even if they are not
identified as such, is not to be taken as an expression of opinion as to whether or not they are subject to
proprietary rights.
While the advice and information in this book are believed to be true and accurate at the date of publication,
neither the authors nor the editors nor the publisher can accept any legal responsibility for any errors or
omissions that may be made. The publisher makes no warranty, express or implied, with respect to the
material contained herein.
Managing Director, Apress Media LLC: Welmoed Spahr
Acquisitions Editor: Celestin Suresh John
Development Editor: Laura Berendson
Coordinating Editor: Mark Powers
Cover designed by eStudioCalamar
Cover image by Simon Lee on Unsplash (www.unsplash.com)
Distributed to the book trade worldwide by Apress Media, LLC, 1 New York Plaza, New York, NY 10004,
U.S.A. Phone 1-800-SPRINGER, fax (201) 348-4505, e-mail orders-ny@springer-sbm.com, or visit www.
springeronline.com. Apress Media, LLC is a California LLC and the sole member (owner) is Springer Science
+ Business Media Finance Inc (SSBM Finance Inc). SSBM Finance Inc is a Delaware corporation.
For information on translations, please e-mail booktranslations@springernature.com; for reprint,
paperback, or audio rights, please e-mail bookpermissions@springernature.com.
Apress titles may be purchased in bulk for academic, corporate, or promotional use. eBook versions and
licenses are also available for most titles. For more information, reference our Print and eBook Bulk Sales
web page at http://www.apress.com/bulk-sales.
Any source code or other supplementary material referenced by the author in this book is available to
readers on GitHub (https://github.com/Apress). For more detailed information, please visit http://www.
apress.com/source-code.
Printed on acid-free paper
This book is dedicated to our mothers.
Table of Contents
About the Authors���������������������������������������������������������������������������������������������������� ix

About the Technical Reviewer��������������������������������������������������������������������������������� xi


Preface������������������������������������������������������������������������������������������������������������������ xiii

Introduction�������������������������������������������������������������������������������������������������������������xv

Chapter 1: An Introduction to Synthetic Data����������������������������������������������������������� 1


What Synthetic Data is?���������������������������������������������������������������������������������������������������������������� 1
Why is Synthetic Data Important?������������������������������������������������������������������������������������������� 2
Synthetic Data for Data Science and Artificial Intelligence����������������������������������������������������� 3
Accuracy Problems����������������������������������������������������������������������������������������������������������������������� 4
The Lifecycle of Data��������������������������������������������������������������������������������������������������������������������� 5
Data Collection versus Privacy������������������������������������������������������������������������������������������������������ 7
Data Privacy and Synthetic Data��������������������������������������������������������������������������������������������� 8
Synthetic Data and Data Quality������������������������������������������������������������������������������������������������� 10
Aplications of Synthetic Data������������������������������������������������������������������������������������������������������ 10
Financial Services����������������������������������������������������������������������������������������������������������������� 11
Manufacturing����������������������������������������������������������������������������������������������������������������������� 12
Healthcare����������������������������������������������������������������������������������������������������������������������������� 14
Automotive���������������������������������������������������������������������������������������������������������������������������� 16
Robotics��������������������������������������������������������������������������������������������������������������������������������� 17
Security��������������������������������������������������������������������������������������������������������������������������������� 18
Social Media�������������������������������������������������������������������������������������������������������������������������� 19
Marketing������������������������������������������������������������������������������������������������������������������������������ 20
Natural Language Processing������������������������������������������������������������������������������������������������ 21

v
Table of Contents

Computer Vision�������������������������������������������������������������������������������������������������������������������� 22
Summary������������������������������������������������������������������������������������������������������������������������������������ 27
References���������������������������������������������������������������������������������������������������������������������������������� 27

Chapter 2: Foundations of Synthetic data�������������������������������������������������������������� 31


How to Generated Fair Synthetic Data?�������������������������������������������������������������������������������������� 31
Generating Synthetic Data in A Simple Way�������������������������������������������������������������������������������� 32
Using Video Games to Create Synthetic Data������������������������������������������������������������������������������ 37
The Synthetic-to-Real Domain Gap��������������������������������������������������������������������������������������������� 42
Bridging the Gap�������������������������������������������������������������������������������������������������������������������� 42
Is Real-World Experience Unavoidable?�������������������������������������������������������������������������������� 49
Pretraining����������������������������������������������������������������������������������������������������������������������������� 50
Reinforcement Learning�������������������������������������������������������������������������������������������������������� 51
Self-Supervised Learning������������������������������������������������������������������������������������������������������ 53
Summary������������������������������������������������������������������������������������������������������������������������������������ 54
References���������������������������������������������������������������������������������������������������������������������������������� 55

Chapter 3: Introduction to GANs����������������������������������������������������������������������������� 61


GANs������������������������������������������������������������������������������������������������������������������������������������������� 61
CTGAN������������������������������������������������������������������������������������������������������������������������������������ 63
SurfelGAN������������������������������������������������������������������������������������������������������������������������������ 64
Cycle GANs���������������������������������������������������������������������������������������������������������������������������� 65
SinGAN-Seg��������������������������������������������������������������������������������������������������������������������������� 66
MedGAN��������������������������������������������������������������������������������������������������������������������������������� 66
DCGAN����������������������������������������������������������������������������������������������������������������������������������� 67
WGAN������������������������������������������������������������������������������������������������������������������������������������� 68
SeqGAN���������������������������������������������������������������������������������������������������������������������������������� 69
Conditional GAN��������������������������������������������������������������������������������������������������������������������� 70
BigGAN���������������������������������������������������������������������������������������������������������������������������������� 71
Summary������������������������������������������������������������������������������������������������������������������������������������ 72
References���������������������������������������������������������������������������������������������������������������������������������� 72

vi
Table of Contents

Chapter 4: Synthetic Data Generation with R��������������������������������������������������������� 75


Basic Functions Used in Generating Synthetic Data������������������������������������������������������������������� 75
Creating a Value Vector from a Known Univariate Distribution���������������������������������������������� 77
Vector Generation from a Multi-Levels Categorical Variable������������������������������������������������� 78
Multivariate��������������������������������������������������������������������������������������������������������������������������� 78
Multivariate (with correlation)����������������������������������������������������������������������������������������������� 79
Generating an Artificial Neural Network Using Package “nnet” in R������������������������������������������ 84
Augmented Data�������������������������������������������������������������������������������������������������������������������� 90
Image Augmentation Using Torch Package��������������������������������������������������������������������������������� 97
Multivariate Imputation Via “mice” Package in R��������������������������������������������������������������������� 102
Generating Synthetic Data with the “conjurer” Package in R��������������������������������������������������� 114
Creat a Customer����������������������������������������������������������������������������������������������������������������� 115
Creat a Product�������������������������������������������������������������������������������������������������������������������� 117
Creating Transactions���������������������������������������������������������������������������������������������������������� 118
Generating Synthetic Data��������������������������������������������������������������������������������������������������� 119
Generating Synthetic Data with “Synthpop” Package In R������������������������������������������������������� 121
Copula��������������������������������������������������������������������������������������������������������������������������������� 145
t Copula������������������������������������������������������������������������������������������������������������������������������� 147
Normal Copula��������������������������������������������������������������������������������������������������������������������� 150
Gaussian Copula������������������������������������������������������������������������������������������������������������������ 153
Summary���������������������������������������������������������������������������������������������������������������������������������� 157
References�������������������������������������������������������������������������������������������������������������������������������� 157

Chapter 5: Synthetic Data Generation with Python���������������������������������������������� 159


Data Generation with Know Distribution����������������������������������������������������������������������������������� 159
Data with Date information������������������������������������������������������������������������������������������������� 163
Data with Internet information�������������������������������������������������������������������������������������������� 163
A more complex and comprehensive example�������������������������������������������������������������������� 163
Synthetic Data Generation in Regression Problem������������������������������������������������������������������� 164
Gaussian Noise Apply to Regression Model������������������������������������������������������������������������ 168

vii
Table of Contents

Friedman Functions and Symbolic Regression������������������������������������������������������������������������� 172


Make 3d Plot������������������������������������������������������������������������������������������������������������������������ 174
Make3d Plot������������������������������������������������������������������������������������������������������������������������� 177
Synthetic data generation for Classification and Clustering Problems������������������������������������� 182
Classification Problems������������������������������������������������������������������������������������������������������� 183
Clustering Problems������������������������������������������������������������������������������������������������������������ 194
Generation Tabular Synthetic Data by Applying GANs��������������������������������������������������������������� 203
Synthetic data Generation��������������������������������������������������������������������������������������������������� 205
Summary���������������������������������������������������������������������������������������������������������������������������������� 214
Reference���������������������������������������������������������������������������������������������������������������������������������� 214

Index��������������������������������������������������������������������������������������������������������������������� 215

viii
About the Authors
Necmi Gürsakal a statistics professor at Mudanya University
in Turkey, where he shares his experience and knowledge
with his students. Before that, he worked as a faculty member
at the Econometrics Department Bursa Uludağ University
for more than 40 years. Necmi has many published Turkish
books and English and Turkish articles on data science,
machine learning, artificial intelligence, social network
analysis, and big data. In addition, he has served as a
consultant to various business organizations.

Sadullah Çelik a mathematician, statistician, and data


scientist who completed his undergraduate and graduate
education in mathematics and his doctorate in statistics. He
has written Turkish and English numerous articles on big
data, data science, machine learning, multivariate statistics,
and network science. He developed his programming and
machine learning knowledge while writing his doctoral
thesis, Big Data and Its Applications in Statistics. He has
been working as a Research Assistant at Adnan Menderes
University Aydin, for more than 8 years and has extensive
knowledge and experience in big data, data science, machine
learning, and statistics, which he passes on to his students.

ix
About the Authors

Esma Birişçi a programmer, statistician, and operations


researcher with more than 15 years of experience in
computer program development and five years in teaching
students. She developed her programming ability while
studying for her bachelor degree, and knowledge of machine
learning during her master degree program. She completed
her thesis about data augmentation and supervised learning.
Esma transferred to Industrial Engineering and completed
her doctorate program on dynamic and stochastic nonlinear
programming. She studied large-scale optimization and life
cycle assessment, and developed a large-­scale food supply chain system application
using Python. She is currently working at Bursa Uludag University, Turkey, where she
transfers her knowledge to students. In this book, she is proud to be able to explain
Python’s powerful structure.

x
About the Technical Reviewer
Fatih Gökmenoğlu is a researcher focused on synthetic
data, computational intelligence, domain adaptation, and
active learning. He also likes reporting on the results of his
research.
His knowledge closely aligns with computer vision,
especially with deepfake technology. He studies both the
technology itself and ways of countering it.
When he’s not on the computer, you’ll likely find him
spending time with his little daughter, whose development
has many inspirations for his work on machine learning.

xi
Preface
In 2017, The Economist wrote, “The world’s most valuable resource is no longer oil,
but data,” and this becomes truer with every passing day. The gathering and analysis
of massive amounts of data drive the business world, public administration, and
science, giving leaders the information they need to make accurate, strategically-sound
decisions. Although some worry about the implications of this new “data economy,” it is
clear that data is here to stay. Those who can harness the power of data will be in a good
position to shape the future.
To use data ever more efficiently, machine and deep learning—forms of artificial
intelligence (AI)—continue to evolve. And every new development in how data and
AI are used impacts innumerable areas of everyday life. In other words, from banking
to healthcare to scientific research to sports and entertainment, data has become
everything. But, for privacy reasons, it is not always possible to find sufficient data.
As the lines between the real and virtual worlds continue to blur, data scientists have
begun to generate synthetic data, with or without real data, to understand, control, and
regulate decision-making in the real world. Instead of focusing on how to overcome
barriers to data, data professionals have the option of either transforming existing data
for their specific use or producing it synthetically. We have written this book to explore
the importance and meaning of these two avenues through real-world examples. If you
work with or are interested in data science, statistics, machine learning, deep learning, or
AI, this book is for you.
While deep learning models’ huge data needs are a bottleneck for such applications,
synthetic data has allowed these models to be, in a sense, self-fueled. Synthetic data
is still an emerging topic, from healthcare to retail, manufacturing to autonomous
driving. It should be noted that since labeling processes start with real data. Real data,
augmented data, and synthetic data all take place in these deep learning processes.
This book includes examples of Python and R applications for synthetic data
production. We hope that it proves to be as comprehensive as you need it to be.

—Necmi Gürsakal
— Sadullah Çelik
— Esma Birişçi

xiii
Introduction
“The claim is that nature itself operates in a way that is analogous to a priori reasoning.
The way nature operates is, of course, via causation: the processes we see unfolding
around us are causal processes, with earlier stages linked to later ones by causal
relations” [1]. Data is extremely important in the operation of causal relationships and
can be described as the “sine qua non” of these processes. In addition, data quality is
related to quantity and diversity, especially in the AI framework.
Data is the key to understanding causal relationships. Without data, it would
be impossible to understand how the world works. The philosopher David Hume
understood this better than anyone. According to Hume, our knowledge of the world
comes from our experiences. Experiences produce data, which can be stored on a
computer or in the cloud. Based on this data, we can make predictions about what will
happen in the future. These predictions allow us to test our hypotheses and theories. If
our predictions are correct, we can have confidence in our ideas. If they are wrong, we
need to rethink our hypotheses and theories. This cycle of testing and refinement is how
we make progress in science and life. This is how we make progress as scientists and as
human beings.
Many of today’s technology giants, such as Amazon, Facebook, and Google, have
made data-driven decision-making the core of their business models. They have done
this by harnessing the power of big data and AI to make decisions that would otherwise
be impossible. In many ways, these companies are following in the footsteps of Hume,
using data to better understand the world around them.
As technology advances, how we collect and store data also changes. In the past,
data was collected through experiments and observations made by scientists. However,
with the advent of computers and the internet, data can now be collected automatically
and stored in a central location. This has led to a change in the way we think about
knowledge. Instead of knowledge being stored in our minds, it is now something that is
stored in computers and accessed through algorithms.
This change in the way we think about knowledge has had a profound impact on the
way we live and work. In the past, we would have to rely on our memory and experience
to make decisions. However, now we can use data to make more informed decisions.

xv
Introduction

For example, we can use data about the past behavior of consumers to predict what
they might buy in the future. This has led to a more efficient and effective way of doing
business.
In the age of big data, it is more important than ever to have high-quality data to
make accurate predictions. However, it is not only the quantity and quality of the data
that is important but also the diversity. The diversity of data sources is important to
avoid bias and to get a more accurate picture of the world. This is because different data
sources can provide different perspectives on the same issue, which can help to avoid
bias. Furthermore, more data sources can provide a more complete picture of what is
happening in the world.

Machine Learning
In recent years, a method has been developed to teach machines to see, read, and hear
via data input. The point of origin for this is what we think of in the brain as producing
output bypassing inputs through a large network of neurons. In this framework, we
are trying to give machines the ability to learn by modeling artificial neural networks.
Although some authors suggest that the brain does not work that way, this is the path
followed today.
Many machines learning projects in new application areas began with the labeling
of data by humans to initiate machine training. These projects were categorized under
the title of supervised learning. This labeling task is similar to the structured content
analysis applied in social sciences and humanities. Supervised learning is a type of
machine learning that is based on providing the machine with training data that is
already labeled. This allows the machine to learn and generalize from the data to make
predictions about new data. Supervised learning is a powerful tool for many machine
learning applications.
The quality of data used in machine learning studies is crucial for the accuracy
of the findings. A study by Geiger et al. (2020) showed that the data used to train a
machine learning model for credit scoring was of poor quality, which led to an unfair
and inaccurate model. The study highlights the importance of data quality in machine
learning research. Data quality is essential for accurate results. Furthermore, the study
showed how data labeling impacts data quality. About half of the papers using original
human annotation overlap with other papers to some extent, and about 70% of the

xvi
Introduction

papers that use multiple overlaps report metrics of inter-annotator agreement [2]. This
suggests that the data used in these studies is unreliable and that further research is
needed to improve data quality.
As more business decisions are informed by data analysis, more companies are
built on data. However, data quality remains a problem. Unfortunately, “garbage in,
garbage out,” which was a frequently used motto about computers in the past, is valid
in the sense of data sampling, which is also used in the framework of machine learning.
According to the AI logic most employed today, if qualified college graduates have been
successful in obtaining doctorates in the past, they will remain doing so in the future.
In this context, naturally, the way to get a good result in machine learning is to include
“black swans” in our training data, and this is also a problem with our datasets.
A “black swan” is a term used to describe outliers in datasets. It is a rare event that
is difficult to predict and has a major impact on a system. In machine learning, a black
swan event is not represented in the training data but could significantly impact the
results of the machine learning algorithm. Black swans train models to be more robust
to unexpected inputs. It is important to include them in training datasets to avoid biased
results.
Over time, technological development has moved it into the framework of human
decision-making with data and into the decision-making framework of machines. Now,
machines evaluate big data and make decisions with algorithms written by humans.
For example, a driverless car can navigate toward the desired destination by constantly
collecting data on stationary and moving objects around it in various ways. Autonomous
driving is a very important and constantly developing application area for synthetic data.
Autonomous driving systems should be developed at a capability level that can solve
complex and varied traffic problems in simulation. The scenarios we mentioned in these
simulations are sometimes made by gaming engines such as Unreal and Unity. Creating
accurate and useful “synthetic data” with simulations based on real data will be the way
companies will prefer real data that cannot be easily found.
Synthetic data is becoming an increasingly important tool for businesses looking to
improve their AI initiatives and overcome many of the associated challenges. By creating
synthetic data, businesses can shape and form data to their needs and augment and
de-bias their datasets. This makes synthetic data an essential part of any AI strategy.
DataGen, Mostly, Cvedia, Hazy, AI.Reverie, Omniverse, and Anyverse can be counted
among the startups that produce synthetic data. Sample images from synthetic outdoor
datasets produced by such companies can be seen in the given source.

xvii
Introduction

In addition to the benefits mentioned, synthetic data can also help businesses train
their AI models more effectively and efficiently. Businesses can avoid the need for costly
and time-consuming data collection processes by using synthetic data. This can help
businesses save money and resources and get their AI initiatives up and running more
quickly.

Who Is This Book For?


The book is meant for people who want to learn about synthetic data and its
applications. It will prove especially useful for people working in machine learning and
computer vision, as synthetic data can be used to train machine learning models that
can make more accurate predictions about real-world data.
The book is written for the benefit of data scientists, machine learning engineers,
deep learning practitioners, artificial intelligence researchers, data engineers, business
analysts, information technology professionals, students, and anyone interested in
learning more about synthetic data and its applications.

Book Structure
Synthetic data is not originally collected from real-world sources. It is generated by
artificial means, using algorithms or mathematical models, and has many applications
in deep learning, particularly in training neural networks. This book, which discusses the
structure and application of synthetic data, consists of five chapters.
Chapter 1 covers synthetic data, why it is important, and how it can be used in
data science and artificial intelligence applications. This chapter also discusses the
accuracy problems associated with synthetic data, the life cycle of data, and the
tradeoffs between data collection and privacy. Finally, this chapter describes some
applications of synthetic data, including financial services, manufacturing, healthcare,
automotive, robotics, security, social media, marketing, natural language processing,
and computer vision.
Chapter 2 provides information about different ways of generating synthetic data. It
covers how to generate fair synthetic data, as well as how to use video games to create
synthetic data. The chapter also discusses the synthetic-to-real domain gap and how
to overcome it using domain transfer, domain adaptation, and domain randomization.

xviii
Introduction

Finally, the chapter discusses whether a real-world experience is necessary for training
machine learning models and, if not, how to achieve it using pretraining, reinforcement
learning, and self-supervised learning.
Chapter 3 explains the content and purpose of a generative adversarial network, or
GAN, a type of AI used to generate new data, like training data.
Chapter 4 explores synthetic data generation with R.
Chapter 5 covers different methods of synthetic data generation with Python.

Learning Outcomes of the Book


Readers of this book will learn about the various types of synthetic data, how to create
them, and their benefits and challenges. They will also learn about its importance in data
science and artificial intelligence. Furthermore, readers will come away understanding
how to employ automatic data labeling and how GANs can be used to generate synthetic
data. Lastly, readers who complete this book will know how to generate synthetic data
using the R and Python programming languages.

Source Code
The datasets and source code used in this book can be downloaded from ­github.com/
apress/synthetic-data-deep-learning.

References
[1]. M. Rozemund, “The Nature of the Mind,” in The Blackwell Guide
to Descartes’ Meditations, S. Gaukroger, John Wiley & Sons, 2006.

[2]. R. S. Geiger et al., “Garbage In, Garbage Out?,” in Proceedings of the


2020 Conference on Fairness, Accountability, and Transparency,
Jan. 2020, pp. 325–336. doi: 10.1145/3351095.3372862.

xix
CHAPTER 1

An Introduction
to Synthetic Data
In this chapter, we will explore the concept of data and its importance in today’s world.
We will discuss the lifecycle of data from collection to storage and how synthetic data can
be used to improve accuracy in data science and artificial intelligence (AI) applications.
Next, we will explore of synthetic data applications in financial services, manufacturing,
healthcare, automotive, robotics, security, social media, and marketing. Finally, we
will examine natural language processing, computer vision, understanding of visual
scenes, and segmentation problems in terms of synthetic data.

What Synthetic Data is?


Despite 21st-century advances in data collection and analysis, there is still a lack of
understanding of how to properly utilize data to minimize the perceived ambiguity or
subjectivity of the information it represents. This is because the same meaning can be
expressed in a variety of ways, and a single expression can have multiple meanings. As
a result, it is difficult to create a comprehensive framework for data interpretation that
considers all of the potential nuances and implications of the information. One way to
overcome this challenge is to develop standardized methods for data collection and
analysis. This will ensure that data is collected consistently and that the results can be
compared across different studies and synthetic data can help us do just that.
People generally view synthetic data as being less reliable than data that is obtained
by direct measurement. Put simply, Synthetic data is data that is generated by a
computer program rather than being collected from real-world sources. While synthetic
data is often less reliable than data that is collected directly from the real world, it is still
an essential tool for data scientists. This is because synthetic data can be used to test

1
© Necmi Gürsakal, Sadullah Çelik, and Esma Birişçi 2022
N. Gürsakal et al., Synthetic Data for Deep Learning, https://doi.org/10.1007/978-1-4842-8587-9_1
Chapter 1 An Introduction to Synthetic Data

hypotheses and models before they are applied to real-world data. This can help data
scientists avoid making errors that could have negative consequences in the real world.
Synthetic data that is artificially generated by a computer program or simulation,
rather than being collected from real-world sources [11]. When we examine this
definition, we see that the following concepts are included in the definition:
“Annotated information, computer simulations, algorithm, and “not measured in a
real-world”.
The key features of synthetic data are as follows:

• Not obtained by direct measurement

• Generated via an algorithm

• Associated with a mathematical or statistical model

• Mimics real data

Now let’s explain why synthetic data is important.

Why is Synthetic Data Important?


Humans have a habit of creating synthetic versions of expensive products. Silk is an
expensive product that began to be used thousands of years ago, and rayon was created
in the 1880s. So, it’s little surprise that people would do the same with data, choosing
to produce synthetic data because it is cost-effective. As mentioned earlier, synthetic
data allows scientists to test hypotheses and models in a controlled environment it can
also be used to create “what if” scenarios, helping data scientists to better understand
the outcomes of their models.
Likewise, synthetic data can be used in a variety of ways to improve machine
learning models and protect the privacy of real data. First, synthetic data can be used
to train machine learning models when real data is not available. This is especially
important for developing countries, where data is often scarce. Second, synthetic data
can be used to test machine learning models before deploying them on real data. This is
important for ensuring that models work as intended and won’t compromise the real
data. Finally, synthetic data can be used to protect the privacy of real data by generating
data that is similar to real data but does not contain any personal information.
Synthetic data also provides more control than real data. Actual data comes from
many different sources, which can result in datasets so large and diverse that they
become unwieldy. Because synthetic data is created using a model whose data is
2
Chapter 1 An Introduction to Synthetic Data

generated for a specific purpose, it will not be randomly scattered. In some cases,
synthetic data may even be of a higher quality than real data. Actual data may need to be
over-processed when necessary, and too much data may be processed when necessary.
These actions can reduce the quality of the data. Synthetic data, on the other hand, can
be of higher quality, thanks to the model used to generate the data.
Overall, synthetic data has many advantages over real data. Synthetic data is more
controlled, of higher quality, and can be generated in the desired quantities. These
factors make synthetic data a valuable tool for many applications. A final reason why
synthetic data is important is that it can be used to generate data for research purposes,
allowing researchers to study data that is not biased or otherwise not representative of
the real data.
Now let’s explain the importance of synthetic data for data science and artificial
intelligence.

Synthetic Data for Data Science and Artificial Intelligence


The use of synthetic data is not a new concept. In the early days of data science and AI,
synthetic data was used to train machine learning models. However, synthetic data of the
past was often low-quality and not realistic enough to be useful for training today’s more
sophisticated AI models.
Recent advances in data generation techniques, such as Generative Adversarial
Networks (GANs), have made it possible to generate synthetic data that is virtually
indistinguishable from real-world data. This high-quality synthetic data is often referred
to as “realistic synthetic data”.
The use of realistic synthetic data has the potential to transform the data science and
AI fields. Realistic synthetic data can be used to train machine learning models without
the need for real-world data. This is especially beneficial in cases where real-world data
is scarce, expensive, or difficult to obtain.
In addition, realistic synthetic data can be used to create “virtual environments” for
testing and experimentation. These virtual environments can be used to test machine
learning models in a safe and controlled manner, without the need for real-world data.
For example, a computer algorithm might be used to generate realistic-looking
images of people or objects. This could be used to train a machine learning system
to better recognize these objects in real-world images. Alternatively, synthetic data
could be used instead of real-world data if the latter is not available or is too expensive
to obtain.
3
Chapter 1 An Introduction to Synthetic Data

Overall, the use of synthetic data is a promising new trend in data science and
AI. The ability to generate high-quality synthetic data is opening new possibilities for
training and experimentation. For example, a synthetic data set could be created that
contains 6000 words, instead of the usual 2000. This would allow the AI system to learn
from a larger and more diverse data set, which would in turn improve its performance
on real-world data. In the future, synthetic data is likely to play an increasingly important
role in the data science and AI fields.
Let us now consider accuracy problems in terms of synthetic data.

Accuracy Problems
Supervised learning algorithms are trained with labeled data. In this method, the data
is commonly named “ground truth”, and the test data is called “holdout data”. We have
three types to compare accuracies across algorithms [2]:

• Estimator score method: An estimator is a number that is used to


estimate, or guess, the value of something. The score method is a
way to decide how good an estimator is by analyzing how close the
estimator’s guesses are to the actual value.

• Scoring parameter: Cross-validation is a model-evaluation technique


that relies on an internal scoring strategy.

• Metric functions: The sklearn.metrics module provides functions for


assessing prediction error for specific purposes.

It’s important to acknowledge that the accuracy of synthetic data can be


problematic for several reasons. First, the data may be generated by a process that is not
representative of the real-world process that the data is meant to represent. This can lead
to inaccuracies in the synthetic data that may not be present in real-world data. Second,
the data may be generated with a specific goal in mind, such as training a machine
learning algorithm, that does not match the goal of the data’s user of the synthetic data.
This can also lead to inaccuracies in the synthetic data. Finally, synthetic data may be
generated using a stochastic process, which can introduce randomness into the data that
may not be present in real-world data. This randomness can also lead to inaccuracies in
the synthetic data.

4
Chapter 1 An Introduction to Synthetic Data

One way to overcome potential issues with accuracy in machine learning is to


use synthetic data. This can be done by automatically tagging and preparing data for
machine learning algorithms, which cuts down on the time and resources needed to
create a training dataset. This also creates a more consistent dataset that is less likely
to contain errors. Another way to improve accuracy in machine learning is to use a
larger training dataset. This will typically result in better performance from the machine
learning algorithm.
Working on the recognition and classification of aircraft from satellite photos, the
Airbus and OneView companies, in their studies on data for machine learning, achieved
accuracy of 88% versus 82% with the simulated dataset of OneView company, compared
to data consisting of only of real data. When real data and synthetic data are used
in a mixed way, an accuracy of ~ 90% is obtained, and this number represents an
8% improvement over real-only real data [3]. This improved accuracy is due to the
increased variety of data that is available when both real and simulated data are used.
The increased variety of data allows the machine learning algorithm to better learn the
underlying patterns of the data. This improved accuracy is significant and can lead to
better decision-making in a variety of applications.
Now let’s examine the life cycle of data in terms of synthetic data.

The Lifecycle of Data


Before leveraging the power of synthetic data, it’s important to understand the lifecycle
of data. First, it can help organizations to better manage their data; by understanding
the stages that data goes through, organizations can more effectively control how data
is used and prevent unauthorized access. Additionally, the data lifecycle can help
organizations ensure that their data is of high quality. Finally, the data lifecycle can help
organizations plan for the eventual destruction of data; by understanding when data
is no longer needed, organizations can ensure that they do not keep data longer than
necessary, which can both save space and reduce costs.
The data lifecycle is the process of managing data from its creation to its eventual
disposal. Figure 1-1 shows the five main phases of the data lifecycle.

5
Chapter 1 An Introduction to Synthetic Data

ĂƚĂ ĐƌĞĂƟŽŶ

ĂƚĂ ĞŶƚƌLJ ĂŶĚ


ĂƚĂĚŝƐƉŽƐĂů
ƐƚŽƌĂŐĞ

ĂƚĂ ůŝĨĞĐLJĐůĞ

ĂƚĂ ŽƵƚƉƵƚ
ĂŶĚ ĂƚĂƉƌŽƐƐĞƐŝŶŐ
ĚŝƐƐĞŵŝŶĂƟŽŶ

Figure 1-1. Data lifecycle

In the context of synthetic data, the data life cycle refers to the process of generating,
storing, manipulating, and outputting synthetic data. This process is typically carried
out by computers and involves the use of algorithms and rules to generate data that
resembles real-world data.
Following are the five stages of the data lifecycle:

1. Data creation: The first stage of the data lifecycle is data creation. This is
the stage at which synthetic data is first generated, either through direct
input or through the capture of information from an external source.

2. Data entry and storage: This stage involves the entry of synthetic
data into a computer system and its storage in a database. Data
entry and storage typically involve the use of algorithms or rules to
generate data that resembles real-world data.

3. Data processing: This stage covers the manipulation of synthetic


data within the computer system, to convert it into a format
that is more useful format for users. This may involve the use of
algorithms and the application of rules and filters. Data processing
typically involves the use of algorithms or rules to generate data
that resembles real-world data.
6
Chapter 1 An Introduction to Synthetic Data

4. Data output and dissemination: This stage is the process of


generating synthetic data from a computer system and making it
available to users. This may involve the generation of reports, the
creation of graphs and charts, or the output of data in a format
that can be imported into another system.

5. Data disposal: The final stage of the data lifecycle is data disposal.
This stage covers the disposal of synthetic data that is no longer
needed. This may involve the deletion of data from a database or
the physical destruction of storage media. Data disposal typically
involves the use of algorithms or rules to generate.

Reinforcement learning algorithms are used to learn how to do things by interacting


with an environment. However, these algorithms can be inefficient, meaning they need
a lot of interactions to learn well. To address this issue, some people are using external
sources of knowledge, such as data from demonstrations or observations. This data can
come from experts, real-world demonstrations, simulations, or synthetic demonstrations.
Researchers at Google and DeepMind think that datasets also have a lifecycle and
they summarize the lifecycle of datasets in three stages: Producing the data, consuming
the data, and sharing the data [4].
In the production data phase, users record their interactions with the environment
and provide datasets. At this stage, users add additional information to the data
automatically or manually labeling or filtering the data.
In the consuming the data phase, researchers analyze and visualize datasets or use
them to train algorithms for machine learning purposes.
In the sharing the data stage, researchers often share their data with other
researchers to help with their reserach. When researchers share data, it makes it easier
for other researchers to run and validate new algorithms. However, the researchers who
produced the data still own it and should be given credit for their work.
Let’s now consider data collection and privacy issues in terms of synthetic data.

Data Collection versus Privacy


Data can be collected in many ways. For example, data from radar, LIDAR, and the
camera systems of driverless cars can be taken and fused into a format usable for
decision making. Considering that fusion data is also virtual data, it is necessary to
think in detail about the importance of real and virtual data. So, since real data can be

7
Chapter 1 An Introduction to Synthetic Data

converted into virtual data, and used or augmented data can be used together with real
data in machine learning, these two data types are important for us. This is sometimes
referred to as the Ensemble Method.
In the Ensemble Method, a few basic models can be combined to create an optimal
predictive model; Why can’t the data be fused, and more qualified data can be obtained?
Labeling the data is tedious and costly, as machine learning models require large and
diverse data to produce good results. Therefore creating synthetic data by transforming
real data using with data augmentation techniques or directly generating synthetic data
and using it as an alternative to real data can reduce transaction costs. According to
Gartner, by 2030, there will be more synthetic data than real data in AI models.
Another issue that synthetic data can help overcome is that of data privacy.

Data Privacy and Synthetic Data


Today, many institutions and organizations use large amounts of data to forecast, create
policies, plan, and achieve higher profit margins. By using this data, they can better
understand the world around them and make more informed decisions. However, due
to privacy restrictions and guarantees given to personal data, only the personnel of the
institutions have full access to such data. Anonymization techniques are used to prevent
the identities of data subjects from being revealed. Sure, data collectors can maintain
data privacy by using aggregation, recoding, record exchange, suppression of sensitive
values, and random error insertion, data collectors can maintain data privacy. However,
advances in computer and cloud technologies are likely to make such measures
insufficient to maintain data privacy. We’ll explore some examples in the next section.
In today’s world, with the advances in information technology, patient data, and
driver the data, of those using vehicles the data obtained by research companies from
public opinion surveys have reached enormous amounts. However, most of the time, when
this data is used to find new solutions, the concept of “individual privacy” comes up. This
problem is overcome by anonymizing the data, which is the process of modifying the data
to eliminate any information that could lead to privacy intrusion. Anonymizing data is
important to protect people’s privacy, as even without personal identifiers, the remaining
attributes in the data may still be used to re-identify an individual. In the simplest form of
data anonymization, all personal identifiers are removed. However, it has been shown that

8
Chapter 1 An Introduction to Synthetic Data

this is not enough to protect people’s privacy. Therefore, it is important to fully anonymize
data possible to protect people’s privacy rights.
Most people think that privacy is protected by anonymization. This is when there
is no name, surname, or any sign to indicate identity in the database. However, this is
not always accurate. This means that if you have an account on both Twitter and Flickr,
there’s a good chance that someone could identify you from the anonymous Twitter
graph. However, the error rate is only 12%, so the chances are still pretty good that you
won’t be identified [14]. Even though the chances of being identified are relatively low,
it is still important to be aware of the potential risks of sharing personal information
online. Anonymity is not a guarantee of privacy, and even seemingly innocuous
information can identify individuals in certain cases. Therefore, exercising caution is
required when sharing personal information online, even if it is ostensibly anonymous.
Anonymization and labeling are two primary techniques in AI applications.
However, both techniques have their own set of problems. Anonymization can lead
to the loss of vital information, while labeling can introduce bias and be costly to
implement. In addition, hand-labeled data might not be high quality because it is often
mislabeled. To overcome these problems, researchers have proposed various methods,
such as semi-supervised learning and active learning. However, these methods are still
not perfect, and further research is needed to improve them.

The Bottom Line


The collection of more data with increasing data sources makes it necessary for businesses
to take security measures against information attacks. In some cases, businesses need more
data than is available to innovate in certain areas. In some cases, more data may be necessary
due to a lack of practical research or high costs of data collection. Many businesses generate
data programmatically in the real world to obtain otherwise unattainable information. The
use of synthetic data is becoming increasingly popular as businesses attempt to collect more
data and test different scenarios. Synthetic data is created by computer programs and is
designed to mimic real-world data. This allows businesses to gather data more efficiently
and to test various scenarios to see what may happen in the real world.
The world is becoming more data-centric, so businesses are starting to use computer
programs to create data similar to data gathered from the real world. This is useful
because it facilitates data collection and helps businesses test different scenarios to see
what will happen in the real world.
Now let’s examine synthetic data and data quality.

9
Chapter 1 An Introduction to Synthetic Data

Synthetic Data and Data Quality


When working on AI projects, it is important to focus on data quality. It all starts there; if
data quality is poor, the AI system will be fatally compromised. Data cascades can occur
when AI practitioners apply conventional AI practices that don’t value data quality. Most
AI practitioners (92%) have reported experiencing one or more data cascades. This often
happens because they applied conventional AI practices that didn’t value data quality. For
this reason, it is important to use high-quality data when training deep learning networks [5].
Andrew Ng has said that “Data is food for AI” and that the issue of data quality should be
focused on data more than the model/algorithm [6]. The use of synthetic data can help
to address the issue of data quality in AI projects. This is because synthetic data can be
generated to be of high quality, and it can be generated to be representative of the real-world
data that the AI system will be used on. This means that the AI system trained on synthetic
data will be more likely to generalize well to the real world.
AI technologies in particular use synthetic data intensively. Just a few examples
include medicine, where synthetic data is used extensively to test specific conditions
and cases for which real data is not available; self-driving cars, such as the ones used
by Uber and Google, are trained using synthetic data; fraud detection and protection
in the financial industry is facilitated using synthetic data. Synthetic data gives data
professionals access to centrally stored data while maintaining the privacy of the data. In
addition, synthetic data reproduce important features of real data without revealing its
true meaning and protects confidentiality. In research departments, on the other hand,
synthetic data is used to develop and deliver innovative products for which the necessary
data may not be available [7]. Overall, the use of synthetic data is extremely beneficial
as it allows for the testing of new products and services while maintaining the privacy of
the original data. Synthetic data is also incredibly versatile and can be used in a variety
of different industries and applications. In the future, the use of synthetic data is likely to
become even more widespread as the benefits of using it become more widely known.
Let us now examine some of synthetic data applications.

Aplications of Synthetic Data


Synthetic data is often used in financial services, manufacturing, healthcare, automotive,
robotics, security, social media, and marketing.
Let’s first quickly explore how synthetic data cen be used in finance.

10
Chapter 1 An Introduction to Synthetic Data

Financial Services
The use of synthetic data is becoming increasingly important in financial services as the
industry moves towards more data-driven decision-making. Synthetic data can be used
to supplement or replace traditional data sources, providing a more complete picture of
the underlying risk.
Financial services is an industry that is highly regulated and subject to constant
change. New rules and regulations are constantly being introduced, and the industry is
constantly evolving. As a result, it can be difficult for financial institutions to keep up with
the changes and ensure that their data is compliant.
Synthetic data can be used to generate data that is compliant with the latest rules and
regulations. This can help financial institutions avoid the costly fines and penalties that
can be associated with non-compliance. In addition, synthetic data can be used to test
new products and services before they are launched. This can help financial institutions
avoid the costly mistakes that can be made when launching new products and services.
Synthetic data can also help to improve the accuracy of risk models by providing a
more complete picture of underlying risks. For example, consider a portfolio of loans.
Traditional data sources may only provide information on the loan amount, interest rate,
and term. However, synthetic data can provide additional information on the borrower’s
credit score, employment history, and other factors that can impact the risk of default.
This additional information can help to improve the accuracy of the risk model.
Another key benefit of synthetic data is that it can provide a way to test and validate
models before they are deployed in live environments. This is because synthetic data can
be generated with known values for the inputs and outputs. This allows for the testing
of models under a variety of different scenarios, which can help to identify any potential
issues before the model is deployed in a live environment.
Synthetic data can be used in financial services in a variety of other ways. For
example, it can be used to:

• Generate realistic scenarios for stress testing and risk


management: Generating synthetic data can help financial
institutions to identify potential risks and to develop plans for dealing
with them. This can be used to generate realistic scenarios for stress
testing and risk management purposes. Doing so can help to improve
the resilience of the financial system.

11
Chapter 1 An Introduction to Synthetic Data

• Train machine learning models: Synthetic data can help train


machine learning models for tasks such as fraud detection and credit
scoring. This can automate processes for financial institutions and
make them more efficient.

• Generate synthetic transactions: Synthetic data can be used


to generate synthetic transactions, which can help financial
institutions test new products and services, or simulate market
conditions.

• Generate synthetic customer data: Financial institutions can use


synthetic data to generate synthetic customer data. This can help
them to test new customer acquisition strategies or to evaluate
customer service levels.

• Generate synthetic financial data: Synthetic data can be used


to generate synthetic financial data. This can help financial
institutions to test new financial products or to evaluate the impact of
new regulations.

Finally, synthetic data can help to reduce the cost of data acquisition and storage.
This is because synthetic data can be generated on-demand, as needed. This eliminates
the need to store large amounts of data, which can save on both the cost of data
acquisition and storage.
Now, let’s look at how synthetic data can be used in the manufacturing field.

Manufacturing
In the world of manufacturing, data is used to help inform decision-makers about
various aspects of the manufacturing process, from production line efficiency to quality
control. In some cases, this data is easy to come by- for example, data on production
line outputs can be gathered through sensors and other monitoring devices. However,
in other cases, data can be much more difficult to obtain. For example, data on the
performance of individual components within a production line may be hard to come by
or may be prohibitively expensive to gather. In these cases, synthetic data can be used to
fill in the gaps.
In many manufacturing settings, it is difficult or impossible to obtain real-world
data that can be used to train models. This is often due to the proprietary nature of

12
Chapter 1 An Introduction to Synthetic Data

manufacturing processes, which can make it difficult to obtain data from inside a
factory. Additionally, the data collected in a manufacturing setting may be too noisy or
unrepresentative to be useful for training models.
To address these issues, synthetic data can be used to train models for
manufacturing applications. However, it is important to consider both the advantages
and disadvantages of using synthetic data before deciding whether it is the right choice
for a particular application.
Synthetic data can be employed in manufacturing in several ways. First, synthetic
data can be used to train machine learning models that can be used to automate
various tasks in the manufacturing process. This can improve the efficiency of the
manufacturing process and help to reduce costs. Second, synthetic data can be used to
test and validate manufacturing processes and equipment. This can help to ensure that
the manufacturing process is running smoothly, and that the equipment is operating
correctly. Third, synthetic data can be used to monitor the manufacturing process and to
identify potential problems. This can help to improve the quality of the products being
produced and to avoid costly manufacturing defects.
Synthetic data can be used to improve the efficiency of data-driven models. This
is because synthetic data can be generated much faster than real-world data. This is
important because it is allowing manufacturers to train data-driven models faster and
get them to market quicker.
The use of synthetic data is widespread in the manufacturing industry. It helps
companies to improve product quality, reduce manufacturing costs, and improve
process efficiency. Some examples of the use of synthetic data in manufacturing are as
follows:

• Quality Control: Synthetic data can be used to create models that


predict the likelihood of defects in products. This information can be
used to improve quality control procedures.

• Cost Reduction: The use of synthetic data can help identify patterns
in manufacturing processes that lead to increased costs. This
information can be used to develop strategies for reducing costs,
thereby reducing the overall cost of production.
• Efficiency Improvement: Synthetic data can be used to create
models that predict the efficiency of manufacturing processes. This
information can be used to improve process efficiency.

13
Chapter 1 An Introduction to Synthetic Data

• Product Development: Synthetic data can help improve product


development processes by predicting the performance of new
products. In this way, it can be decided which products to monitor
and how to develop them.

• Production Planning: Production planning can be done by using


synthetic data to create models that predict the demand for products.
In this way, businesses can improve their production planning by
making better predictions about future demand.

• Maintenance: Synthetic data can be used to create models that


predict the probability of equipment failures. In this way, preventive
measures can be taken, and maintenance processes can be improved
by predicting when equipment will fail.

Now, let’s quickly explore how synthetic data can be employed in the
healthcare realm.

Healthcare
The most obvious benefit of utilizing synthetic data in healthcare is to protect the
privacy of patients. By using synthetic data, healthcare organizations can create models
and simulations that are based on real data but do not contain any actual patient
information. This can be extremely helpful in situations where patient privacy is of
paramount concern, such as when developing new treatments or testing new medical
devices.
The use of synthetic data will evolve in line with the needs and requirements of
health institutions. However, the following are some of the most common reasons why
healthcare organizations might use synthetic data include:

• Machine learning models: One of the most common reasons why


healthcare organizations use synthetic data is to train machine
learning models. This is because synthetic data can be generated in a
controlled environment, which allows for more reliable results.
• Artificial intelligence: synthetic data can be used to identify patterns
in patient data that may be indicative of a particular condition
or disease. This can then be used to help diagnose patients more
accurately and to also help predict how they are likely to respond
14
Chapter 1 An Introduction to Synthetic Data

to treatment. This is extremely important in terms of ensuring that


patients receive the most effective care possible.

• Protect privacy: One of the biggest challenges in the healthcare


industry is the reliable sharing of data. Health data is very important
for doctors to diagnose and treat patients quickly. For this reason,
many hospitals and health institutions attach great importance to
patient data. Synthetic data help provide the best possible treatment.
In addition, synthetic data is a technology that will help healthcare
organizations share information while protecting personal privacy.

• Treatments: Another common reason why healthcare organizations


use synthetic data is to test new treatments. This is because synthetic
data can be used to create realistic simulations of real-world
conditions, which can help to identify potential side effects or issues
with a new treatment before it is used on real patients.

• To help design new drugs and to test their efficacy.

• Improve patient care: Healthcare organizations can also use synthetic


data to improve patient care. This is because synthetic data can be
used to create realistic simulations of real-world conditions, which
can help healthcare professionals to identify potential issues and
make better-informed decisions about patient care.

• Reduce costs: Healthcare organizations can also use synthetic data to


reduce cost. This is because synthetic data can be generated relatively
cheaply, which can help to reduce the overall costs associated with
real-world data collection and analysis.

• Several hospitals are now using synthetic data in the health sector
to improve the quality of care that they can provide. This is being
one in several different ways, but one of the most common is to use
computer simulations. This allows for a more realistic representation
of patients and their conditions, which can then be used to test
out new treatments or procedures. This can be extremely beneficial
in reducing the risk of complications and ensuring that patients
receive the best possible care.

15
Chapter 1 An Introduction to Synthetic Data

Overall, the use of synthetic data in the health sector is extremely beneficial. It
is helping to improve the quality of care that is being provided and is also helping to
reduce the risk of complications. In addition, it is also helping to speed up the process of
diagnosis and treatment.
Now let’s look at how synthetic data can be used in the automotive industry field.

Automotive
Another application of synthetic data in the automotive industry is autonomous
driving. A large amount of data is needed to train an autonomous driving system. This
data can be used to train a machine learning model that can then be used to make
predictions about how the autonomous driving system should behave in different
situations. However, real-world data is often scarce, expensive, and difficult to obtain.
Another important application of synthetic data in automotive is in safety-critical
systems. To ensure the safety of a vehicle, it is important essential to be able to test
the systems in a variety of scenarios. Synthetic data can be used to generated data for all
the different scenarios that need to be tested. This is important because it allows for to
provide more thorough testing of system and helps ensure the safety of the vehicle.
Overall, synthetic data has to potential to be a valuable tool for the automotive
industry. It can be used to speed up the development process and to generate large
quantities of data. However, it is important to be aware of the challenges associated with
synthetic data and to ensure that it is used in a way that maximizes its benefits.
There are a few reasons why automotive companies need synthetic data. The first
has to do with the development of new technologies a large amount of data. In order to
create and test new features or technologies, companies need a large amount of data.
This data is used to train algorithms that will eventually be used in the product. However,
collecting this data can be difficult, time-consuming, and expensive.
Another reason automotive companies need synthetic data is for testing
purposes. Before a new product is released, it needs to go through rigorous testing.
This testing often includes putting the product through a range of different scenarios.
However, it can be difficult to test every single scenario in the real world. This is where
synthetic data comes in. It can be used to create realistic test scenarios that would be
difficult or impossible to re-create in the real world.

16
Chapter 1 An Introduction to Synthetic Data

Synthetic data can be used for marketing purposes. Automotive companies


also often use data to create marketing materials such as ads or website content.
However, this data can be difficult to obtain. Synthetic data can be used to create
realistic marketing scenarios that can be used to test different marketing strategies.
In conclusion, synthetic data is needed in automotive industry for a variety of
reasons. It can be used to create realistic test scenarios, train algorithms, and create
marketing materials.
Now let’s look at how synthetic data is used in the robotics field.

Robotics
Robots are machines that can be programmed to do specific tasks. Sometimes these
tasks are very simple, like moving a piece of paper from one place to another. Other
times, the tasks are more complex, like moving around in the world and doing things
that humans can do, like solving a Rubik’s Cube. Creating robots that can do complex
tasks is a challenge because the robots need a lot of training data to behave like humans.
This data can be generated by simulations, which is a way of creating a model of how the
robot will behave.
There are several reasons why synthetic data is needed in robotics. The first is that
real-world data is often scarce. This is especially true for data needed to train machine
learning models, a key component of robotics. Synthetic data can be used to supplement
real-world data and, in some cases, to replace them entirely. Second, real-world data is
often noisy. This noise can come from a variety of sources, such as sensors, actuators,
and the environment. Synthetic data can be used to generate noise-free data that can be
helpful for training machine learning models. The third reason is that collecting real-­
world data is often expensive. This is especially true for data needed to train machine
learning models. Synthetic data can be used to generate data that is much cheaper to
collect. A fourth reason is that real-world data is often biased. This bias can come from
a variety of sources, such as sensors, actuators, and the environment. Synthetic data
can be used to generate bias-free data that can be helpful for training machine learning
models. The fifth reason synthetic data is needed in robotics is that real-world data is
often unrepresentative. This is especially true for data needed to train machine learning
models. Synthetic data can be used to create data that better represents the real world,
which can be helpful for training machine learning models.

17
Chapter 1 An Introduction to Synthetic Data

Robots can learn to identify and respond to different types of objects by using
synthetic data. By learning from this data, the robot can learn how to better identify and
respond to different types of human behavior. For example, a robot might be given a set
of synthetic data that includes variousa variety of different types of human behavior and
how to respond to them.
Now let’s look at how synthetic data can be used in security field.

Security
Synthetic data can play a vital role in enhancing security, both through its ability to
train machine learning models to better detect security threats and by providing it also
provides a means way of testing security systems and measuring their effectiveness.
Machine learning models that are trained on synthetic data are more effective at
detecting security threats because they are not limited by available the real-world data
that is available synthetic data can be generated to match any desired distribution,
including distributions that are not present in the real world. This allows machine
learning models to learn more about the underlying distribution of data, and to better
identify outliers that may represent security threats.
Testing security systems with synthetic data is important because it allows a
controlled environmentets for measure the system’s performance. Synthetic data can
be generated to match any desired distribution of security threats, making it possible to
test how well a security system can detect and respond to a wide variety of threats. This
is importnat because real-world data is often limited in scope and may not be
representative of the full range of security threats that a system may encounter.
Overall, the use of synthetic data is importnat essential for both training machine
learning models to detect security threats and for testing the performance of security
systems. Synthetic data provides a more complete picture of the underlying distribution
of data which leads to better improves the detection of security threats. Additionally,
synthetic data can be used to create controlled environments for testing security system
performance, making it possible to measure the effectiveness of a security system more
accurately.
Now, let’s quickly explore how synthetic data can be employed in the social
media realm.

18
Chapter 1 An Introduction to Synthetic Data

Social Media
Social media has become an integral part of our lives. It is a platform where we share our
thoughts, ideas, and feelings with our friends and family. However, social media has also
become a breeding ground for fake news and misinformation. This is because anyone
can create a fake account and spread false information.
To combat this problem, many social media platforms are now using AI to detect
fake accounts and flag them. However, AI can only be as effective as the data it is trained
on. If the data is biased or inaccurate, the AI ​​will also be biased or inaccurate. This is
where synthetic data comes in. Synthetic data can be used to train AI algorithms to be
more accurate in detecting fake accounts. Synthetic data can help reduce the spread of
fake news and misinformation on social media.
One way to generate synthetic data is to use generative models. For example, a
generative model could be trained on a dataset of real images of people. Once trained,
the model could then generate new images of people that look real but are fake. This is
important because it allows us to creates data that is representative of the real world.
Simulation is another way of generating synthetic data. For example, we could create
a simulation of a social media platform. This simulation would include all the same
features as the real social media platform. However, it would also allows us to control
what data is generated. This is important because it allows us to test different scenarios.
For example, we could test what would happen if a certain percentage of accounts were
fake. This would allow us to see how our AI algorithms would react in the real world.
Some social media platforms that have been known to use synthetic data include
Facebook, Google, and Twitter; Each of this platforms has used synthetic data in
different ways and for different purposes.
Facebook has been known to uses synthetic data to train its algorithms. For example,
Facebook has used synthetic data to train its facial recognition algorithms. Because it
is difficult to obtain a large enough dataset of real-world faces to train these algorithms
effectively. In addition, Facebook has also used synthetic data to generate fake user
profiles. This is done to test how effective plartfom algorithms are at detecting fake
profiles.
In addition to using real data, Google has been known to use synthetic data.
Synthetic data is generated data that is designed to mimic real data. For example, Google
has to used synthetic data to train its machine learning algorithms to better understand
natural language. Google has also used synthetic data to generate fake reviews. This is
done to test how effective the platform’s algorithms at detectare detecting fake reviews.

19
Chapter 1 An Introduction to Synthetic Data

Twitter is also known to use synthetic data. The platform has used synthetic data
to generate fake tweets and fake user profiles to test how effective its algorithms are
at detecting detect them.
Now, let’s quickly explore how synthetic data can be employed in
the marketing realm.

Marketing
There are many benefits to using synthetic data in marketing. Perhaps the most obvious
benefit is that it can be used to generate data that would be otherwise unavailable.
This is especially useful for marketing research, as because it can be used to generate
data about consumer behavior that would be difficult or impossible to obtain through
traditional means.
The use of synthetic data in marketing is important for several reasons. First, it allows
marketing researchers to study behavior in a controlled environment. This is important
because it allows for the isolation of variables and the testing of hypotheses in a way that
would not be possible with real-world data. Second, synthetic data can be used to
generate new insights into consumer behavior. By analyzing how consumers behave in
a simulated environment, marketing researchers can develop new theories and models
that can be applied to real-world data. Finally, synthetic data can be used to evaluate
marketing campaigns and strategies. By testing campaigns and strategies in a simulated
environment, marketers can identify which ones are most likely to be successful in the
real world.
Synthetic data is also needed in marketing because it can be used to protect
the privacy of real customers. By using synthetic data instead of real customer data,
marketers can avoid having to collect and store sensitive information about their
customers. This is especially important for businesses that are subject to strict privacy
laws, such as those in the European Union.
Several marketing organizations use synthetic data to get a better understanding
of customer behavior and to improve marketing strategies. Each of these organizations
uses synthetic data in different ways, but all of them utilize it to gain insights into the
behavior of consumers.

20
Chapter 1 An Introduction to Synthetic Data

Natural Language Processing


Language models are trained on a large corpus of text and can be used to generate
new text that is similar to the training data. Language models can be used to generate
synthetic data that is representative of different groups of people [8] or to generate data
with specific properties.
Natural language processing (NLP) is a subfield of AI that deals with the
interpretation and manipulation of human language. NLP is used in a variety of
applications, including text classification, chatbots, and machine translation. NLP helps
computers to understand, interpret, and manipulate human language [9].
One area where NLP will likely have a significant impact is in the generation of
synthetic data. Synethetic data that is generated by artificial means, as opposed to
being collected from real-world sources. Synthetic data can be used to train machine
learning models [10], and NLP can be used to generate synthetic data that is realistic
and diverse. This is important because it allows machine learning models to be trained
on data that is representative of the real world, which can improve the accuracy of the
models. For example, synthetic data can be used to generate realistic images of people or
objects that don’t exist in the real world or to create simulated environments for training
autonomous vehicles. Machine learning models trained on data that is representative of
the real world have improved accuracy.
In addition, NLP can be used to automatically label synthetic data, which is
important for training supervised machine learning models. For example, NLP can be
used to also automatically generate descriptions of images or videos, which can then
be used as labels for training image recognition or object detection models. This is
important for training supervised machine learining models, as it can help reduce the
amount of manual labeling that is required.
Overall, NLP is a powerful tool for generating and manipulating synthetic data. It
can be used to automatically generate large amounts of realistic data, which is important
for training machine learning models. In addition, NLP can automatically label synthetic
data, which is important for training supervised machine learning models.
Consequently, in the feature, NLP will continue to play an importnat role in the
generation of synthetic data. The use of NLP to generate synthetic data will allow for the
creation of data that is more representative of different groups of people and will allow
for the creation of data with specific properties.

21
Chapter 1 An Introduction to Synthetic Data

Computer Vision
Computer vision is the process of using computers to interpret and understand digital
images. This can be done using algorithms that can identify patterns and features in
images, and then make decisions about what those images represent.
The computer can detect a human by identifying their silhouette or by drawing
bounding boxes around the person. In the photos in Figure 1-2, the computer would
count the person by identifying their silhouette, as seen in Figure 1-2 (a) (instance
segmentation) or by drawing bounding boxes around the person (object detection), as in
Figure 1-2 (b).

;ĂͿ /ŶƐƚĂŶĐĞ ƐĞŐŵĞŶƚĂƟŽŶ ;ďͿ KďũĞĐƚ ĚĞƚĞĐƟŽŶ

Figure 1-2. Computer vision: (a) instance segmentation (b) object detection

22
Chapter 1 An Introduction to Synthetic Data

An autonomous vehicle needs to be able to detect objects and understand what they
are to make decisions in real-time. This is done through object detection, which is the
process of finding bounding boxes around each item in the image. After that, semantic
segmentation assigns a label to every pixel in the image, indicating what the object is.
Finally, instance segmentation shows you how many individual objects there are [11].
Functions such as seeing, reading, and hearing on a computer are performed with
artificial neural networks that imitate the human brain. Recognition of human faces,
navigation of autonomous cars, and diagnosing patients with the help of medical images
obtained by scanning on the computer are all related to the computer’s vision, and these
works are done with algorithms called artificial neural networks.
The neural network is an area type of machine learning algorithm that is used to
simulate the workings of the human brain. It is made up of a series of interconnected
nodes, each with its weight and three should value. If the output of a node is above
the specified threshold, that node is activated and sends data to the next layer of the
network. If the output of a node is below the specified threshold, that node is not
activated, and no data is sent along [12]. The output of the node is compared to the
threshold. If the output is above the threshold, the node is activated and sends data to
the next layer.
When a model learns too much detail and noise from the training data, it is said to be
overfitting. This can negatively impact the model’s performance on new data [13]. This
means that if we use synthetic data when training a deep learning model, it will be less
likely to overfit the data and as a result, the model will be more accurate and able to
generalize to new data better.
Convolutional Neural Networks (CNN) are specifically designed to be good at
image recognition tasks. They work by taking in an image as input and then assigning
importance to various aspects or objects in the image. This allows the CNN to
differentiate between different objects in the image. Such a deep neural network has a
much more complex structure than a simple neural network. The following resources
can be reviewed for CNN applications in R and Python.
However, no matter how complex the algorithms are in computer vision; as we
mention before the quality of the data, which is only called “input” in such forms, is very
important for the accuracy of the results. Whether the data is text, audio or photographic,
the size of the data and its good labeling are essential to the accuracy of the results. The
raw material of artificial intelligence is big data. Privacy and data privacy can prevent

23
Random documents with unrelated
content Scribd suggests to you:
Pikku Maija kävi äkkiä surumieliseksi, se kai johtui siitä, että hän
muisteli kotiaan. Kun hän aikoi ruveta sitä miettimään, sanoi joku
hänen vieressään:

»Hyvää huomenta! Te olette nähdäkseni peto.»

Pikku Maija pelästyi kovasti ja kääntyi äkkiä ympäri.

»En suinkaan», sanoi hän.

Hänen rinnallaan istui pieni ruskea puolipallo, jonka selässä oli


seitsemän mustaa pistettä. Tämän punaruskean kupukan alla, jolla
muuten oli kaunis kiilto, oli mitättömän pieni musta pää, jossa kiilui
kaksi kirkasta silmää. Ja nyt näki Maija myös hoikat jalat, jotka
rihmamaisina riippuivat täplikkäästä kupukasta ja kannattivat sitä
niin hyvin kuin taisivat. Tämä pieni könttyrä se oli Maijalle huutanut.
Merkillisestä ulkomuodostaan huolimatta se miellytti mehiläistä, siinä
oli suorastaan jotakin sievää.

»Kukas Te olette?» kysyi Maija. »Minä olen Maija,


kansallisuudeltani mehiläinen.»

»Tahdotteko loukata minua?» kysyi tuo pieni olento. »Siihen ei


Teillä ole vähintäkään syytä, sen kai huomaatte itsekin.»

»Mutta mitenkähän sitä tekisin?» kysyi pieni Maija vallan


pelästyneenä.
»Enhän minä tunne Teitä.»

»Noin voi jokainen sanoa», tuumi könttyrä. »No, tahdonpa auttaa


muistianne. Laskekaa!» Ja pieni olento kääntyi hitaasti ympäri.

»Pitäisikö minun laskea selässänne olevat pisteet?»


»Ne juuri, olkaa hyvä.»

»Seitsemän niitä on», sanoi Maija.

»No?» sanoi kuoriainen. »Siis —? Ettekö vieläkään tiedä? Sanonpa


sen siis Teille. Tavallaan jo sanoitte nimeni. Kuulun seitsenpisteisten
heimoon ja ristimänimeni on Lemmitty. Siis: Lemmitty
Seitsenpisteinen. Ammatiltani olen runoilija. Ihmiset nimittävät
minua leppätertuksi ja myös kultakännäksi. Se on heidän asiansa.
Mutta senhän Te kyllä tiedätte.»

Maija ei uskaltanut vastata kieltävästi, sillä hän pelkäsi


loukkaavansa
Lemmitty Seitsenpisteistä.

»Oi», sanoi Lemmitty, »minä elän päivänpaisteesta, päivän


rauhallisuudesta ja ihmisten rakkaudesta.»

»Ettekö Te sitten syö mitään?» kysyi Maija, ällistyneenä.

»Kyllä, lehtitäitä. Ettekös Te syö niitä?»

»En», sanoi Maija, »se on sentään…»

»Mitä se on? Mitä?»

»Se on sopimatonta», sanoi Maija arastellen.

»Tietysti», huudahti Lemmitty koettaen kohauttaa olkapäitään,


mikä kumminkaan ei onnistunut, selkäkupukka kun oli liian jäykkä,
»aito poroporvarina Te tietysti teette vain sitä, mikä on yleisen tavan
mukaan sopivaa. Sillä emme me runoilijat pitkälle pääsisi. Onko
Teillä aikaa?»
»Miksei», sanoi Maija.

»Silloinpa esitän Teille runoelman. Istukaa hiljaa ja sulkekaa


silmänne, jottei ympäristö vaikuta häiritsevästi. Runon nimi on
'Ihmissormi'. Se on minun sepittämäni ja se perustuu
henkilökohtaiseen kokemukseeni. Kuuletteko?»

»Kyllä», sanoi Maija, »jok'ikisen sanan.»

»Siis:

Ihmissormi.

Kerran tapasit sä mun,


Olin silloin onnellinen.
Pyöreä ol' muoto sun,
Päässäsi ol' kiiltäväinen
Levy, oikein teräväinen,
Joka pääsi liikkumaan.
Toinen pää ol' paikallaan.

»No?» kysyi Lemmitty Seitsenpisteinen hetkisen vaitiolon perästä.


Sillä oli kyynelet silmissä, ja ääni oli väräjävä.

»Ihmissormi jätti minuun syvän vaikutuksen», tuumi Maija hieman


hämillään. Oikeastaan osasi hän kauniimpia lauluja.

»Mimmoinen oli Teistä muoto?» kysyi Lemmitty kaihomielisesti


hymyillen. Ilmeisesti oli hän liikutettu siitä vaikutuksesta, jonka hän
esityksellään oli aikaansaanut.

»Pyöreä», vastasi Maija. »Niinhän itse sanoitte runossanne.»


»Minä tarkoitan taiteellista muotoa, minä tarkoitan runoni
muotoa.»

»Vai niin», sanoi Maija. »Niin, minusta se oli hyvä.»

»Eikös ollutkin!» huudahti Lemmitty. »Te tahdotte siis sanoa, että


tämä laulu voidaan lukea kaikkein parhaiden joukkoon, mitä
tunnette, että saa kauan etsiä, ennenkun löytää sen vertaista.
Taiteessa täytyy ennen kaikkea olla uutta, mutta se seikka jää
useimmiten runoilijoilta huomaamatta. Ja sitten suuripiirteisyyttä,
eikö niin?»

»Kyllä», sanoi Maija, »minä uskon…»

»Teidän luottava uskonne minun merkitykseeni, jonka olette julki


lausunut», sanoi Lemmitty, »on minulle suorastaan imartelevaa.
Kiitos siitä! Nyt minun täytyy mennä edelleen, sillä yksinäisyys on
runoilijan kaunistus. Voikaa hyvin!»

»Hyvästi!» sanoi Maija, joka ei oikein tiennyt, mitä tuo pieni olento
oli oikeastaan halunnut. Mutta itse se mahtaa sen tietää, arveli hän.
Ei se juuri suuri ole, mutta ehkäpä se kasvaa vielä. Maija katseli sitä,
kun se innokkaasti köntysteli oksaa pitkin. Sen pienen pieniä jalkoja
voi tuskin erottaa, joten näytti siltä kuin se liukuisi pienien pyörien
varassa eteenpäin.

Sitten katseli Maija taas alas kultaiselle viljapellolle, jonka


yläpuolella perhoset karkeloivat. Ja se miellytti häntä paljon
enemmän kuin runoilija Lemmitty Seitsenpisteisen runotekele.
Kolmastoista luku.

ROSVOLINNA.

Oi, miten iloisena tämä päivä oli alkanut ja miten se tuli


päättymään tuskaisena ja kauhua täynnä! Maija oli vähän ennen
tehnyt vallan merkillisen tuttavuuden. Se oli sattunut iltapäivällä,
suuren, vanhan vesitynnyrin läheisyydessä. Hän oli istunut
tuoksuvassa sireeninkukinnossa, joka kuvastui tynnyrin veden
tyveneen, mustaan pintaan. Hänen yläpuolellaan lauleli punarinta-
satakieli niin suloisesti ja iloisesti, että pienen Maijan mielestä oli
oikein ikävää, ettei voinut lyöttäytyä lintujen ystäväksi. Ne olivat liian
suuria ja söisivät kohta hyönteisparan suuhunsa — siinä oli syy. Hän
oli piiloutunut sireenin valkoiseen kukkaterttuun ja kuunteli ja
vilkutteli silmillään, niin että auringonpaiste viskeli häneen teräviä
nuolia, kun hän samassa kuuli jonkun huokaavan vieressään. Hän
kääntyi ympäri ja näki merkillisimmän olennon, mitä hän koskaan oli
tavannut. Ensi katsomalta näytti kuin olisi sillä ollut vähintäin sata
jalkaa molemmilla puolilla. Se oli noin kolme kertaa niin pitkä kuin
Maija itse, mutta hoikka ja matala ja siivetön.

»Voi taivasten tekijät!» päivitteli Maija kauhistuneena. »Te nyt


ainakin voitte juosta!»

Outo olento katseli häntä harkiten.

»Ei se ole niinkään varma», tuumi se, »paremmin voisivat asiat


olla. Minulla on liian monta jalkaa. Katsokaa, siihen menee paljon
aikaa, ennenkun on kaikkia liikuttanut. Oli aika, jolloin en sitä
tietänyt, jolloin usein pälkähti päähäni toivomus, että ollappa yksi
jalkapari lisää. Mutta Jumala sen niin on tahtonut. Kuka Te sitten
olette?»

Maija esitti itsensä.

Toinen nyökkäsi päätään ja liikutti muutamia jalkoja.

»Minä olen Hieronymus», sanoi se, »tuhatjalkaisten heimoon


kuuluva. Meidän sukumme on vanha, ja kaikkialla me herätämme
ihmettelyä. Ei ole ainoatakaan eläintä, joka voisi osapuilleenkaan
vetää vertoja meille jalkojen lukumäärässä. Mikäli tiedän, on muilla
kahdeksan korkein määrä.»

»Te olette vallan erinomaisen mielenkiintoinen», sanoi pieni Maija,


»ja niin omituisen värinen. Oletteko perheellinen?»

»Enkä ole! Miten niin?» kysyi tuhatjalkainen. »Me ryömimme


munasta ja sillä hyvä. Ellemme me kykenisi seisomaan omilla
jaloillamme, niin kukas sitten kykenisi?»

»Onhan se kyllä oikein», tuumi Maija miettiväisenä, »mutta eikö


Teillä ole minkäänlaisia yhdyssiteitä?»

»Ei, hyvä neiti. Minä elätän itse itseni ja epäilen.»

»Epäilette? Mitä Te sitten epäilette?»

»Se on minussa synnynnäistä», selitti tuhatjalkainen, »minun


täytyy aina epäillä.»

Maija katseli sitä suurin hämmästynein silmin. Hän ei ymmärtänyt,


mitä toinen tarkoitti, mutta ei tahtonut liian uteliaana tuppautua
tämän asioihin.
»Minä epäilen sitä», sanoi Hieronymus hetken vaitiolon jälkeen,
»että Te olette täällä hakemassa sopivaa oleskelupaikkaa. Ettekö
tiedä, mitä tuolla suuressa piilipuussa on?»

»En.»

»Katsokaa, minä kohta epäilin, ettette Te sitä tietäisi. Siellä on


herhiläispesä.»

Maija oli pudota sireenintertulta, niin kauheasti hän pelästyi. Hän


kävi kalmankalpeaksi, ja vavisten hän kysyi, missä se pesä oli.

»Näettekö tuon kottaraispöntön tuolla piilipuun rungolla? Se on


niin huolimattomasti siihen pantu, että minä kohta epäilin, etteivät
kottaraiset koskaan siihen muuta. Kun pöntön aukko ei ole
auringonnousuun päin, epäröi jokainen kunnon lintu siihen
menemästä. Herhiläiset ovat laatineet siihen pesänsä ja linnoittaneet
sen. Se on suurin herhiläislinna koko maassa. Se pitäisi Teidän
oikeastaan tietää, sillä mikäli olen huomannut ahdistavat nämä
rosvot juuri teitä mehiläisiä.»

Maija tuskin enää kuunteli. Hän näki selvästi linnan ruskeat muurit
lehvikössä, ja hänen hengityksensä salpautui.

»Minun täytyy päästä pois», hän huusi, »niin pian kuin sainkin.»

Mutta silloin kaikui jo hänen takanaan äänekäs häijy nauru, ja


samassa hän tunsi jonkun tarttuvan häntä niin kovakouraisesti
kaulukseen, että hän jo luuli niskansa taittuneen. Ei koskaan
elämässään hän voinut sitä naurua unohtaa. Se kaikui kuin
manalasta vyöryvä ivanauru, ja siihen yhtyi kauhuaherättävä
panssarin narina.
Hieronymus lähti kaikin jaloin kiireesti liikkeelle ja köntysteli oksien
lomitse vesitynnyriin.

»Epäilen, ettei tämä pääty hyvin», hän huusi, mutta pieni


mehiläisparka ei enää kuullut sitä.

Aluksi Maija tuskin voi kääntää päätään, niin kovin kourin oli
häneen tartuttu. Hän näki kultapanssarisen käsivarren, ja sitten
ilmaantui äkkiä hänen yläpuolelleen hirvittävä pää pelottaville
pihtileukoineen. Ensin hän luuli sitä jättiläiskokoiseksi ampiaiseksi,
mutta sitten hän muisti joutuneensa herhiläisen vangiksi. Mustan- ja
kellanjuovikas hirviö oli ainakin neljä kertaa niin suuri kuin hän itse.

Vihdoin sai hän suunsa auki ja kirkui apua niin kovaäänisesti kuin
suinkin voi.

»Hiljaa siinä, pikku mies», sanoi herhiläinen ilkeän kohteliaasti ja


häijysti hymyillen Maijalle. »Ei tässä vielä loppua tule.»

»Päästäkää minut irti», huusi Maija, »tai minä pistän Teitä


sydämeen.»

»Suoraanko sydämeen?» naureskeli rosvo. »Sehän on kovin


urhoollista.
Mutta kyllä siihen vielä menee aikaa, pienokaiseni!»

Maija joutui hirvittävän raivon valtaan. Kaikki voimansa ponnistaen


kääntyi hän ympäri, päästi kaikuvan kimakan sotahuutonsa ja
suuntasi pistimensä keskelle herhiläisen rintaa. Mutta silloin sattui se
sydäntäjärkyttävä ihme, että hänen pistimensä taipui kaareksi eikä
tunkeutunut sisään. Se kimposi takaisin rosvon panssaripaidasta.

Herhiläisen silmät säkenöivät kiukusta.


»Voisin nyt puraista pääsi poikki, pienokainen rangaistukseksi
hävyttömyydestäsi», se sanoi kimmastuneena, »ja sen tekisinkin,
ellei kuningatar mieluummin söisi mehiläisiä tuoreina kuin kuolleina.
Sinunlaisesi rasvainen pala viedään kuningattarelle, niin tekee kelpo
sotilas.»

Ja Maijaa kantaen se lensi ylös ilmaan ja suuntasi matkansa


suoraa päätä rosvolinnaan.

Ei, tämä menee liian pitkälle, ajatteli mehiläisparka, tätä ei enää


kukaan voi kestää. Ja hän menetti tajuntansa.

*****

Kun hän pitkän ajan perästä heräsi tainnostilastaan, oli hänen


ympärillään painostavaa ja hämärää, ja ilma oli täynnä terävää
pistävää hajua, joka tuntui hänestä kauheammalta kuin kaikki hajut,
mitä hän emien oli tuntenut. Hitaasti hän palasi täyteen tajuntaansa,
ja lamauttava murhe täytti hänen sydämensä. Häntä halutti itkeä,
mutta hän ei voinut.

»Vielä ei minua ole syöty», sanoi hän vavisten, »mutta milloin


hyvänsä se voi tapahtua.»

Vankilan seinien lävitse kuului selvästi ääniä Nyt hän myös


huomasi, että eräästä kapeasta raosta tuli vähän valoa. Herhiläiset
eivät rakentaneet muurejaan vahasta, kuten mehiläiset, vaan
kuivasta massasta, joka muistutti höllää harmaata paperia. Sen
kapean valoviirun valaistuksessa, joka tunkeutui hänen vankilaansa,
näki hän vähitellen ympäristönsä, ja hän melkein jähmettyi kauhusta
nähdessään ympärillään kuolleiden ruumiita. Aivan hänen jalkojensa
edessä makasi pieni ruusukuoriainen selällään, ja vähän syrjemmällä
näki hän suuren maakiitäjän kuoren, puoliksi jyrsittynä, ja
ylt’ympärillä näkyi murhattujen mehiläisten siipiä ja
panssarinkappaleita.

»Voi, että minun piti näin käydä», valitti pieni Maija. Hän ei
uskaltanut enää liikkua ja kyyristyi kauhusta ja surusta väristen tuon
kamalan huoneen syrjäisimpään sopukkaan.

Silloin hän kuuli taas selvästi herhiläisten ääniä, ja


kuolemantuskassa hän ryömi tuon pienen raon viereen ja katsoi
siitä.

Hän näki nyt suuren salin täynnä herhiläisiä, ja valtava joukko


kiiltomatovankeja valaisi sen mitä upeimmin. Valtaistuimella
alamaistensa keskellä istui kuningatar. Siinä pidettiin tärkeätä
neuvottelua. Ja Maija ymmärsi joka sanan.

Elleivät nämä kimaltelevat hirviöt olisi herättäneet hänessä niin


sanomatonta kauhua, niin olisi hän varmaankin suuresti ihastunut
niiden voimasta ja komeudesta. Ensi kertaa hän selvästi näki,
mimmoista väkeä rosvot ovat. Hämmästyneenä ja vavisten hän
katseli niiden kultaisen panssarin komeutta, panssarin, joka oli
kirjailtu kauniilla mustilla juovilla, niin että se teki katsojaan saman
vaikutuksen, kuin tiikeri lapseen, joka ensimäistä kertaa sen näkee.

Vartija kulki ympäri pitkin salin seinustaa vaatien kiiltomatoja


valaisemaan kaikin voimin. Se teki tehtävänsä ääneti ja uhkaavana,
jottei häiritsisi neuvottelua, tyrkkäsi niitä pitkällä seipäällä ja sähähti
joka kerran:

»Valaise, tai syön sinut!»


Kauheata oli todellakin herhiläislinnan elämä.

Ja nyt kuuli Maija herhiläiskuningattaren puhuvan:

»Päätöksenämme siis pysyy: huomenna, hetkisen ennen auringon


nousua kokoontuvat soturit. Hyökätään linnanpuistossa olevan
mehiläiskaupungin kimppuun. Pesä ryöstetään ja vankeja otetaan
mahdollisimman paljon. Joka vangitsee ja elävänä käsiini tuo
mehiläiskuningattaren Helena Kahdeksannen, hänet korotetaan
ritarisäätyyn. Taistelkaa urhoollisesti ja tuokaa minulle hyvä
sotasaalis! Ja nyt lopetan kokouksen. Menkää levolle!»

Tämän sanottuaan kuningatar nousi ja jätti seurueineen salin.

Maija oli vähällä purskahtaa äänekkääseen itkuun.

»Minun kansani», hän nyyhkytti, »minun kotini!» Hän työnsi


kätensä suuhun pidättääkseen huutoaan. Hänen epätoivonsa oli
rajaton. »Oi, jospa olisin kuollut, ennenkun täytyi tämmöistä kuulla,»
hän valitti. »Ei kukaan varoita kansalaisiani. Heidän nukkuessaan
hyökätään heidän kimppuunsa ja heidät surmataan. Oi, rakas
Jumala, tee ihme, auta minua, pelasta minut ja kansani tästä
hädästä!»

Salissa sammutettiin kiiltomatojen valo ja madot syötiin. Linnassa


kävi vähitellen kaikki hiljaiseksi. Maijaa ei näyttänyt kukaan
muistavan.

Hitaasti hiipi heikko hämärä hänenkin vankilaansa, ja hänestä


tuntui kuin ulkoa kaikuisi tänne sirkkojen yölaulu.

Ei koskaan ollut pieni mehiläinen nähnyt mitään niin kaameata


kuin oli tämä vankilakomero siinä lojuvine hyönteisraatoineen.
Neljästoista luku.

PAKO.

Mutta pian väistyi pienen mehiläisen epätoivo päättäväisen


harkinnan tieltä. Oli kuin olisi hän taas muistanut olevansa
mehiläinen. Tässä minä nyt istun itkien ja valitellen, johtui hänen
mieleensä äkkiä, ikäänkuin ei minussa olisi ajatuksia eikä voimia. Oi,
vähän minä tuotan tällä tavalla kunniaa uhatussa asemassa olevalle
kansalleni ja kuningattarelleni. Kuolla minun täytyy kumminkin,
siispä tahdonkin kuolla ylväänä ja rohkeana enkä jätä käyttämättä
mitään keinoa omaisteni pelastamiseksi.

Oli kuin olisi hän kokonaan unohtanut, miten kauan hän oli ollut
erillään omaisistaan ja kodistaan, hän tunsi kuuluvansa niihin
läheisemmin kuin ennen, ja se suuri vastuunalaisuus, mikä hänellä
nyt oli, kun hän tunsi herhiläisten suunnitelman, antoi hänelle
päättäväisyyttä ja järkähtämätöntä rohkeutta.

Jos meikäläisten täytyy sortua ja kuolla, niin kuolla tahdon


minäkin, mietti hän, mutta sitä ennen koetan kaikkeni pelastaakseni
heidät.
»Eläköön kuningattareni!» hän huusi.

»Hiljaa siellä sisällä!» ärähti äkeä ääni ulkopuolelta.

Huu, miten kaamea se ääni oli. Varmaankin se oli kiertomatkaansa


tekevän vartijan ääni. Kaikesta päättäen oli yö jo pitkälle kulunut.

Kun askelten ääni oli siellä ulkona vaiennut, rupesi Maija


suurentamaan sitä halkeamaa, josta näki saliin. Hänen onnistuikin
helposti repiä lahoa seinää, joskin kului hyvä aika, ennenkun aukko
oli kyllin suuri. Vihdoin saattoi hän tunkeutua siitä läpi. Varovasti ja
pamppailevin sydämin hän sen teki, sillä hän tiesi, että jos hänet nyt
keksittäisiin, maksaisi se hänen henkensä. Linnan tuntemattomista
kerroksista kuului syvä kuorsaus.

Saliin tuli ovesta hämärtävää sinistä valoa. Se oli kuunvaloa, tiesi


Maija, joka asteli siinä varovasti koko ajan pysytellen seinän
varjossa. Salista vei kapea ja korkea käytävä ovelle, ja siitä tuli
taivaan öinen valo sisään. Maija huokasi syvästi, hän näki kaukana
rajattomassa etäisyydessä tähden tuikkivan taivaalla. Oi, vapaus!
ajatteli hän.

Käytävä oli aivan valoisa. Hiljaa, askel askelelta hiipien hän eteni,
yhä läheni ovi. Jos minä nyt lähden lentoon, hän ajatteli, niin olen
ulkona. Sydän jyskytti rinnassa niin, että se oli haljeta.

Silloin hän näki oven varjossa vartijan nojaavan muudatta pylvästä


vasten.

Kuin naulattuna jäi hän seisomaan. Siinä olivat nyt murskana


kaikki hänen toiveensa. Siitä ei voinut päästä ohi. Mitä tehdä?
Parasta kääntyä ympäri, hän ajatteli. Mutta tuon ovella seisovan
jättiläisen pelkkä näkeminen piti hänet paikallaan. Näytti siltä kuin
katselisi se ajatuksiinsa vaipuneena ulos valoisaan yömaisemaan.
Sen oli leuka käden varassa ja pää hieman kallellaan. Miten
kimaltelikaan sen kultapanssari kuunvalossa! Sen asennossa oli
jotain, mikä oli Maijasta liikuttavaa. Se näyttää niin suruisalta, hän
ajatteli, miten sen asento ja miten uljaana säkenöi sen sotisopa! hän
ajatteli, miten sen asento ja miten Sitä se ei riisu päivällä eikä yöllä,
aina se on valmis ryöstämään, taistelemaan ja kuolemaan…

Pieni Maija aivan unohti, että se oli hänen vihollisensa, tuo, jonka
hän edessään näki. Oi, miten usein olikaan tapahtunut, että hänen
sydämensä ja hänen ihastuksensa, kun hän näki jotain kaunista,
pani hänet unohtamaa: kaiken vaaran.

Silloin lennähti kultainen valonkimmellys ryövärin kypäristä,


varmaankin oli se liikuttanut päätään.

»Hyvä Jumala», kuiskasi pieni Maija, »nyt olen hukassa.»

Samassa sanoi vartija hyvin rauhallisesti:

»Astuhan nyt lähemmäs, pienokainen!»

»Mitä?» huusi Maija. »Mitä kummaa? Te olette siis nähnyt minut?»

»Niin olen, lapsukainen, jo kauan. Sinä olet jyrsinyt läven seinään


ja sitten koko ajan visusti varjon suojassa hiipinyt tänne. Sitten näit
minut, ja rohkeutesi oli lopussa. Eikö asia ole niin?»

»On», sanoi Maija, »oikeassa olette.» Hänen koko ruumiinsa vapisi


kauhusta. Koko ajan siis oli vartija nähnyt hänet. Hän muisti nyt
kuulleensa, miten ihmeen terävät ovat näiden viisasten rosvojen
aistit.
»Mitä sinä nyt oikein teet täällä?» kysyi vartija hyvänsävyisänä.
Maijasta tuntui yhä siltä kuin olisi se surullinen, se näytti ajattelevan
vallan muita asioita, siitä ei koko tämä tapahtuma näyttänyt niin
merkityksekkäältä kuin Maijasta.

»Koetin päästä ulos», vastasi Maija. »Enkä minä ole menettänyt


rohkeuttani, vaikka minä pelästyin teidän voimanne ja kauneutenne
ja sotisopanne kultaisen loisteen johdosta. Nyt tahdon taistella
kanssanne.»

Vartija kumartui hämmästyneenä hiukan eteenpäin, katsoi Maijaan


ja hymyili. Se ei ollut ollenkaan häijyä, tuo hymy, se herätti pikku
mehiläisessä tunnelman, jommoista hän ei ennen ollut tuntenut. Hän
tunsi nimittäin, että tällä nuoren sotilaan hymyllä oli salaperäinen
vaikutus hänen sydämeensä.

»Pienokainen», sanoi vartija melkeinpä sydämellisesti, »emme me


taistele keskenämme. Mehiläiset ovat mahtava kansa, mutta me
olemme voimakkaampia. Ja kaikkein vähimmin käy yksityinen
herhiläinen taistelemaan yksityisen mehiläisen kanssa. — Jos sinua
huvittaa, voit kernaasti jäädä hetkiseksi kanssani juttelemaan. Mutta
vain vähäksi aikaa, pian on minun herätettävä sotilaat, ja silloin
täytyy sinun palata takaisin koppiisi.»

Merkillistä, tämä herhiläisen varma ystävällisyys riisti Maijalta


aseet paremmin kuin kiukku ja viha olisivat voineet. Melkeinpä hän
tunsi jonkinmoista kunnioitusta. Suurin, surullisin silmin hän katsoi
vihamiestään ja, hänen kun aina täytyi noudattaa sydämensä ääntä,
sanoi:

»Olen kuullut aina herhiläisistä pelkkää pahaa, mutta Te ette ole


paha.
En voi uskoa, että olette.»

Soturi katsoi levollisena Maijaa silmiin.

»Kaikkialla on hyviä ja pahoja», sanoi hän vakavana. »Mutta me


olemme teidän vihollisianne, älä unohda sitä. Ja vihollisina tulemme
aina pysymään.»

»Täytyykö vihollisen sitten aina olla paha?» kysyi Maija. »Kun Te


äsken tuijotitte yöhön, niin minä pakostakin unohdin, että Te olette
kovasydäminen ja minulle vihamielinen. Minusta tuntui kuin olisitte
surullinen, ja olen aina ollut sitä mieltä, että se, joka on surullinen, ei
voi olla häijy.»

Ja kun vartija edelleen oli ääneti, jatkoi Maija jo paljon


rohkeampana:

»Te olette mahtava. Jos Te tahdotte, voitte Te toimittaa minut


takaisin koppiini ja minun täytyy kuolla, mutta jos Te tahdotte, voitte
Te myös lahjoittaa minulle vapauteni.»

Silloin suoristautui soturi. Hänen sotisopansa kalskahti hiukan, ja


kun hän nosti kätensä, välähti se kalpeassa kuutamossa. Joko aamu
koitti?

»Oikeassa olet», se sanoi, »se valta minulla on. Sen vallan on


kansani ja kuningattareni minulle uskonut. Määräyksenä on, ettei
ainoakaan mehiläinen saa elävänä jättää linnaa, johon hän kerran on
joutunut. Ja minä pysyn kansalleni uskollisena.»

Ja hetkisen vaiettuaan se lisäsi hiljaa aivan kuin itsekseen puhuen:


»Olen liiankin katkerasti saanut kokea, miten uskottomuus voi
tuottaa tuskia, kun Surre hylkäsi minut…»

Pieni Maija seisoi masentuneena eikä tiennyt mitä vastata. Niin,


sama tunne oli hänessä itsessäänkin vallitsevana, rakkaus
omaisiinsa, uskollisuus kansaansa kohtaan. Hän tunsi, ettei tässä
enää auta muut keinot kuin viekkaus tai väkivalta, kumpikin teki
velvollisuutensa, ja kumminkin jäivät he toisilleen vieraiksi ja
vihamielisiksi. — Mutta eikö sotilas äsken maininnut jotakin nimeä?
Eikö hän puhunut uskottomuudesta, jota joku oli hänelle osoittanut.
Maijakin tunsi Surren, sehän oli tuo kaunis sudenkorento, joka asui
lammen rannalla lumpeiden luona. Hän vapisi jännityksestä, kenties
siinä olisi hänen pelastuksensa, mutta hän ei tiennyt vielä, millä
tavalla.

Varovaisesti hän kysyi:

»Kuka on Surre, jos uskallan kysyä?»

»Voi, se ei liikuta sinua, pienokainen», vastasi vartija. »Minä olen


hänet kadottanut enkä ikinä enää häntä löydä.»

»Minä tunnen Surren», sanoi Maija pakottaen itsensä rauhalliseksi,


»hän kuuluu korentojen heimoon ja on todennäköisesti kaunein
heimolaistensa joukosta.»

Semmoisena ei Maija ollut vielä soturia nähnyt miksi nämä sanat


hänet muuttivat. Hän näytti unohtaneen koko ympäristönsä ja
hyppäsi rajusti Maijan luo.

»Mitä!» huusi hän. »Tunnetko sinä Surren? Sano heti, missä hän
on!»
»Enkä sano», vastasi pieni Maija hiljaa mutta varmasti. Ja samalla
hänen sydämensä hehkui ilosta.

»Puren pääsi poikki, ellet sitä ilmaise», huusi vartija. Hän oli jo
aivan lähellä.

»Purraan se poikki joka tapauksessa. Tehkää vain Te se! En minä


kumminkaan ilmianna herttaista korentoa, jonka hyvä ystävä olen.
Tehän ottaisitte kumminkin hänet vangiksi.»

Soturi hengitti raskaasti. Kun ulkona rupesi kajastamaan, näki


Maija, että sen otsa oli kalpea ja silmissä kiilsi tuska ja
rauhattomuus.

»Hyvä Jumala», sanoi se murtunein äänin, »nyt on jo aika


herättää sotilaat. — Ei, ei pieni mehiläinen, en minä tee pahaa
Surrelle. Minä rakastan Surrea enemmän kuin omaa elämääni. Sano
minulle, mistä hänet löydän!»

»Minä rakastan myös henkeäni», sanoi pieni Maija viisaana


hitaasti.

»Jos sinä ilmaiset minulle Surre-korennon olinpaikan», lausui


vartija, ja Maija huomasi, että hänen oli vaikeata puhua ja että koko
hänen ruumiinsa vapisi, »niin päästän sinut vapaaksi, saat lentää,
mihin tahdot».

»Pidättekö sananne?»

»Vakuutan sen rosvon kunniasanalla», sanoi vartija ylpeänä.

Pieni Maija voi tuskin puhua. Nythän riippui aivan minuteista,


voisiko hän ilmoittaa ajoissa omaisilleen hyökkäyksestä. Mutta hänen
sydämensä riemuitsi.

»Hyvä», sanoi hän. »Uskon Teitä. Kuulkaa siis. Tunnetteko linnan


vieressä olevia vanhoja lehmuksia? Niiden takana on laajoja
kukkanurmia ja lopuksi suuri lampi. Lammen eteläisessä
poukamassa, mihin puro laskee, kohoaa vedestä valkoisia
lumpeenkukkia päivänpaisteeseen. Siellä kaislikossa Surre asuu.
Siellä tapaatte hänet joka päivä, kun aurinko on keskitaivaalla.»

Soturi painoi kalpeaa otsaansa molemmin käsin. Hänellä näytti


olevan vaikea kamppailu käytävänä itsensä kanssa.

»Puhut totta», sanoi hän hiljaa ja ähkyen niin, ettei tiennyt oikein,
ääntelikö hän ilosta vai Surresta. »Hän on itse minulle kertonut
haluavansa valkoisten kelluvien kukkien luo. Ne ovat kai juuri niitä
kukkia, joista mainitsit. Nyt saat lentää. Paljon kiitoksia!»

Ja tosiaankin vetäytyi vartija ovelta syrjään. Ulkona näkyi jo päivän


kajastus.

»Rosvo pitää aina sanansa», sanoi hän. Hän ei tiennyt, mitä pieni
Maija oli yöllä kuullut linnassa ja hän ajatteli: »Eihän yksi pieni
mehiläinen mitään merkitse, onhan niitä muita yllinkyllin.»

»Voikaa hyvin!» huusi Maija ja lensi tiehensä kiireestä


hengästyneenä ja sanomatta sanaakaan kiitokseksi. Siihen ei
tosiaankaan ollut enää aikaa.

Viidestoista luku.

KOTIINPALUU.
Pieni Maija ponnisti kaiken voimansa, kaiken tahtonsa ja kaiken
päättäväisyytensä. Kuin metsästyskivärin luoti hän lensi
salamannopeudella suoraviivaisesti halki sinervän aamuauteren,
suoraan metsää kohti. Mehiläiset voivat lentää nopeammin kuin
useimmat muut hyönteiset. Siellä metsässä hän oli turvassa, siellä
hän voi päästä piiloon, jos herhiläinen katuisi sitä, että päästi hänet
vapaaksi, ja ryhtyisi takaa ajamaan.

Puista putoili raskaita pisaroita maassa oleville kuiville lehdille. Oli


niin kylmä, että mehiläisen siivet olivat kangistua. Kaikkialla verhosi
tasankoa hieno huntu, eikä aamunkoitteesta ollut vielä merkkiäkään
nähtävissä. Sitäpaitsi oli niin hiljaista koko ympäristössä kuin olisi
aurinko unohtanut maan ja kaikki olennot olisivat laskeutuneet
kuolemanuneen. Maija lensi niin korkealle ilmaan kuin voi. Hänellä oli
vain yksi ajatus: hänen täytyi niin nopeasti kuin hänen voimansa ja
aistimensa myönsivät löytää omaistensa pesä, oma uhattu kotinsa.
Hänen täytyi päästä varoittamaan omaisiaan, jotta he voisivat
varustautua sitä hyökkäystä vastaan, jonka nuo pelottavat rosvot
olivat täksi aamuksi suunnitelleet. Mehiläiskansa oli voimakasta ja
kykeni kyllä ryhtymään taisteluun ylimielisten vihollisten kanssa, jos
se vain voisi asestautua ja valmistua puolustukseen. Mutta se ei
suoriutuisi, jos se äkkiarvaamatta yllätettäisiin ja sen kimppuun
hyökättäisiin sen nukkuessa. Jos kuningatar ja sotilaat vielä nukkuvat
vihollisten tullessa, niin silloin toimeenpannaan hirveä verilöyly ja
otetaan paljon vankeja, ja herhiläisten menestys on varma. Ja kun
pieni mehiläinen näin ajatteli omaistensa voimaa ja väkevyyttä,
heidän uskollisuuttaan ja alttiuttaan kuningatarta kohtaan aina
kuolemaan asti, tunsi hän voimakasta vihaa vihollisia kohtaan ja
samalla onnekasta uhrautuvaisuuden halua ja uljuutta.
Ei ollut helppoa hänelle osua oikeaan siinä ympäristössä. Hän ei
ollut enää pitkiin aikoihin painanut muistiinsa maisemia sillä tavalla
kuin muut mehiläiset tavallisesti tekevät, niiden kun täytyy pitkien
lentomatkojen takaa mesikantamuksineen löytää takaisin pesään.

Hänestä tuntui kuin hän ei olisi koskaan ennen ollut niin korkealla
ilmassa kuin nyt, kylmyys vaivasi häntä, ja hän voi tuskin erottaa
yksityisiä esineitä alhaalla maan pinnalla. Mihinkä turvaudun, minulla
ei ole mitään kiinnekohtaa enkä voi tuoda ajoissa apua omaisilleni.
»Voi, tässä oli nyt mitä paras tilaisuus tehdä kaikki hyväksi», huokasi
hän tuskissaan, »mitä teen minä nyt.» Mutta äkkiä rupesi
salaperäinen voima viemään häntä vastustamattomasti määrättyyn
suuntaan. Mikähän mahtaa minua näin vetää ja pakottaa, ajatteli
hän, varmaankin se on koti-ikäväni. Ja hän antautui tämän tunteen
ohjattavaksi ja lensi suoraa päätä, minkä jaksoi. Ja äkkiä hän päästi
riemuhuudon, tuolla häämöttivät kaukaa linnanpuiston suurten
lehmusten latvukset kuin hämärästä kohoavat harmaat kupukatot.
Nyt hän tiesi osaavansa oikeaan, ja samassa silmänräpäyksessä
laskeutui hän aivan lähelle maanpintaa. Hän näki viereisillä niityillä
sumuhahtuvien tihenevän, ja hän ajatteli kukkaiskeijuja, jotka siellä
nukkuivat lohdun löytäneinä ja onnellisina varhaiseen kuolemaansa.
Se täytti taas hänen sydämensä luottamuksella, ja hänen surunsa
hälveni. Halveksikoot hänen omaisensa häntä sen johdosta, että hän
karkasi kotikaupungista, rangaiskoon kuningatar häntä, kaikki on
samantekevää, kunhan hänen kansansa vain säästyy sitä nyt
uhkaavalta onnettomuudelta.

Tuolla häämötti jo pitkän kivimuurin vieressä kuusi, joka suojeli


hänen kotikaupunkiaan länsituulilta, ja nyt hän näki tutut lentoaukot,
kotinsa punaportin, siniportin ja vihreänportin. Hänen sydämensä
sykytti niin lujaan, että hän luuli tukehtuvansa, mutta hän ponnisti
viimeiset voimansa ja suuntasi lentonsa suoraan punaportille. Sieltä
kulkisi hänen tiensä hänen kansansa luo ja hänen kuningattarensa
eteen.

Mutta kun hän laskeutui portin edessä olevalle lentolaudalle,


sulkivat siinä olevat vartijat tien ja tarttuivat samassa häneen kiinni.
Hengästynyt kun oli, ei Maija aluksi saanut sanaa suustaan, ja
vartijat aikoivat ruveta surmaamaan hänet. Sillä mehiläismaailmassa
on kuolemanrangaistuksen uhalla kielletty tunkeutumasta vieraaseen
kaupunkiin ilman kuningattaren lupaa.

»Takaisin!» ärjäsi vartija ja tyrkkäsi häntä töykeästi, »mikä


pälkähtää päähänne?! Ellette silmänräpäyksessä käänny ympäri,
olette tuhon oma.» Ja kääntyen toveriinsa se sanoi: »onko sinulle
ennen sattunut tämmöistä ja kaiken lisäksi vielä ennen
aamunkoittoa?»

Silloin huusi Maija pesän tunnussanan, josta kaikki, mehiläiset


tuntevat oman väkensä, ja vartijat päästivät hänet heti irti.

»Mitä ihmettä!» huudahtivat he. »Sinä olet yksi meikäläisiä, mutta


me emme tunne sinua?!»

»Päästäkää minut kuningattaren luo!» puuskutti pikku Maija.


»Pian, pian, suuri vaara uhkaa.»

Vartijat vitkastelivat vielä, he eivät oikein ymmärtäneet, mitä oli


tekeillä.

»Kuningatarta ei saa herättää ennen auringonnousua», sanoi


toinen heistä.
Silloin huusi Maija niin äänekkäästi ja kiihkeästi, ettei kumpikaan
vartijoista ollut ikinä kuullut mehiläisen huutavan:

»Silloin ei kuningatar ehkä herää enää milloinkaan elämään!


Kuolema seuraa kintereilläni.» Ja hän lisäsi hurjana ja suuttuneena:
»Teidän on vietävä minut kuningattaren luo!»

Nyt kiirehtivät he yhdessä pitkin lämpimiä tuttuja käytäviä, jotka


Maija kaikki muisti, ja vaikka hän oli menehtyä kiireeseensä ja
kiihkoonsa, vapisi hänen sydämensä kumminkin kotiintulon
aiheuttamasta suloisen ikävän tunteesta.

»Olen kotona», sopersi hän huulet kalpeina.

Kuningattaren vastaanottosalissa hän melkein luhistui maahan.


Toinen vartija tuki häntä toisen kiirehtiessä viemään outoa viestiä
kuningattaren kammioihin. Kumpikin oli nyt selvillä, että jotain
erikoista oli tulossa, ja sananviejä juoksi niin nopeasti kuin jaloista
lähti.

Ensimäiset vahanvalmistajat olivat jo nousseet ylös. Uteliaana


kurkisti pää siellä ja toinen täällä käytävistä, tieto tästä
tapahtumasta oli nopeasti levinnyt.

Silloin tuli kaksi upseeria kuningattaren kammioista. Maija tunsi


kohta heidät, vakavina ja vaieten asettuivat he asentoonsa oven
eteen puhuttelematta Maijaa. Pian oli kuningatarkin siis tuleva.

Hän tulikin, ilman hovisaattuettaan, vain parin palvelijan ja


henkivartijainsa seuraamina. Nähdessään Maijan astui hän nopeasti
tätä kohti ja huomatessaan, miten kiihkoisan näköinen ja miten
kurjassa tilassa pieni mehiläinen oli, pehmenivät hänen vakavat ja
ankarat piirteensä hieman.

»Sinulla kuuluu olevan tärkeä viesti tuotavana», hän sanoi


rauhallisena. »Ken olet?»

Maija ei saanut heti sanaa suustaan. Vaivalloisesti sai hän lopulta


sanotuksi vain:

»Herhiläiset!»

Kuningatar kalpeni, mutta säilytti mielenmalttinsa, ja se rauhoitti


vähän Maijaa.

»Suurivaltaisin kuningatar», huudahti hän, »suokaa minulle


anteeksi, etten noudata niitä velvollisuuksia, joita Teidän
korkeutenne ja arvonne vaativat. Myöhemmin kerron kaikki, mitä
olen tehnyt ja mitä sydämestäni kadun. Tänä yönä olen kuin ihmeen
kautta pelastunut herhiläisten vankeudesta, ja viimeinen, mitä heiltä
kuulin, oli päätös, että tänä päivänä aamun koitteessa hyökätään
valtakuntamme kimppuun ja ryöstetään se.»

Sitä kauhistusta, minkä nämä pienen Maijan sanat herättivät


kaikissa läsnäolijoissa, voi tuskin kuvailla. Kuningatarta seuranneet
palvelijat puhkesivat äänekkääseen valitukseen, käytävän suussa
seisovat upseerit aikoivat kauhusta kalpeina lentää hätyyttämään
sotilaita. Adjutantti sanoi: »Herra siunatkoon!» ja pyörähti kerran
ympäri, hän kun tahtoi yht’aikaa katsoa joka puolelleen.

Mutta todella suuremmoista oli nähdä, miten rauhallisesti ja


malttiaan menettämättä kuningatar otti tuon hirveän tiedon vastaan.
Hän kohottautui hieman ylöspäin, ja hänen asennossaan oli jotain,
mikä pelotti kaikkia ja antoi samalla heille rajatonta luottamusta.
Pieni Maija vapisi mielenliikutuksesta, noin valtavaa ylevyyttä hän ei
mielestään ollut koskaan ennen nähnyt.

Kuningatar viittasi upseerit luokseen ja lausui äänekkäästi ja


rauhallisesti pari lyhyttä lausetta heille. Lopuksi kuuli Maija vielä
sanat: »Saatte minutin ajan käskyni suorittamiseen, jos kauemmin
kestää, menetätte päänne.» Mutta molemmat upseerit eivät
suinkaan näyttäneet siltä, että heitä olisi tarvinnut yllyttää; he
riensivät asiaansa suorittamaan semmoista vauhtia, että sitä oli
oikein ilo nähdä.

»Oi, kuningattareni», sanoi pieni Maija.

Silloin kumartui kuningatar lyhyeksi hetkiseksi Maijan puoleen,


vielä kerran näki pieni mehiläinen valtijattarensa kasvot lempeinä ja
rakkautta säteilevinä.

»Kiitos sinulle», sanoi hän Maijalle, »sinä olet pelastanut meidät


kaikki, ja mitä ikinä olet ennen rikkonutkin, sen olet nyt
tuhatkertaisesti hyvittänyt. — Mutta mene nyt lepäämään,
sydänkäpyseni, näytät niin uupuneelta ja kätesi ihan vapisevat.»

»Tahtoisin kuolla puolestanne», sopersi Maija vavisten.

Silloin vastasi kuningatar:

»Älä nyt huolehdi meistä. Tämän kaupungin tuhansien asukasten


joukossa ei ole ainoatakaan, joka ei empimättä tahtoisi uhrata
henkeään toveriensa ja minun hyväksi. Voit nukkua rauhassa.»

Taas hän kumartui Maijan puoleen ja suuteli häntä otsalle, sitten


viittasi hän palvelijansa luokseen ja määräsi heidän huolehtimaan
Maijan levosta ja hyvinvoinnista.

Pieni mehiläinen salli tahdottomana ja syvästi onnellisena viedä


itsensä sieltä pois. Hänestä tuntui, ettei elämällä olisi enää mitään
ihanampaa tarjottavana hänelle. Kuin unessa kuuli hän vielä etäisiä,
heläjäviä torventoitotuksia, näki valtion arvohenkilöiden tungeksivan
kuningattaren kammioitten käytävissä, ja sitten kuuli hän kumean
kauas kaikuvan jylinän, joka vapisutti koko pesää.

»Sotilaat! Meidän sotilaamme!» kuiskasi palvelija hänen


vieressään.

Viimeinen, mitä hän kuuli pieneen rauhalliseen kammioonsa, mihin


hänen seuralaisensa laittoivat hänet levolle, oli hänen ovensa ohitse
marssivien joukkojen töminä. Hän kuuli kirkkaan komennusäänen,
joka kaikui reippaana ja luottamusta sytyttävänä, ja kun hän juuri oli
uneen vaipumassa, kuuli hän kuin kaukaa etäisyydestä kaikuvan
vanhan mehiläisten laulun:

Kultapäivyt, siunaa sä
Meidän toimiamme!
Yhteishenki viritä,
Suojaa emoamme!

Kuudestoista luku.

MEHILÄISTEN JA HERHILÄISTEN TAISTELU.

Mehiläisten valtakunnassa vallitsi nyt tavaton kuohunta. Ei edes


vallankumouspäivinä ollut semmoista hälinää. Pesä oikein kiehui. Ei
ollut ainoatakaan mehiläistä, jota ei olisi vallannut kiihkeä pyhä viha
ja joka ei olisi palavasti halunnut kaikin voimin vastustaa vanhaa
verivihollista. Silti ei syntynyt sekamelskaa eikä epäjärjestystä, oli
vallan hämmästyttävää, miten pian rykmentti oli koolla ja miten
tarkalleen jokainen tiesi tehtävänsä ja millä tavalla kukin paraiten voi
olla hyödyksi.

Mutta jo olikin aika täpärällä. Kun kuningattaren huudosta


vapaaehtoiset astuivat esiin, jotka ensimäisinä tarjoutuivat
sisäänkäytävää puolustamaan, palasivat myös nopeasti kuin lentävät
pisteet ensimäiset tiedustelijat, jotka oli lähetetty vakoiluretkelle ja
nyt ilmoittivat, että herhiläiset olivat tulossa. Vallitsi kammottava
odotuksen rauhallisuus. Tyynen vakavina ja ylvään kalpeina seisoivat
ensimäiset sotilaat aivan sisäänkäytävän suussa kolmessa suljetussa
rivissä. Ei kukaan enää puhunut, kuolemanhiljaisuus vallitsi. Vain
taustasta kuului upseerien hiljaisia komennushuutoja heidän
järjestäessään reserviväkeä. Olisi luullut koko pesän nukkuvan. Vain
portilla työskenteli hiljaa ja kuumeisen joutuisasti kymmenkunta
vahanvalmistajaa, joille oli annettu määräys kaventaa sisäänkäytävä
vahalla. Kuin taikavoimalla oli muutamissa minuteissa kohonnut kaksi
paksua vahaseinää, joita eivät voimakkaimmatkaan herhiläiset
kykenisi repimään rikki ilman ajanhukkaa. Lentoaukko oli näin tullut
melkein puolta pienemmäksi.

Kuningattaren paikka oli sisällä, mistä hän voi seurata koko


taistelun kulkua. Hänen adjutanttinsa juoksivat ja lentelivät
edestakaisin. Jo tuli kolmas tiedustelija takaisin. Hän vaipui täysin
nääntyneenä kuningattaren eteen.

»Olen viimeinen, joka palaa», huusi hän ponnistaen viimeiset


voimansa, »muut ovat kuolleet.»
»Missä ovat herhiläiset?» kysyi kuningatar.

»Lehmusten luona», huusi lähetti ja sitten hän änkytti


kuolemantuskassa: »kuulkaa, kuulkaa! Ilma jo suhisee noiden
jättiläisten siivenlyönneistä.»

Mutta ei ulkoa mitään kuulunut. Peloissaan hän vain luuli, että


häntä yhä ajettiin takaa.

»Montako niitä on?» kysyi kuningatar tuimasti. »Puhu hiljaa!»

»Neljäkymmentä minä niitä laskin», kuiskasi viestintuoja, ja vaikka


kuningatar säikähtyi vihollisen suuren voiman johdosta, lausui hän
kumminkin kuuluvasti ja varmalla äänellä:

»Niistä ei ole ainoakaan näkevä enää kotiansa.»

Kuningattaren sanat vaikuttivat sotilaihin ja upseereihin kuin


kaamea ennustus vihollisen tuhoutumisesta, ja kaikkien rohkeus
kasvoi.

Mutta kun ulkopuolelta rupesi tyvenestä aamuilmasta kuulumaan


ensin hiljaista surinaa ja sitten yhä kovempana ja terävämpänä
kauheata pörinää, kun käytävä pimeni ja kaikki kuulivat selvästi
noiden hyönteismaailman julmimpain rosvojen ja murhamiesten
kammottavan suhinan, silloin kalpenivat pienten urhokasten
mehiläisten kasvot aivan kuin tuhkanharmaa valonkajastus olisi
heidän riveihinsä laskenut.

Mutta samassa kaikui korkeudesta kuningattaren voimakas ääni


levollisena ja kirkkaana:
»Antakaa rosvojen tunkeutua sisään toisen toisensa perästä,
kunnes kuulette käskyni, silloin hyökätkööt ensimäiset rivit, sata
kerrallaan, sisään tunkeutuneiden kimppuun ja taaemmat rivit
sulkekoot sisäänkäytävän. Sillä tavoin ja'amme vihollisen
sotavoiman. Muistakaa te ensimäiset, teidän voimistanne ja
kestäväisyydestänne ja rohkeudestanne riippuu koko valtion
menestys. Mutta olkaa rauhalliset, viholliset eivät heti hämärässä saa
selville, miten hyvin me olemme varustetut, vaan tunkeutuvat
huolettomina sisään…»

Hän keskeytti puheensa, sillä portilla näkyi jo ensimäisen rosvon


pää. Hapuillen ja varovaisesti liikkuivat sen tuntosarvet, pihtileuat
avautuivat ja sulkeutuivat niin, että sitä nähdessä oli veri hyytyä
kauhusta, ja hitaasti liukui perässä suunnaton, juovikas
jättiläissiipinen ruumis. Panssaripeite välkkyi valossa, jota ulkoa
pilkisti pesään.

Oli kuin olisi vavahdus kulkenut läpi mehiläisrivien, mutta


pienintäkään hiiskausta ei kuulunut.

Herhiläinen vetäytyi hiljakseen taaksepäin ja sen kuultiin


ilmoittavan:

»Pesä nukkuu. Mutta käytävän suu on muurattu puoliksi umpeen


eikä siinä ole vartijoita. En tiedä, onko se hyvä vai huono merkki.»

»Hyvä merkki se on!» kuului ulkoa. »Eteenpäin!»

Silloin hyppäsi kaksi jättiläistä rinnakkain sisään, ja äänetönnä


tunkeutui niiden jälkeen heiluttelevia, juovikkaita ja panssaroituja
olentoja. Sitä oli kamalaa katsella. Jo oli kahdeksan rosvoa pesässä,
eikä vielä kuulunut kuningattaren käskyä. Oliko hän niin jähmettynyt
kauhusta, ettei saanut sanaa suustaan? Eivätkö rosvot vieläkään
nähneet, että oikealla ja vasemmalla seisoi varjossa tiheään
ahtautuneina ja kuolemaan valmiina sotilasrivejä…

Silloin kajahti korkeudesta voimakas ääni:

»Ikuisen oikeuden ja kuningattaren nimessä, puolustakaa


valtakuntaa!»

Ja nyt kuului koko ilman täyttävä kohaus, niin valtava sotahuuto,


ettei sen moinen ennen ollut mehiläiskaupunkia vapisuttanut. Tuntui,
kuin täytyisi koko pesän hajota tähän raivoisaan kohinaan. Siinä,
missä yksityiset herhiläiset äsken olivat selvästi erikseen nähtävissä,
siinä ne nyt kierivät tiheänä, epäselvänä, sorisevana,
sekamelskaisena joukkiona. Muuan nuori mehiläisupseeri oli tuskin
malttanut odottaa komentolauseen loppuun saakka. Hän tahtoi olla
ensimäinen hyökkäämässä, ja hänestä tuli ensimäinen, joka sai
surmansa. Hän oli jo seisonut hetkisen taistelunhalusta värisevänä,
hyppyyn valmiina, ja kun hän kuuli kuningattaren käskyn ensimäiset
sanat, syöksyi hän eteenpäin suoraan ensimäisen rosvon syliin, ja
hänen hieno, uskomattoman terävä pistimensä osui pään ja
ensimäisen rintanivelen välistä vastustajan kaulaan. Hän näki vielä,
miten herhiläinen käpristyi kokoon raivoisasti huutaen, niin että se
hetkisen näytti keltaisen ja mustan kirjavalta välkkyvältä pallolta,
sitten suhahti rosvon pelottava pistin nuoren upseerin rintanivelen
lävitse suoraan sydämeen, ja kuollessaan näki hän itsensä sekä
kuolettavasti haavoittuneen vastustajansa vaipuvan mehiläispilveen.
Hänen uljas soturinkuolemansa oli sytyttänyt kaikkiin villin riemun ja
uhrautuvaisuuden, ja mehiläisten hyökkäys aiheutti suuren hädän
niille, jotka olivat tunkeutuneet sisään.
Welcome to our website – the ideal destination for book lovers and
knowledge seekers. With a mission to inspire endlessly, we offer a
vast collection of books, ranging from classic literary works to
specialized publications, self-development books, and children's
literature. Each book is a new journey of discovery, expanding
knowledge and enriching the soul of the reade

Our website is not just a platform for buying books, but a bridge
connecting readers to the timeless values of culture and wisdom. With
an elegant, user-friendly interface and an intelligent search system,
we are committed to providing a quick and convenient shopping
experience. Additionally, our special promotions and home delivery
services ensure that you save time and fully enjoy the joy of reading.

Let us accompany you on the journey of exploring knowledge and


personal growth!

ebookmass.com

You might also like