DB

2021-10-08 19:33:47 -05:00 · 2021-10-08 19:33:47 -05:00 · 8ebc277814
commit 8ebc277814
13 changed files with 2348 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,60 @@
+# Dynamic Bottleneck 
+
+## Introduction
+
+This is a TensorFlow based implementation for our paper on 
+
+**"Dynamic Bottleneck for Robust Self-Supervised Exploration". NeurIPS 2021**
+
+## Prerequisites
+
+python3.6 or 3.7,
+tensorflow-gpu 1.x, tensorflow-probability,
+openAI [baselines](https://github.com/openai/baselines),
+openAI [Gym](http://gym.openai.com/)
+
+## Installation and Usage
+
+### Atari games
+
+The following command should train a pure exploration 
+agent on "Breakout" with default experiment parameters.
+
+```
+python run.py --env BreakoutNoFrameskip-v4
+```
+
+
+### Atari games with Random-Box noise 
+
+The following command should train a pure exploration 
+agent on "Breakout" with randomBox noise.
+
+```
+python run.py --env BreakoutNoFrameskip-v4 --randomBoxNoise
+```
+
+### Atari games with Gaussian noise 
+
+The following command should train a pure exploration 
+agent on "Breakout" with Gaussian noise.
+
+```
+python run.py --env BreakoutNoFrameskip-v4 --pixelNoise
+```
+
+
+### Atari games with sticky actions
+
+The following command should train a pure exploration 
+agent on "sticky Breakout" with a probability of 0.25
+
+```
+python run.py --env BreakoutNoFrameskip-v4 --stickyAtari
+```
+
+### Baselines
+
+- **ICM**: We use the official [code](https://github.com/openai/large-scale-curiosity) of "Curiosity-driven Exploration by Self-supervised Prediction, ICML 2017" and "Large-Scale Study of Curiosity-Driven Learning, ICLR 2019".   
+- **Disagreement**: We use the official [code](https://github.com/pathak22/exploration-by-disagreement) of "Self-Supervised Exploration via Disagreement, ICML 2019".
+- **CB**: We use the official [code](https://github.com/whyjay/curiosity-bottleneck) of "Curiosity-Bottleneck: Exploration by Distilling Task-Specific Novelty, ICML 2019".
--- a/init.py
+++ b/init.py
@ -0,0 +1 @@
+#############
--- a/cnn_policy.py
+++ b/cnn_policy.py
@ -0,0 +1,71 @@
+import tensorflow as tf
+from baselines.common.distributions import make_pdtype
+from utils import getsess, small_convnet, activ, fc, flatten_two_dims, unflatten_first_dim
+
+
+class CnnPolicy(object):
+    def __init__(self, ob_space, ac_space, hidsize,
+                 ob_mean, ob_std, feat_dim, layernormalize, nl, scope="policy"):
+        """ ob_space: (84,84,4);        ac_space: 4;
+            ob_mean.shape=(84,84,4);    ob_std=1.7;            hidsize: 512;
+            feat_dim: 512;              layernormalize: False;      nl: tf.nn.leaky_relu.
+        """
+        if layernormalize:
+            print("Warning: policy is operating on top of layer-normed features. It might slow down the training.")
+        self.layernormalize = layernormalize
+        self.nl = nl
+        self.ob_mean = ob_mean
+        self.ob_std = ob_std
+        with tf.variable_scope(scope):
+            self.ob_space = ob_space
+            self.ac_space = ac_space
+            self.ac_pdtype = make_pdtype(ac_space) 
+            self.ph_ob = tf.placeholder(dtype=tf.int32,
+                                        shape=(None, None) + ob_space.shape, name='ob')
+            self.ph_ac = self.ac_pdtype.sample_placeholder([None, None], name='ac')
+            self.pd = self.vpred = None
+            self.hidsize = hidsize
+            self.feat_dim = feat_dim
+            self.scope = scope
+            pdparamsize = self.ac_pdtype.param_shape()[0] 
+
+            sh = tf.shape(self.ph_ob)               # ph_ob.shape = (None,None,84,84,4)
+            x = flatten_two_dims(self.ph_ob)        # x.shape = (None,84,84,4)
+
+            self.flat_features = self.get_features(x, reuse=False)       # shape=(None,512)
+            self.features = unflatten_first_dim(self.flat_features, sh)  # shape=(None,None,512)
+
+            with tf.variable_scope(scope, reuse=False):
+                x = fc(self.flat_features, units=hidsize, activation=activ)            # activ=tf.nn.relu
+                x = fc(x, units=hidsize, activation=activ)                             # value and policy
+                pdparam = fc(x, name='pd', units=pdparamsize, activation=None)         # logits, shape=(None,4)
+                vpred = fc(x, name='value_function_output', units=1, activation=None)  # shape=(None,1)
+            pdparam = unflatten_first_dim(pdparam, sh)             # shape=(None,None,4)
+            self.vpred = unflatten_first_dim(vpred, sh)[:, :, 0]   # value function shape=(None,None)
+            self.pd = pd = self.ac_pdtype.pdfromflat(pdparam)      # mean,neglogp,kl,entropy,sample
+            self.a_samp = pd.sample()                              # 
+            self.entropy = pd.entropy()                            # (None,None)
+            self.nlp_samp = pd.neglogp(self.a_samp)                # -log pi(a|s)  (None,None)
+
+    def get_features(self, x, reuse):    
+        x_has_timesteps = (x.get_shape().ndims == 5)
+        if x_has_timesteps:
+            sh = tf.shape(x)
+            x = flatten_two_dims(x)
+
+        with tf.variable_scope(self.scope + "_features", reuse=reuse):
+            x = (tf.to_float(x) - self.ob_mean) / self.ob_std
+            x = small_convnet(x, nl=self.nl, feat_dim=self.feat_dim, last_nl=None, layernormalize=self.layernormalize)
+
+        if x_has_timesteps:
+            x = unflatten_first_dim(x, sh)
+        return x
+
+    def get_ac_value_nlp(self, ob):
+        # ob.shape=(128,84,84,1),  ob[:,None].shape=(128,1,84,84,4)
+        a, vpred, nlp = \
+            getsess().run([self.a_samp, self.vpred, self.nlp_samp],
+                          feed_dict={self.ph_ob: ob[:, None]})
+        return a[:, 0], vpred[:, 0], nlp[:, 0]
+
+
--- a/cppo_agent.py
+++ b/cppo_agent.py
@ -0,0 +1,260 @@
+import time
+
+import numpy as np
+import tensorflow as tf
+from baselines.common import explained_variance
+from baselines.common.mpi_moments import mpi_moments
+from baselines.common.running_mean_std import RunningMeanStd
+from mpi4py import MPI
+from mpi_utils import MpiAdamOptimizer
+from rollouts import Rollout
+from utils import bcast_tf_vars_from_root, get_mean_and_std
+from vec_env import ShmemVecEnv as VecEnv
+
+getsess = tf.get_default_session
+
+
+class PpoOptimizer(object):
+    envs = None
+
+    def __init__(self, *, scope, ob_space, ac_space, stochpol, ent_coef, gamma, lam, nepochs, lr, cliprange,
+                 nminibatches, normrew, normadv, use_news, ext_coeff, int_coeff, nsteps_per_seg, nsegs_per_env,
+                 dynamic_bottleneck):
+        self.dynamic_bottleneck = dynamic_bottleneck
+        with tf.variable_scope(scope):
+            self.use_recorder = True
+            self.n_updates = 0
+            self.scope = scope
+            self.ob_space = ob_space    # Box(84,84,4)
+            self.ac_space = ac_space    # Discrete(4)
+            self.stochpol = stochpol    # cnn policy 
+            self.nepochs = nepochs      # 3
+            self.lr = lr                # 1e-4
+            self.cliprange = cliprange  # 0.1
+            self.nsteps_per_seg = nsteps_per_seg    # 128
+            self.nsegs_per_env = nsegs_per_env      # 1
+            self.nminibatches = nminibatches        # 8
+            self.gamma = gamma                      # 0.99 
+            self.lam = lam                          # 0.99 
+            self.normrew = normrew                  # 1
+            self.normadv = normadv                  # 1
+            self.use_news = use_news                # False
+            self.ext_coeff = ext_coeff              # 0.0
+            self.int_coeff = int_coeff              # 1.0
+            self.ph_adv = tf.placeholder(tf.float32, [None, None])
+            self.ph_ret = tf.placeholder(tf.float32, [None, None])
+            self.ph_rews = tf.placeholder(tf.float32, [None, None])
+            self.ph_oldnlp = tf.placeholder(tf.float32, [None, None])    # -log pi(a|s)
+            self.ph_oldvpred = tf.placeholder(tf.float32, [None, None])
+            self.ph_lr = tf.placeholder(tf.float32, [])
+            self.ph_cliprange = tf.placeholder(tf.float32, [])
+            neglogpac = self.stochpol.pd.neglogp(self.stochpol.ph_ac)   
+            entropy = tf.reduce_mean(self.stochpol.pd.entropy())
+            vpred = self.stochpol.vpred
+
+            vf_loss = 0.5 * tf.reduce_mean((vpred - self.ph_ret) ** 2)
+            ratio = tf.exp(self.ph_oldnlp - neglogpac)  # p_new / p_old
+            negadv = - self.ph_adv
+            pg_losses1 = negadv * ratio
+            pg_losses2 = negadv * tf.clip_by_value(ratio, 1.0 - self.ph_cliprange, 1.0 + self.ph_cliprange)
+            pg_loss_surr = tf.maximum(pg_losses1, pg_losses2)
+            pg_loss = tf.reduce_mean(pg_loss_surr)
+            ent_loss = (- ent_coef) * entropy     
+            approxkl = .5 * tf.reduce_mean(tf.square(neglogpac - self.ph_oldnlp)) 
+            clipfrac = tf.reduce_mean(tf.to_float(tf.abs(pg_losses2 - pg_loss_surr) > 1e-6))
+
+            self.total_loss = pg_loss + ent_loss + vf_loss
+            self.to_report = {'tot': self.total_loss, 'pg': pg_loss, 'vf': vf_loss, 'ent': entropy, 'approxkl': approxkl, 'clipfrac': clipfrac}
+
+            # add bai
+            self.db_loss = None
+
+    def start_interaction(self, env_fns, dynamic_bottleneck, nlump=2):
+        self.loss_names, self._losses = zip(*list(self.to_report.items()))
+
+        params = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES)
+        params_db = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, scope="DB")
+        print("***total params:", np.sum([np.prod(v.get_shape().as_list()) for v in params]))  # idf:10,172,133
+        print("***DB params:", np.sum([np.prod(v.get_shape().as_list()) for v in params_db]))  # idf:10,172,133
+
+        if MPI.COMM_WORLD.Get_size() > 1:
+            trainer = MpiAdamOptimizer(learning_rate=self.ph_lr, comm=MPI.COMM_WORLD)
+        else:
+            trainer = tf.train.AdamOptimizer(learning_rate=self.ph_lr)
+        gradsandvars = trainer.compute_gradients(self.total_loss, params)     # 计算梯度
+        self._train = trainer.apply_gradients(gradsandvars)
+
+        # Train DB
+        # gradsandvars_db = trainer.compute_gradients(self.db_loss, params_db)
+        # self._train_db = trainer.apply_gradients(gradsandvars_db)
+
+        # Train DB with gradient clipping
+        gradients_db, variables_db = zip(*trainer.compute_gradients(self.db_loss, params_db))
+        gradients_db, self.norm_var = tf.clip_by_global_norm(gradients_db, 50.0)
+        self._train_db = trainer.apply_gradients(zip(gradients_db, variables_db))
+
+        if MPI.COMM_WORLD.Get_rank() == 0:
+            getsess().run(tf.variables_initializer(tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES)))
+        bcast_tf_vars_from_root(getsess(), tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES))
+
+        self.all_visited_rooms = []
+        self.all_scores = []
+        self.nenvs = nenvs = len(env_fns)        # 128
+        self.nlump = nlump                       # 1
+        self.lump_stride = nenvs // self.nlump   # 128/1=128
+        self.envs = [
+            VecEnv(env_fns[l * self.lump_stride: (l + 1) * self.lump_stride], spaces=[self.ob_space, self.ac_space]) for
+            l in range(self.nlump)]
+
+        self.rollout = Rollout(ob_space=self.ob_space, ac_space=self.ac_space, nenvs=nenvs,
+                               nsteps_per_seg=self.nsteps_per_seg,
+                               nsegs_per_env=self.nsegs_per_env, nlumps=self.nlump,
+                               envs=self.envs,
+                               policy=self.stochpol,
+                               int_rew_coeff=self.int_coeff,
+                               ext_rew_coeff=self.ext_coeff,
+                               record_rollouts=self.use_recorder,
+                               dynamic_bottleneck=dynamic_bottleneck)
+
+        self.buf_advs = np.zeros((nenvs, self.rollout.nsteps), np.float32)
+        self.buf_rets = np.zeros((nenvs, self.rollout.nsteps), np.float32)
+
+        # add bai. Dynamic Bottleneck Reward Normalization
+        if self.normrew:
+            self.rff = RewardForwardFilter(self.gamma)
+            self.rff_rms = RunningMeanStd()
+
+        self.step_count = 0
+        self.t_last_update = time.time()
+        self.t_start = time.time()
+
+    def stop_interaction(self):
+        for env in self.envs:
+            env.close()
+
+    def calculate_advantages(self, rews, use_news, gamma, lam):
+        nsteps = self.rollout.nsteps
+        lastgaelam = 0
+        for t in range(nsteps - 1, -1, -1):  # nsteps-2 ... 0
+            nextnew = self.rollout.buf_news[:, t + 1] if t + 1 < nsteps else self.rollout.buf_new_last
+            if not use_news:
+                nextnew = 0
+            nextvals = self.rollout.buf_vpreds[:, t + 1] if t + 1 < nsteps else self.rollout.buf_vpred_last
+            nextnotnew = 1 - nextnew
+            delta = rews[:, t] + gamma * nextvals * nextnotnew - self.rollout.buf_vpreds[:, t]
+            self.buf_advs[:, t] = lastgaelam = delta + gamma * lam * nextnotnew * lastgaelam
+        self.buf_rets[:] = self.buf_advs + self.rollout.buf_vpreds
+
+    def update(self):
+        # add bai. use dynamic bottleneck
+        if self.normrew:     
+            rffs = np.array([self.rff.update(rew) for rew in self.rollout.buf_rews.T])
+            rffs_mean, rffs_std, rffs_count = mpi_moments(rffs.ravel())
+            self.rff_rms.update_from_moments(rffs_mean, rffs_std ** 2, rffs_count)
+            rews = self.rollout.buf_rews / np.sqrt(self.rff_rms.var)   # shape=(128,128)
+        else:
+            rews = np.copy(self.rollout.buf_rews)
+
+        self.calculate_advantages(rews=rews, use_news=self.use_news, gamma=self.gamma, lam=self.lam)
+
+        info = dict(
+            advmean=self.buf_advs.mean(),
+            advstd=self.buf_advs.std(),
+            retmean=self.buf_rets.mean(),
+            retstd=self.buf_rets.std(),
+            vpredmean=self.rollout.buf_vpreds.mean(),
+            vpredstd=self.rollout.buf_vpreds.std(),
+            ev=explained_variance(self.rollout.buf_vpreds.ravel(), self.buf_rets.ravel()),
+            DB_rew=np.mean(self.rollout.buf_rews),          # add bai.
+            DB_rew_norm=np.mean(rews),                      # add bai.
+            recent_best_ext_ret=self.rollout.current_max
+        )
+        if self.rollout.best_ext_ret is not None:
+            info['best_ext_ret'] = self.rollout.best_ext_ret
+
+        if self.normadv:
+            m, s = get_mean_and_std(self.buf_advs)
+            self.buf_advs = (self.buf_advs - m) / (s + 1e-7)
+        envsperbatch = (self.nenvs * self.nsegs_per_env) // self.nminibatches
+        envsperbatch = max(1, envsperbatch)
+        envinds = np.arange(self.nenvs * self.nsegs_per_env)
+
+        def resh(x):
+            if self.nsegs_per_env == 1:
+                return x
+            sh = x.shape
+            return x.reshape((sh[0] * self.nsegs_per_env, self.nsteps_per_seg) + sh[2:])
+
+        ph_buf = [
+            (self.stochpol.ph_ac, resh(self.rollout.buf_acs)),
+            (self.ph_rews, resh(self.rollout.buf_rews)),
+            (self.ph_oldvpred, resh(self.rollout.buf_vpreds)),
+            (self.ph_oldnlp, resh(self.rollout.buf_nlps)),
+            (self.stochpol.ph_ob, resh(self.rollout.buf_obs)),  # numpy shape=(128,128,84,84,4)
+            (self.ph_ret, resh(self.buf_rets)),                 # 
+            (self.ph_adv, resh(self.buf_advs)),                 #
+        ]
+        ph_buf.extend([
+            (self.dynamic_bottleneck.last_ob,                   # shape=(128,1,84,84,4)
+             self.rollout.buf_obs_last.reshape([self.nenvs * self.nsegs_per_env, 1, *self.ob_space.shape]))
+        ])
+        mblossvals = []                         # 
+        for _ in range(self.nepochs):           # nepochs = 3
+            np.random.shuffle(envinds)          # envinds = [0,1,2,...,127]
+            # nenvs=128, nsgs_per_env=1, envsperbatch=16 
+            for start in range(0, self.nenvs * self.nsegs_per_env, envsperbatch):
+                end = start + envsperbatch
+                mbenvinds = envinds[start:end]
+                fd = {ph: buf[mbenvinds] for (ph, buf) in ph_buf}  # feed_dict
+                fd.update({self.ph_lr: self.lr, self.ph_cliprange: self.cliprange})   # , self.dynamic_bottleneck.l2_aux_loss_tf: l2_aux_loss_fd})
+                mblossvals.append(getsess().run(self._losses + (self._train,), fd)[:-1])  # 
+
+                # gradient norm computation
+                # print("gradient norm:", getsess().run(self.norm_var, fd))
+
+            # momentum update DB parameters
+            print("Momentum Update DB Encoder")
+            getsess().run(self.dynamic_bottleneck.momentum_updates)
+        DB_loss_info = getsess().run(self.dynamic_bottleneck.loss_info, fd)
+
+        #
+        mblossvals = [mblossvals[0]]
+        info.update(zip(['opt_' + ln for ln in self.loss_names], np.mean([mblossvals[0]], axis=0)))
+        info["rank"] = MPI.COMM_WORLD.Get_rank()
+        self.n_updates += 1
+        info["n_updates"] = self.n_updates
+        info.update({dn: (np.mean(dvs) if len(dvs) > 0 else 0) for (dn, dvs) in self.rollout.statlists.items()})
+        info.update(self.rollout.stats)
+        if "states_visited" in info:
+            info.pop("states_visited")
+        tnow = time.time()
+        info["ups"] = 1. / (tnow - self.t_last_update)
+        info["total_secs"] = tnow - self.t_start
+        info['tps'] = MPI.COMM_WORLD.Get_size() * self.rollout.nsteps * self.nenvs / (tnow - self.t_last_update)
+        self.t_last_update = tnow
+
+        return info, DB_loss_info
+
+    def step(self):
+        self.rollout.collect_rollout()                  
+        update_info, DB_loss_info = self.update()       
+        return {'update': update_info, "DB_loss_info": DB_loss_info}
+
+    def get_var_values(self):
+        return self.stochpol.get_var_values()
+
+    def set_var_values(self, vv):
+        self.stochpol.set_var_values(vv)
+
+
+class RewardForwardFilter(object):
+    def __init__(self, gamma):
+        self.rewems = None
+        self.gamma = gamma
+
+    def update(self, rews):
+        if self.rewems is None:
+            self.rewems = rews
+        else:
+            self.rewems = self.rewems * self.gamma + rews
+        return self.rewems
--- a/dynamic_bottleneck.py
+++ b/dynamic_bottleneck.py
@ -0,0 +1,168 @@
+import tensorflow as tf
+import tensorflow_probability as tfp
+import numpy as np
+from utils import getsess
+
+tfd = tfp.distributions
+
+from utils import flatten_two_dims, unflatten_first_dim, SmallConv, TransitionNetwork, normal_parse_params, \
+        ProjectionHead, ContrastiveHead, rec_log_prob, GenerativeNetworkGaussianFix
+
+
+class DynamicBottleneck(object):
+    def __init__(self, policy, tau, loss_kl_weight, loss_l2_weight, loss_nce_weight, aug, feat_dim=512, scope='DB'):
+        self.scope = scope
+        self.feat_dim = feat_dim
+        self.policy = policy
+        self.hidsize = policy.hidsize         # 512
+        self.ob_space = policy.ob_space       # Box(84, 84, 4)
+        self.ac_space = policy.ac_space       # Discrete(4)
+        self.obs = self.policy.ph_ob          # shape=(None,None,84,84,4)
+        self.ob_mean = self.policy.ob_mean    # shape=(None,None,84,84,4)
+        self.ob_std = self.policy.ob_std      # 1.8
+        self.tau = tau                        # tau for update the momentum network
+        self.loss_kl_weight = loss_kl_weight    # loss_kl_weight
+        self.loss_l2_weight = loss_l2_weight    # loss_l2_weight
+        self.loss_nce_weight = loss_nce_weight  # loss_nce_weight
+        self.aug = aug
+
+        with tf.variable_scope(scope):
+            self.feature_conv = SmallConv(feat_dim=self.feat_dim, name="DB_main")  #  (None, None, 512)
+            self.feature_conv_momentum = SmallConv(feat_dim=self.feat_dim, name="DB_momentum")  # (None, None, 512)
+            self.transition_model = TransitionNetwork(name="DB_transition")          # (None, None, 256)
+            self.generative_model = GenerativeNetworkGaussianFix(name="DB_generative")           # (None, None, 512)
+            self.projection_head = ProjectionHead(name="DB_projection_main")              # projection head
+            self.projection_head_momentum = ProjectionHead(name="DB_projection_momentum")   # projection head Momentum
+            self.contrastive_head = ContrastiveHead(temperature=1.0, name="DB_contrastive")
+
+            # (None,1,84,84,4)
+            self.last_ob = tf.placeholder(dtype=tf.int32, shape=(None, 1) + self.ob_space.shape, name='last_ob')
+            self.next_ob = tf.concat([self.obs[:, 1:], self.last_ob], 1)  # (None,None,84,84,4)
+
+            self.features = self.get_features(self.obs)                   # (None,None,512)
+            self.next_features = self.get_features(self.next_ob, momentum=True)    # (None,None,512) stop gradient
+            self.ac = self.policy.ph_ac             # (None, None)
+            self.ac_pad = tf.one_hot(self.ac, self.ac_space.n, axis=2)
+
+            # transition model
+            latent_params = self.transition_model([self.features, self.ac_pad])     # (None, None, 256)
+            self.latent_dis = normal_parse_params(latent_params, 1e-3)              # Gaussian. mu, sigma=(None, None, 128)
+
+            # prior
+            sh = tf.shape(self.latent_dis.mean())                                   # sh=(None, None, 128)
+            self.prior_dis = tfd.Normal(loc=tf.zeros(sh), scale=tf.ones(sh))
+
+            # kl
+            kl = tfp.distributions.kl_divergence(self.latent_dis, self.prior_dis)     # (None, None, 128)
+            kl = tf.reduce_sum(kl, axis=-1)                                           # (None, None)
+
+            # generative network
+            latent = self.latent_dis.sample()                       # (None, None, 128) 
+            rec_params = self.generative_model(latent)              # (None, None, 1024)
+            assert rec_params.get_shape().as_list()[-1] == 1024 and len(rec_params.get_shape().as_list()) == 3
+            rec_dis = normal_parse_params(rec_params, 0.1)          # distribution
+
+            rec_vec = rec_dis.sample()                              # mean of rec_params
+            assert rec_vec.get_shape().as_list()[-1] == 512 and len(rec_vec.get_shape().as_list()) == 3
+
+            # contrastive projection
+            z_a = self.projection_head(rec_vec)                                           # (None, 128)
+            z_pos = tf.stop_gradient(self.projection_head_momentum(self.next_features))   # (None, 128)
+            assert z_a.get_shape().as_list()[-1] == 128 and len(z_a.get_shape().as_list()) == 2
+
+            # contrastive loss
+            logits = self.contrastive_head([z_a, z_pos])                 # (batch_size, batch_size) 
+            labels = tf.one_hot(tf.range(int(16*128)), depth=16*128)     # (batch_size, batch_size)
+            rec_loss = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)  # (batch_size, )
+            rec_log_nce = -1. * rec_loss
+            rec_log_nce = unflatten_first_dim(rec_log_nce, sh)           # shape=(None, None)   (128,128)
+
+            # L2 loss
+            log_prob = rec_dis.log_prob(self.next_features)              # (None, None, 512)
+            assert len(log_prob.get_shape().as_list()) == 3 and log_prob.get_shape().as_list()[-1] == 512
+            rec_log_l2 = tf.reduce_sum(log_prob, axis=-1)
+            rec_log = rec_log_nce * self.loss_nce_weight + rec_log_l2 * self.loss_l2_weight
+
+            # loss
+            self.loss = kl * self.loss_kl_weight - rec_log               # kl 
+            self.loss_info = {"DB_NCELoss": -1.*tf.reduce_mean(rec_log_nce),
+                              "DB_NCELoss_w": -1. * tf.reduce_mean(rec_log_nce) * self.loss_nce_weight,
+                              "DB_L2Loss": -1.*tf.reduce_mean(rec_log_l2),
+                              "DB_L2Loss_w": -1.*tf.reduce_mean(rec_log_l2) * self.loss_l2_weight,
+                              "DB_KLLoss": tf.reduce_mean(kl),
+                              "DB_KLLoss_w": tf.reduce_mean(kl) * self.loss_kl_weight,
+                              "DB_Loss": tf.reduce_mean(self.loss)}
+
+            # intrinsic reward
+            self.intrinsic_reward = self.intrinsic_contrastive()
+            self.intrinsic_reward = tf.stop_gradient(self.intrinsic_reward)
+
+        # update the momentum network
+        self.init_updates, self.momentum_updates = self.get_momentum_updates(tau=self.tau)
+        print("*** DB Total Components:", len(self.ib_get_vars(name='DB/')), ", Total Variables:", self.ib_get_params(self.ib_get_vars(name='DB/')), "\n")
+
+    @staticmethod
+    def ib_get_vars(name):
+        return tf.get_collection(tf.GraphKeys.GLOBAL_VARIABLES, scope=name)
+
+    @staticmethod
+    def ib_get_params(vars):
+        return np.sum([np.prod(v.shape) for v in vars])
+
+    def get_momentum_updates(self, tau):       # tau=0.001
+        main_var = self.ib_get_vars(name='DB/DB_features/DB_main') + self.ib_get_vars(name="DB/DB_projection_main")
+        momentum_var = self.ib_get_vars(name='DB/DB_features_1/DB_momentum') + self.ib_get_vars(name="DB/DB_projection_momentum")
+
+        # print("\n\n momentum_var:", momentum_var)
+        assert len(main_var) > 0 and len(main_var) == len(momentum_var)
+        print("***In DB, feature & projection has ", len(main_var), "components, ", self.ib_get_params(main_var), "parameters.")
+
+        soft_updates = []
+        init_updates = []
+        assert len(main_var) == len(momentum_var)
+        for var, tvar in zip(main_var, momentum_var):
+            init_updates.append(tf.assign(tvar, var))
+            soft_updates.append(tf.assign(tvar, (1. - tau) * tvar + tau * var))
+        assert len(init_updates) == len(main_var)
+        assert len(soft_updates) == len(main_var)
+        return tf.group(*init_updates), tf.group(*soft_updates)
+
+    def get_features(self, x, momentum=False):     # x.shape=(None,None,84,84,4)
+        x_has_timesteps = (x.get_shape().ndims == 5)      # True
+        if x_has_timesteps:
+            sh = tf.shape(x)
+            x = flatten_two_dims(x)                       # (None,84,84,4)
+
+        if self.aug:
+            print(x.get_shape().as_list())
+            x = tf.image.random_crop(x, size=[128*16, 80, 80, 4])            # (None,80,80,4)
+            x = tf.pad(x, [[0, 0], [4, 4], [4, 4], [0, 0]], "SYMMETRIC")     # (None,88,88,4)
+            x = tf.image.random_crop(x, size=[128*16, 84, 84, 4])            # (None,84,84,4)
+
+        with tf.variable_scope(self.scope + "_features"):
+            x = (tf.to_float(x) - self.ob_mean) / self.ob_std
+            if momentum:
+                x = tf.stop_gradient(self.feature_conv_momentum(x))   # (None,512)
+            else:
+                x = self.feature_conv(x)                              # (None,512)
+        if x_has_timesteps:
+            x = unflatten_first_dim(x, sh)                            # (None,None,512)
+        return x
+
+    def intrinsic_contrastive(self):
+        kl = tfp.distributions.kl_divergence(self.latent_dis, self.prior_dis)  # (None, None, 128)
+        rew = tf.reduce_sum(kl, axis=-1)        # (None, None)
+        return rew
+
+    def calculate_db_reward(self, ob, last_ob, acs):
+        n_chunks = 8
+        n = ob.shape[0]
+        chunk_size = n // n_chunks
+        assert n % n_chunks == 0
+        sli = lambda i: slice(i * chunk_size, (i + 1) * chunk_size)
+
+        # compute reward
+        rew = np.concatenate([getsess().run(self.intrinsic_reward,
+                                            {self.obs: ob[sli(i)], self.last_ob: last_ob[sli(i)],
+                                            self.ac: acs[sli(i)]}) for i in range(n_chunks)], 0)
+        return rew
--- a/mpi_utils.py
+++ b/mpi_utils.py
@ -0,0 +1,33 @@
+import numpy as np
+import tensorflow as tf
+from mpi4py import MPI
+
+class MpiAdamOptimizer(tf.train.AdamOptimizer):
+    """Adam optimizer that averages gradients across mpi processes."""
+
+    def __init__(self, comm, **kwargs):
+        self.comm = comm
+        tf.train.AdamOptimizer.__init__(self, **kwargs)
+
+    def compute_gradients(self, loss, var_list, **kwargs):
+        grads_and_vars = tf.train.AdamOptimizer.compute_gradients(self, loss, var_list, **kwargs)
+        grads_and_vars = [(g, v) for g, v in grads_and_vars if g is not None]
+        flat_grad = tf.concat([tf.reshape(g, (-1,)) for g, v in grads_and_vars], axis=0)
+        shapes = [v.shape.as_list() for g, v in grads_and_vars]
+        sizes = [int(np.prod(s)) for s in shapes]
+
+        _task_id, num_tasks = self.comm.Get_rank(), self.comm.Get_size()
+        buf = np.zeros(sum(sizes), np.float32)
+
+        def _collect_grads(flat_grad):
+            self.comm.Allreduce(flat_grad, buf, op=MPI.SUM)
+            np.divide(buf, float(num_tasks), out=buf)
+            return buf
+
+        avg_flat_grad = tf.py_func(_collect_grads, [flat_grad], tf.float32)
+        avg_flat_grad.set_shape(flat_grad.shape)
+        avg_grads = tf.split(avg_flat_grad, sizes, axis=0)
+        avg_grads_and_vars = [(tf.reshape(g, v.shape), v)
+                              for g, (_, v) in zip(avg_grads, grads_and_vars)]
+
+        return avg_grads_and_vars
--- a/para.json
+++ b/para.json
@ -0,0 +1,101 @@
+{
+"standard": {
+	"Alien":{"kl": 0.001, "nce": 0.1},
+ 	"Asteroids":{"kl": 0.1, "nce": 0.01},
+	"BankHeist":{"kl": 0.001, "nce": 0.1},
+	"BeamRider":{"kl": 0.001, "nce": 0.01},
+	"Boxing":{"kl": 0.1, "nce":	0.1},
+	"Breakout":{"kl": 0.1, "nce": 0.1},
+	"Centipede":{"kl": 0.1, "nce": 0.1},
+	"ChopperCommand":{"kl": 0.1, "nce": 0.01},
+	"CrazyClimber":{"kl": 0.1, "nce": 0.1},
+	"Gopher":{"kl": 0.001, "nce": 0.01},
+	"Gravitar":{"kl": 0.1, "nce": 0.01},
+	"Kangaroo":{"kl": 0.1, "nce": 0.1},
+	"KungFuMaster":{"kl": 0.1, "nce": 0.01},
+	"MsPacman":{"kl": 0.1, "nce": 0.1},
+	"Seaquest":{"kl": 0.1, "nce": 0.1},
+	"Solaris":{"kl": 0.1, "nce": 0.1},
+	"Tennis":{"kl": 0.1, "nce":	0.01},
+	"TimePilot":{"kl": 0.1, "nce": 0.01},
+	"UpNDown":{"kl": 0.1, "nce": 0.01},
+	"VideoPinball":{"kl": 0.1, "nce": 0.01},
+	"WizardOfWor":{"kl": 0.1, "nce": 0.1},
+	"Zaxxon":{"kl": 0.1, "nce": 0.01},
+	"other":{"kl": 0.1, "nce":0.01}},
+
+"randomBox": {
+	"Alien":{"kl": 0.001, "nce": 0.1},
+	"Asteroids":{"kl": 0.1, "nce": 0.01},
+	"BankHeist":{"kl": 0.001, "nce": 0.1},
+	"BeamRider":{"kl": 0.001, "nce": 0.01},
+	"Boxing":{"kl": 0.1, "nce": 0.1},
+	"Breakout":{"kl": 0.1, "nce": 0.1},
+	"Centipede":{"kl": 0.1, "nce": 0.1},
+	"ChopperCommand":{"kl": 0.1, "nce": 0.01},
+	"CrazyClimber":{"kl": 0.001, "nce": 0.01},
+	"Gopher":{"kl": 0.001, "nce": 0.01},
+	"Gravitar":{"kl": 0.1, "nce": 0.01},
+	"Kangaroo":{"kl": 0.001, "nce": 0.01},
+	"KungFuMaster":{"kl": 0.001, "nce": 0.01},
+	"MsPacman":{"kl": 0.001, "nce": 0.01},
+	"Seaquest":{"kl": 0.001, "nce": 0.01},
+	"Solaris":{"kl": 0.1, "nce":0.1},
+	"Tennis":{"kl": 0.1, "nce":0.01},
+	"TimePilot":{"kl": 0.1, "nce":0.01},
+	"UpNDown":{"kl": 0.001, "nce":0.01},
+	"VideoPinball":{"kl": 0.1, "nce":0.01},
+	"WizardOfWor":{"kl": 0.1, "nce":0.1},
+	"Zaxxon":{"kl": 0.1, "nce":0.01},
+	"other":{"kl": 0.001, "nce":0.01}},
+
+"stickyAtari":{
+	"Alien":{"kl": 0.001, "nce": 0.1},
+	"Asteroids":{"kl": 0.1, "nce":	0.01},
+	"BankHeist":{"kl": 0.001, "nce": 0.1},
+	"BeamRider":{"kl": 0.001, "nce": 0.01},
+	"Boxing":{"kl": 0.1, "nce":	0.1},
+	"Breakout":{"kl": 0.1, "nce": 0.1},
+	"Centipede":{"kl": 0.1, "nce": 0.1},
+	"ChopperCommand":{"kl": 0.1, "nce":	0.01},
+	"CrazyClimber":{"kl": 0.1, "nce": 0.01},
+	"Gopher":{"kl": 0.001, "nce": 0.01},
+	"Gravitar":{"kl": 0.1, "nce": 0.01},
+	"Kangaroo":{"kl": 0.001, "nce":	0.01},
+	"KungFuMaster":{"kl": 0.001, "nce":	0.01},
+	"MsPacman":{"kl": 0.1, "nce": 0.1},
+	"Seaquest":{"kl": 0.1, "nce": 0.1},
+	"Solaris":{"kl": 0.1, "nce": 0.1},
+	"Tennis":{"kl": 0.1, "nce":	0.01},
+	"TimePilot":{"kl": 0.1, "nce": 0.01},
+	"UpNDown":{"kl": 0.1, "nce": 0.01},
+	"VideoPinball":{"kl": 0.1, "nce": 0.01},
+	"WizardOfWor":{"kl": 0.1, "nce": 0.1},
+	"Zaxxon":{"kl": 0.1, "nce":	0.01},
+	"other":{"kl": 0.1, "nce":0.01}},
+
+"pixelNoise": {
+	"Alien":{"kl": 0.001, "nce": 0.1},
+	"Asteroids":{"kl": 0.1, "nce": 0.01},
+	"BankHeist":{"kl": 0.001, "nce": 0.1},
+	"BeamRider":{"kl": 0.001, "nce": 0.01},
+	"Boxing":{"kl": 0.1, "nce": 0.1},
+	"Breakout":{"kl": 0.1, "nce": 0.1},
+	"Centipede":{"kl": 0.1, "nce": 0.1},
+	"ChopperCommand":{"kl": 0.1, "nce": 0.01},
+	"CrazyClimber":{"kl": 0.001, "nce": 0.01},
+	"Gopher":{"kl": 0.001, "nce": 0.01},
+	"Gravitar":{"kl": 0.1, "nce": 0.01},
+	"Kangaroo":{"kl": 0.001, "nce": 0.01},
+	"KungFuMaster":{"kl": 0.001, "nce": 0.01},
+	"MsPacman":{"kl": 0.001, "nce": 0.01},
+	"Seaquest":{"kl": 0.1, "nce": 0.1},
+	"Solaris":{"kl": 0.1, "nce": 0.1},
+	"Tennis":{"kl": 0.1, "nce": 0.01},
+	"TimePilot":{"kl": 0.1, "nce": 0.01},
+	"UpNDown":{"kl": 0.1, "nce": 0.01},
+	"VideoPinball":{"kl": 0.1, "nce": 0.01},
+	"WizardOfWor":{"kl": 0.1, "nce": 0.1},
+	"Zaxxon":{"kl": 0.1, "nce": 0.01},
+	"other":{"kl": 0.1, "nce":0.01}}
+}
--- a/recorder.py
+++ b/recorder.py
@ -0,0 +1,63 @@
+import os
+import pickle
+
+from baselines import logger
+from mpi4py import MPI
+
+class Recorder(object):
+    def __init__(self, nenvs, nlumps):
+        self.nenvs = nenvs
+        self.nlumps = nlumps
+        self.nenvs_per_lump = nenvs // nlumps
+        self.acs = [[] for _ in range(nenvs)]
+        self.int_rews = [[] for _ in range(nenvs)]
+        self.ext_rews = [[] for _ in range(nenvs)]
+        self.ep_infos = [{} for _ in range(nenvs)]
+        self.filenames = [self.get_filename(i) for i in range(nenvs)]
+        if MPI.COMM_WORLD.Get_rank() == 0:
+            logger.info("episode recordings saved to ", self.filenames[0])
+
+    def record(self, timestep, lump, acs, infos, int_rew, ext_rew, news):
+        for out_index in range(self.nenvs_per_lump):
+            in_index = out_index + lump * self.nenvs_per_lump
+            if timestep == 0:
+                self.acs[in_index].append(acs[out_index])
+            else:
+                if self.is_first_episode_step(in_index):
+                    try:
+                        self.ep_infos[in_index]['random_state'] = infos[out_index]['random_state']
+                    except:
+                        pass
+
+                self.int_rews[in_index].append(int_rew[out_index])
+                self.ext_rews[in_index].append(ext_rew[out_index])
+
+                if news[out_index]:
+                    self.ep_infos[in_index]['ret'] = infos[out_index]['episode']['r']
+                    self.ep_infos[in_index]['len'] = infos[out_index]['episode']['l']
+                    self.dump_episode(in_index)
+
+                self.acs[in_index].append(acs[out_index])
+
+    def dump_episode(self, i):
+        episode = {'acs': self.acs[i],
+                   'int_rew': self.int_rews[i],
+                   'info': self.ep_infos[i]}
+        filename = self.filenames[i]
+        if self.episode_worth_saving(i):
+            with open(filename, 'ab') as f:
+                pickle.dump(episode, f, protocol=-1)
+        self.acs[i].clear()
+        self.int_rews[i].clear()
+        self.ext_rews[i].clear()
+        self.ep_infos[i].clear()
+
+    def episode_worth_saving(self, i):
+        return (i == 0 and MPI.COMM_WORLD.Get_rank() == 0)
+
+    def is_first_episode_step(self, i):
+        return len(self.int_rews[i]) == 0
+
+    def get_filename(self, i):
+        filename = os.path.join(logger.get_dir(), 'env{}_{}.pk'.format(MPI.COMM_WORLD.Get_rank(), i))
+        return filename
--- a/rollouts.py
+++ b/rollouts.py
@ -0,0 +1,177 @@
+from collections import deque, defaultdict
+
+import numpy as np
+from mpi4py import MPI
+# from utils import add_noise
+from recorder import Recorder
+
+
+class Rollout(object):
+    def __init__(self, ob_space, ac_space, nenvs, nsteps_per_seg, nsegs_per_env, nlumps, envs, policy,
+                 int_rew_coeff, ext_rew_coeff, record_rollouts, dynamic_bottleneck):  #, noisy_box, noisy_p):
+        # int_rew_coeff=1.0, ext_rew_coeff=0.0, record_rollouts=True 
+        self.nenvs = nenvs                                          # 128
+        self.nsteps_per_seg = nsteps_per_seg                        # 128
+        self.nsegs_per_env = nsegs_per_env                          # 1
+        self.nsteps = self.nsteps_per_seg * self.nsegs_per_env      # 128
+        self.ob_space = ob_space                                    # Box (84,84,4)
+        self.ac_space = ac_space                                    # Discrete(4)
+        self.nlumps = nlumps                                        # 1
+        self.lump_stride = nenvs // self.nlumps                     # 128
+        self.envs = envs                
+        self.policy = policy
+        self.dynamic_bottleneck = dynamic_bottleneck                # Dynamic Bottleneck
+
+        self.reward_fun = lambda ext_rew, int_rew: ext_rew_coeff * np.clip(ext_rew, -1., 1.) + int_rew_coeff * int_rew
+
+        self.buf_vpreds = np.empty((nenvs, self.nsteps), np.float32)
+        self.buf_nlps = np.empty((nenvs, self.nsteps), np.float32)
+        self.buf_rews = np.empty((nenvs, self.nsteps), np.float32)
+        self.buf_ext_rews = np.empty((nenvs, self.nsteps), np.float32)
+        self.buf_acs = np.empty((nenvs, self.nsteps, *self.ac_space.shape), self.ac_space.dtype)
+        self.buf_obs = np.empty((nenvs, self.nsteps, *self.ob_space.shape), self.ob_space.dtype)
+        self.buf_obs_last = np.empty((nenvs, self.nsegs_per_env, *self.ob_space.shape), np.float32)
+
+        self.buf_news = np.zeros((nenvs, self.nsteps), np.float32)
+        self.buf_new_last = self.buf_news[:, 0, ...].copy()
+        self.buf_vpred_last = self.buf_vpreds[:, 0, ...].copy()
+
+        self.env_results = [None] * self.nlumps
+        self.int_rew = np.zeros((nenvs,), np.float32)
+
+        self.recorder = Recorder(nenvs=self.nenvs, nlumps=self.nlumps) if record_rollouts else None
+        self.statlists = defaultdict(lambda: deque([], maxlen=100))
+        self.stats = defaultdict(float)
+        self.best_ext_ret = None
+        self.all_visited_rooms = []
+        self.all_scores = []
+
+        self.step_count = 0
+
+        # add bai. Noise box in observation
+        # self.noisy_box = noisy_box
+        # self.noisy_p = noisy_p
+
+    def collect_rollout(self):
+        self.ep_infos_new = []
+        for t in range(self.nsteps):
+            self.rollout_step()
+        self.calculate_reward()
+        self.update_info()
+
+    def calculate_reward(self):               # Reward comes from Dynamic Bottleneck
+        db_rew = self.dynamic_bottleneck.calculate_db_reward(
+                    ob=self.buf_obs, last_ob=self.buf_obs_last, acs=self.buf_acs)
+        self.buf_rews[:] = self.reward_fun(int_rew=db_rew, ext_rew=self.buf_ext_rews)
+
+    def rollout_step(self):
+        t = self.step_count % self.nsteps
+        s = t % self.nsteps_per_seg
+        for l in range(self.nlumps):         # nclumps=1
+            obs, prevrews, news, infos = self.env_get(l)
+            # if t > 0:
+            #     prev_feat = self.prev_feat[l]
+            #     prev_acs = self.prev_acs[l]
+            for info in infos:
+                epinfo = info.get('episode', {})
+                mzepinfo = info.get('mz_episode', {})
+                retroepinfo = info.get('retro_episode', {})
+                epinfo.update(mzepinfo)
+                epinfo.update(retroepinfo)
+                if epinfo:
+                    if "n_states_visited" in info:
+                        epinfo["n_states_visited"] = info["n_states_visited"]
+                        epinfo["states_visited"] = info["states_visited"]
+                    self.ep_infos_new.append((self.step_count, epinfo))
+
+            # slice(0,128) lump_stride=128
+            sli = slice(l * self.lump_stride, (l + 1) * self.lump_stride)
+
+            acs, vpreds, nlps = self.policy.get_ac_value_nlp(obs)
+            self.env_step(l, acs)
+
+            # self.prev_feat[l] = dyn_feat
+            # self.prev_acs[l] = acs
+            self.buf_obs[sli, t] = obs        # obs.shape=(128,84,84,4)
+            self.buf_news[sli, t] = news      # shape=(128,)  True/False
+            self.buf_vpreds[sli, t] = vpreds  # shape=(128,)
+            self.buf_nlps[sli, t] = nlps      # -log pi(a|s), shape=(128,)
+            self.buf_acs[sli, t] = acs        # shape=(128,)
+            if t > 0:
+                self.buf_ext_rews[sli, t - 1] = prevrews   # prevrews.shape=(128,) 
+            if self.recorder is not None:
+                self.recorder.record(timestep=self.step_count, lump=l, acs=acs, infos=infos, int_rew=self.int_rew[sli],
+                                     ext_rew=prevrews, news=news)
+        
+        self.step_count += 1
+        if s == self.nsteps_per_seg - 1:     # nsteps_per_seg=128
+            for l in range(self.nlumps):     # nclumps=1
+                sli = slice(l * self.lump_stride, (l + 1) * self.lump_stride)
+                nextobs, ext_rews, nextnews, _ = self.env_get(l)
+                self.buf_obs_last[sli, t // self.nsteps_per_seg] = nextobs
+                if t == self.nsteps - 1:        # t=127
+                    self.buf_new_last[sli] = nextnews
+                    self.buf_ext_rews[sli, t] = ext_rews    # 
+                    _, self.buf_vpred_last[sli], _ = self.policy.get_ac_value_nlp(nextobs)  # 
+
+    def update_info(self):
+        all_ep_infos = MPI.COMM_WORLD.allgather(self.ep_infos_new)
+        all_ep_infos = sorted(sum(all_ep_infos, []), key=lambda x: x[0])
+        if all_ep_infos:
+            all_ep_infos = [i_[1] for i_ in all_ep_infos]  # remove the step_count
+            keys_ = all_ep_infos[0].keys()
+            all_ep_infos = {k: [i[k] for i in all_ep_infos] for k in keys_}
+            # all_ep_infos: {'r': [0.0, 0.0, 0.0], 'l': [124, 125, 127], 't': [6.60745, 12.034875, 10.772788]}
+
+            self.statlists['eprew'].extend(all_ep_infos['r'])
+            self.stats['eprew_recent'] = np.mean(all_ep_infos['r'])
+            self.statlists['eplen'].extend(all_ep_infos['l'])
+            self.stats['epcount'] += len(all_ep_infos['l'])
+            self.stats['tcount'] += sum(all_ep_infos['l'])
+            if 'visited_rooms' in keys_:
+                # Montezuma specific logging.
+                self.stats['visited_rooms'] = sorted(list(set.union(*all_ep_infos['visited_rooms'])))
+                self.stats['pos_count'] = np.mean(all_ep_infos['pos_count'])
+                self.all_visited_rooms.extend(self.stats['visited_rooms'])
+                self.all_scores.extend(all_ep_infos["r"])
+                self.all_scores = sorted(list(set(self.all_scores)))
+                self.all_visited_rooms = sorted(list(set(self.all_visited_rooms)))
+                if MPI.COMM_WORLD.Get_rank() == 0:
+                    print("All visited rooms")
+                    print(self.all_visited_rooms)
+                    print("All scores")
+                    print(self.all_scores)
+            if 'levels' in keys_:
+                # Retro logging
+                temp = sorted(list(set.union(*all_ep_infos['levels'])))
+                self.all_visited_rooms.extend(temp)
+                self.all_visited_rooms = sorted(list(set(self.all_visited_rooms)))
+                if MPI.COMM_WORLD.Get_rank() == 0:
+                    print("All visited levels")
+                    print(self.all_visited_rooms)
+
+            current_max = np.max(all_ep_infos['r'])
+        else:
+            current_max = None
+        self.ep_infos_new = []
+
+        # best_ext_ret
+        if current_max is not None:
+            if (self.best_ext_ret is None) or (current_max > self.best_ext_ret):
+                self.best_ext_ret = current_max
+        self.current_max = current_max
+
+    def env_step(self, l, acs):
+        self.envs[l].step_async(acs)
+        self.env_results[l] = None
+
+    def env_get(self, l):
+        if self.step_count == 0:
+            ob = self.envs[l].reset()
+            out = self.env_results[l] = (ob, None, np.ones(self.lump_stride, bool), {})
+        else:
+            if self.env_results[l] is None:
+                out = self.env_results[l] = self.envs[l].step_wait()
+            else:
+                out = self.env_results[l]
+        return out
--- a/run.py
+++ b/run.py
@ -0,0 +1,287 @@
+#!/usr/bin/env python
+try:
+    from OpenGL import GLU
+except:
+    print("no OpenGL.GLU")
+import functools
+import os.path as osp
+from functools import partial
+import os
+import gym
+import tensorflow as tf
+from baselines import logger
+from baselines.bench import Monitor
+from baselines.common.atari_wrappers import NoopResetEnv, FrameStack
+from mpi4py import MPI
+
+from dynamic_bottleneck import DynamicBottleneck
+from cnn_policy import CnnPolicy
+from cppo_agent import PpoOptimizer
+from utils import random_agent_ob_mean_std
+from wrappers import MontezumaInfoWrapper, make_mario_env, make_robo_pong, make_robo_hockey, \
+    make_multi_pong, AddRandomStateToInfo, MaxAndSkipEnv, ProcessFrame84, ExtraTimeLimit, StickyActionEnv
+import datetime
+from wrappers import PixelNoiseWrapper, RandomBoxNoiseWrapper
+import json
+
+getsess = tf.get_default_session
+
+
+def start_experiment(**args):
+    make_env = partial(make_env_all_params, add_monitor=True, args=args)
+
+    trainer = Trainer(make_env=make_env,
+                      num_timesteps=args['num_timesteps'], hps=args,
+                      envs_per_process=args['envs_per_process'])
+    log, tf_sess, saver, logger_dir = get_experiment_environment(**args)
+    with log, tf_sess:
+        logdir = logger.get_dir()
+        print("results will be saved to ", logdir)
+        trainer.train(saver, logger_dir)
+
+
+class Trainer(object):
+    def __init__(self, make_env, hps, num_timesteps, envs_per_process):
+        self.make_env = make_env
+        self.hps = hps
+        self.envs_per_process = envs_per_process
+        self.num_timesteps = num_timesteps
+        self._set_env_vars()   
+
+        self.policy = CnnPolicy(scope='pol',
+                                ob_space=self.ob_space,
+                                ac_space=self.ac_space,
+                                hidsize=512,
+                                feat_dim=512,
+                                ob_mean=self.ob_mean,
+                                ob_std=self.ob_std,
+                                layernormalize=False,
+                                nl=tf.nn.leaky_relu)
+
+        self.dynamic_bottleneck = DynamicBottleneck(
+                    policy=self.policy, feat_dim=512, tau=hps['momentum_tau'], loss_kl_weight=hps['loss_kl_weight'],
+                    loss_nce_weight=hps['loss_nce_weight'], loss_l2_weight=hps['loss_l2_weight'], aug=hps['aug'])
+
+        self.agent = PpoOptimizer(
+            scope='ppo',
+            ob_space=self.ob_space,
+            ac_space=self.ac_space,
+            stochpol=self.policy,
+            use_news=hps['use_news'],
+            gamma=hps['gamma'],
+            lam=hps["lambda"],
+            nepochs=hps['nepochs'],
+            nminibatches=hps['nminibatches'],
+            lr=hps['lr'],
+            cliprange=0.1,
+            nsteps_per_seg=hps['nsteps_per_seg'],
+            nsegs_per_env=hps['nsegs_per_env'],
+            ent_coef=hps['ent_coeff'],
+            normrew=hps['norm_rew'],
+            normadv=hps['norm_adv'],
+            ext_coeff=hps['ext_coeff'],
+            int_coeff=hps['int_coeff'],
+            dynamic_bottleneck=self.dynamic_bottleneck
+        )
+
+        self.agent.to_report['db'] = tf.reduce_mean(self.dynamic_bottleneck.loss)
+        self.agent.total_loss += self.agent.to_report['db']
+
+        self.agent.db_loss = tf.reduce_mean(self.dynamic_bottleneck.loss)
+
+        self.agent.to_report['feat_var'] = tf.reduce_mean(tf.nn.moments(self.dynamic_bottleneck.features, [0, 1])[1])
+
+    def _set_env_vars(self):
+        env = self.make_env(0, add_monitor=False)
+        # ob_space.shape=(84, 84, 4)     ac_space.shape=Discrete(4)
+        self.ob_space, self.ac_space = env.observation_space, env.action_space
+        self.ob_mean, self.ob_std = random_agent_ob_mean_std(env)
+        del env
+        self.envs = [functools.partial(self.make_env, i) for i in range(self.envs_per_process)]
+
+    def train(self, saver, logger_dir):
+        self.agent.start_interaction(self.envs, nlump=self.hps['nlumps'], dynamic_bottleneck=self.dynamic_bottleneck)
+        previous_saved_tcount = 0
+
+        # add bai. initialize IB parameters
+        print("***Init Momentum Network in Dynamic-Bottleneck.")
+        getsess().run(self.dynamic_bottleneck.init_updates)
+
+        while True:
+            info = self.agent.step()         # 
+            if info['DB_loss_info']:         # add bai. for debug
+                logger.logkvs(info['DB_loss_info'])
+            if info['update']:
+                logger.logkvs(info['update'])
+                logger.dumpkvs()
+            if self.hps["save_period"] and (int(self.agent.rollout.stats['tcount'] / self.hps["save_freq"]) > previous_saved_tcount):
+                previous_saved_tcount += 1
+                save_path = saver.save(tf.get_default_session(), os.path.join(logger_dir, "model_"+str(previous_saved_tcount)+".ckpt"))
+                print("Periodically model saved in path:", save_path)
+            if self.agent.rollout.stats['tcount'] > self.num_timesteps:
+                save_path = saver.save(tf.get_default_session(), os.path.join(logger_dir, "model_last.ckpt"))
+                print("Model saved in path:", save_path)
+                break
+
+        self.agent.stop_interaction()
+
+
+def make_env_all_params(rank, add_monitor, args):
+    if args["env_kind"] == 'atari':
+        env = gym.make(args['env'])
+        assert 'NoFrameskip' in env.spec.id
+        if args["stickyAtari"]:               # 
+            env._max_episode_steps = args['max_episode_steps'] * 4
+            env = StickyActionEnv(env)
+        else:
+            env = NoopResetEnv(env, noop_max=args['noop_max'])
+        env = MaxAndSkipEnv(env, skip=4)            # 
+        if args['pixelNoise']:                      # add pixel noise
+            env = PixelNoiseWrapper(env)
+        if args['randomBoxNoise']:
+            env = RandomBoxNoiseWrapper(env)
+        env = ProcessFrame84(env, crop=False)       #
+        env = FrameStack(env, 4)                    #
+        # env = ExtraTimeLimit(env, args['max_episode_steps'])
+        if not args["stickyAtari"]:
+            env = ExtraTimeLimit(env, args['max_episode_steps'])  # 
+        if 'Montezuma' in args['env']:              # 
+            env = MontezumaInfoWrapper(env)
+        env = AddRandomStateToInfo(env)
+    elif args["env_kind"] == 'mario':               # 
+        env = make_mario_env()
+    elif args["env_kind"] == "retro_multi":         # 
+        env = make_multi_pong()
+    elif args["env_kind"] == 'robopong':
+        if args["env"] == "pong":
+            env = make_robo_pong()
+        elif args["env"] == "hockey":
+            env = make_robo_hockey()
+
+    if add_monitor:
+        env = Monitor(env, osp.join(logger.get_dir(), '%.2i' % rank))
+    return env
+
+
+def get_experiment_environment(**args):
+    from utils import setup_mpi_gpus, setup_tensorflow_session
+    from baselines.common import set_global_seeds
+    from gym.utils.seeding import hash_seed
+    process_seed = args["seed"] + 1000 * MPI.COMM_WORLD.Get_rank()
+    process_seed = hash_seed(process_seed, max_bytes=4)
+    set_global_seeds(process_seed)
+    setup_mpi_gpus()
+
+    # log dir name
+    logger_dir = './logs/' + args["env"].replace("NoFrameskip-v4", "")
+    # logger_dir += "-KLloss-"+str(args["loss_kl_weight"])     
+    # logger_dir += "-NCEloss-" + str(args["loss_nce_weight"]) 
+    # logger_dir += "-L2loss-" + str(args["loss_l2_weight"])
+    if args['pixelNoise'] is True:
+        logger_dir += "-pixelNoise"
+    if args['randomBoxNoise'] is True:
+        logger_dir += "-randomBoxNoise"
+    if args['stickyAtari'] is True:
+        logger_dir += "-stickyAtari"
+    if args["comments"] != "":
+        logger_dir += '-' + args["comments"]
+    logger_dir += datetime.datetime.now().strftime("-%m-%d-%H-%M-%S")
+
+    # write config
+    logger.configure(dir=logger_dir)
+    with open(os.path.join(logger_dir, 'parameters.txt'), 'w') as f:
+        f.write("\n".join([str(x[0]) + ": " + str(x[1]) for x in args.items()]))
+
+    logger_context = logger.scoped_configure(
+        dir=logger_dir,
+        format_strs=['stdout', 'log', 'csv'] if MPI.COMM_WORLD.Get_rank() == 0 else ['log'])
+    tf_context = setup_tensorflow_session()
+
+    # saver 
+    saver = tf.train.Saver()
+    return logger_context, tf_context, saver, logger_dir
+
+
+def add_environments_params(parser):
+    parser.add_argument('--env', help='environment ID', default='BreakoutNoFrameskip-v4', type=str)
+    parser.add_argument('--max-episode-steps', help='maximum number of timesteps for episode', default=4500, type=int)
+    parser.add_argument('--env_kind', type=str, default="atari")
+    parser.add_argument('--noop_max', type=int, default=30)
+    parser.add_argument('--stickyAtari', action='store_true', default=False)
+    parser.add_argument('--pixelNoise', action='store_true', default=False)
+    parser.add_argument('--randomBoxNoise', action='store_true', default=False)
+
+
+def add_optimization_params(parser):
+    parser.add_argument('--lambda', type=float, default=0.95)
+    parser.add_argument('--gamma', type=float, default=0.99)                  # lambda, gamma 用于计算 GAE advantage
+    parser.add_argument('--nminibatches', type=int, default=8)
+    parser.add_argument('--norm_adv', type=int, default=1)                    # 
+    parser.add_argument('--norm_rew', type=int, default=1)                    # 
+    parser.add_argument('--lr', type=float, default=1e-4)                     # 
+    parser.add_argument('--ent_coeff', type=float, default=0.001)             # 
+    parser.add_argument('--nepochs', type=int, default=3)                     # 
+    parser.add_argument('--num_timesteps', type=int, default=int(1e8))
+    parser.add_argument('--save_period', action='store_true', default=False)  # 1e7
+    parser.add_argument('--save_freq', type=int, default=int(1e7))            # 1e7
+    # Parameters of Dynamic-Bottleneck
+    parser.add_argument('--loss_kl_weight', type=float, default=0.1)          # KL loss weight
+    parser.add_argument('--loss_l2_weight', type=float, default=0.1)        # l2 loss weight
+    parser.add_argument('--loss_nce_weight', type=float, default=0.01)         # nce loss weight
+    parser.add_argument('--momentum_tau', type=float, default=0.001)          # momentum tau
+    parser.add_argument('--aug', action='store_true', default=False)          # data augmentation (bottleneck)
+    parser.add_argument('--comments', type=str, default="")
+
+
+def add_rollout_params(parser):
+    parser.add_argument('--nsteps_per_seg', type=int, default=128)
+    parser.add_argument('--nsegs_per_env', type=int, default=1)
+    parser.add_argument('--envs_per_process', type=int, default=128)
+    parser.add_argument('--nlumps', type=int, default=1)
+
+
+if __name__ == '__main__':
+    import argparse
+
+    parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
+    add_environments_params(parser)
+    add_optimization_params(parser)
+    add_rollout_params(parser)
+
+    parser.add_argument('--exp_name', type=str, default='')
+    parser.add_argument('--seed', help='RNG seed', type=int, default=0)
+    parser.add_argument('--dyn_from_pixels', type=int, default=0)     
+    parser.add_argument('--use_news', type=int, default=0)
+    parser.add_argument('--ext_coeff', type=float, default=0.)
+    parser.add_argument('--int_coeff', type=float, default=1.)
+    parser.add_argument('--layernorm', type=int, default=0)
+
+    args = parser.parse_args()
+
+    # load paramets
+    with open("para.json") as f:
+        d = json.load(f) 
+    env_name_para = args.env.replace("NoFrameskip-v4", "")
+    if env_name_para not in list(d["standard"].keys()):
+        env_name_para = "other"
+    
+    if args.pixelNoise is True:
+        print("pixel noise")
+        args.loss_kl_weight = d["pixelNoise"][env_name_para]["kl"]
+        args.loss_nce_weight = d["pixelNoise"][env_name_para]["nce"]
+    elif args.randomBoxNoise is True:
+        print("random box noise")
+        args.loss_kl_weight = d["randomBox"][env_name_para]["kl"]
+        args.loss_nce_weight = d["randomBox"][env_name_para]["nce"]
+    elif args.stickyAtari is True:
+        print("sticky noise")
+        args.loss_kl_weight = d["stickyAtari"][env_name_para]["kl"]
+        args.loss_nce_weight = d["stickyAtari"][env_name_para]["nce"]
+    else:
+        print("standard atari")
+        args.loss_kl_weight = d["standard"][env_name_para]["kl"]
+        args.loss_nce_weight = d["standard"][env_name_para]["nce"]
+
+    print("env_name:", env_name_para, "kl:", args.loss_kl_weight, ", nce:", args.loss_nce_weight)
+    start_experiment(**args.__dict__)
+
--- a/utils.py
+++ b/utils.py
@ -0,0 +1,430 @@
+import multiprocessing
+import os
+import platform
+from functools import partial
+
+import numpy as np
+import tensorflow as tf
+from baselines.common.tf_util import normc_initializer
+from mpi4py import MPI
+import tensorflow_probability as tfp
+import os
+import numpy as np
+tfd = tfp.distributions
+
+layers = tf.keras.layers
+
+
+def bcast_tf_vars_from_root(sess, vars):
+    """
+    Send the root node's parameters to every worker.
+
+    Arguments:
+      sess: the TensorFlow session.
+      vars: all parameter variables including optimizer's
+    """
+    rank = MPI.COMM_WORLD.Get_rank()
+    for var in vars:
+        if rank == 0:
+            MPI.COMM_WORLD.bcast(sess.run(var))
+        else:
+            sess.run(tf.assign(var, MPI.COMM_WORLD.bcast(None)))
+
+
+def get_mean_and_std(array):
+    comm = MPI.COMM_WORLD
+    task_id, num_tasks = comm.Get_rank(), comm.Get_size()
+    local_mean = np.array(np.mean(array))
+    sum_of_means = np.zeros((), dtype=np.float32)
+    comm.Allreduce(local_mean, sum_of_means, op=MPI.SUM)
+    mean = sum_of_means / num_tasks
+
+    n_array = array - mean
+    sqs = n_array ** 2
+    local_mean = np.array(np.mean(sqs))
+    sum_of_means = np.zeros((), dtype=np.float32)
+    comm.Allreduce(local_mean, sum_of_means, op=MPI.SUM)
+    var = sum_of_means / num_tasks
+    std = var ** 0.5
+    return mean, std
+
+
+def guess_available_gpus(n_gpus=None):
+    if n_gpus is not None:
+        return list(range(n_gpus))
+    if 'CUDA_VISIBLE_DEVICES' in os.environ:
+        cuda_visible_divices = os.environ['CUDA_VISIBLE_DEVICES']
+        cuda_visible_divices = cuda_visible_divices.split(',')
+        return [int(n) for n in cuda_visible_divices]
+    nvidia_dir = '/proc/driver/nvidia/gpus/'
+    if os.path.exists(nvidia_dir):
+        n_gpus = len(os.listdir(nvidia_dir))
+        return list(range(n_gpus))
+    raise Exception("Couldn't guess the available gpus on this machine")
+
+
+def setup_mpi_gpus():
+    """
+    Set CUDA_VISIBLE_DEVICES using MPI.
+    """
+    available_gpus = guess_available_gpus()
+
+    node_id = platform.node()
+    nodes_ordered_by_rank = MPI.COMM_WORLD.allgather(node_id)
+    processes_outranked_on_this_node = [n for n in nodes_ordered_by_rank[:MPI.COMM_WORLD.Get_rank()] if n == node_id]
+    local_rank = len(processes_outranked_on_this_node)
+    os.environ['CUDA_VISIBLE_DEVICES'] = str(available_gpus[local_rank])
+
+
+def guess_available_cpus():
+    return int(multiprocessing.cpu_count())
+
+
+def setup_tensorflow_session():
+    num_cpu = guess_available_cpus()
+
+    tf_config = tf.ConfigProto(
+        inter_op_parallelism_threads=num_cpu,
+        intra_op_parallelism_threads=num_cpu
+    )
+    tf_config.gpu_options.allow_growth = True
+    return tf.Session(config=tf_config)
+
+
+def random_agent_ob_mean_std(env, nsteps=10000):
+    ob = np.asarray(env.reset())
+    if MPI.COMM_WORLD.Get_rank() == 0:
+        obs = [ob]
+        for _ in range(nsteps):
+            ac = env.action_space.sample()
+            ob, _, done, _ = env.step(ac)
+            if done:
+                ob = env.reset()
+            obs.append(np.asarray(ob))
+        mean = np.mean(obs, 0).astype(np.float32)
+        std = np.std(obs, 0).mean().astype(np.float32)
+    else:
+        mean = np.empty(shape=ob.shape, dtype=np.float32)
+        std = np.empty(shape=(), dtype=np.float32)
+    MPI.COMM_WORLD.Bcast(mean, root=0)
+    MPI.COMM_WORLD.Bcast(std, root=0)
+    return mean, std
+
+
+def layernorm(x):
+    m, v = tf.nn.moments(x, -1, keep_dims=True)
+    return (x - m) / (tf.sqrt(v) + 1e-8)
+
+
+getsess = tf.get_default_session
+
+fc = partial(tf.layers.dense, kernel_initializer=normc_initializer(1.))
+activ = tf.nn.relu
+
+
+def flatten_two_dims(x):
+    return tf.reshape(x, [-1] + x.get_shape().as_list()[2:])
+
+
+def unflatten_first_dim(x, sh):
+    return tf.reshape(x, [sh[0], sh[1]] + x.get_shape().as_list()[1:])
+
+
+def add_pos_bias(x):
+    with tf.variable_scope(name_or_scope=None, default_name="pos_bias"):
+        b = tf.get_variable(name="pos_bias", shape=[1] + x.get_shape().as_list()[1:], dtype=tf.float32,
+                            initializer=tf.zeros_initializer())
+        return x + b
+
+
+def small_convnet(x, nl, feat_dim, last_nl, layernormalize, batchnorm=False):
+    # nl=512, feat_dim=None, last_nl=0, layernormalize=0, batchnorm=False
+    bn = tf.layers.batch_normalization if batchnorm else lambda x: x
+    x = bn(tf.layers.conv2d(x, filters=32, kernel_size=8, strides=(4, 4), activation=nl))
+    x = bn(tf.layers.conv2d(x, filters=64, kernel_size=4, strides=(2, 2), activation=nl))
+    x = bn(tf.layers.conv2d(x, filters=64, kernel_size=3, strides=(1, 1), activation=nl))
+    x = tf.reshape(x, (-1, np.prod(x.get_shape().as_list()[1:])))
+    x = bn(fc(x, units=feat_dim, activation=None))
+    if last_nl is not None:
+        x = last_nl(x)
+    if layernormalize:
+        x = layernorm(x)
+    return x
+
+
+# new add
+class SmallConv(tf.keras.Model):
+    def __init__(self, feat_dim, name=None):
+        super(SmallConv, self).__init__(name=name)
+        self.conv1 = layers.Conv2D(filters=32, kernel_size=8, strides=(4, 4), activation=tf.nn.leaky_relu)
+        self.conv2 = layers.Conv2D(filters=64, kernel_size=4, strides=(2, 2), activation=tf.nn.leaky_relu)
+        self.conv3 = layers.Conv2D(filters=64, kernel_size=3, strides=(1, 1), activation=tf.nn.leaky_relu)
+        self.fc = layers.Dense(units=feat_dim, activation=None)
+
+    def call(self, x):
+        x = self.conv1(x)
+        x = self.conv2(x)
+        x = self.conv3(x)
+        x = tf.reshape(x, (-1, np.prod(x.get_shape().as_list()[1:])))
+        x = self.fc(x)
+        return x
+
+
+# new add
+class ResBlock(tf.keras.Model):
+    def __init__(self, hidsize):
+        super(ResBlock, self).__init__()
+        self.hidsize = hidsize
+        self.dense1 = layers.Dense(hidsize, activation=tf.nn.leaky_relu)
+        self.dense2 = layers.Dense(hidsize, activation=None)
+
+    def call(self, xs):
+        x, a = xs             
+        res = self.dense1(tf.concat([x, a], axis=-1))
+        res = self.dense2(tf.concat([res, a], axis=-1))
+        assert x.get_shape().as_list()[-1] == self.hidsize and res.get_shape().as_list()[-1] == self.hidsize
+        return x + res
+
+
+# new add
+class TransitionNetwork(tf.keras.Model):
+    def __init__(self, hidsize=256, name=None):
+        super(TransitionNetwork, self).__init__(name=name)
+        self.hidsize = hidsize
+        self.dense1 = layers.Dense(hidsize, activation=tf.nn.leaky_relu)
+        self.residual_block1 = ResBlock(hidsize)
+        self.residual_block2 = ResBlock(hidsize)
+        self.dense2 = layers.Dense(hidsize, activation=None)
+
+    def call(self, xs):
+        s, a = xs
+        sh = tf.shape(a)                                   # sh=(None,None,4)
+        assert len(s.get_shape().as_list()) == 3 and s.get_shape().as_list()[-1] in [512, 256]
+        assert len(a.get_shape().as_list()) == 3
+
+        x = flatten_two_dims(s)                            # shape=(None,512)
+        a = flatten_two_dims(a)                            # shape=(None,4)
+
+        #
+        x = self.dense1(tf.concat([x, a], axis=-1))        # (None, 256)
+        x = self.residual_block1([x, a])                   # (None, 256)
+        x = self.residual_block2([x, a])                   # (None, 256)
+        x = self.dense2(tf.concat([x, a], axis=-1))        # (None, 256)
+        x = unflatten_first_dim(x, sh)                     # shape=(None, None, 256)
+        return x
+
+
+class GenerativeNetworkGaussianFix(tf.keras.Model):
+    def __init__(self, hidsize=256, outsize=512, name=None):
+        super(GenerativeNetworkGaussianFix, self).__init__(name=name)
+        self.outsize = outsize
+        self.dense1 = layers.Dense(hidsize, activation=tf.nn.leaky_relu)
+        self.dense2 = layers.Dense(outsize, activation=tf.nn.leaky_relu)
+        self.var_single = tf.Variable(1.0, trainable=True)
+
+        self.residual_block1 = tf.keras.Sequential([
+            layers.Dense(hidsize, activation=tf.nn.leaky_relu),   # 256
+            layers.Dense(hidsize, activation=None)
+        ])
+        self.residual_block2 = tf.keras.Sequential([
+            layers.Dense(hidsize, activation=tf.nn.leaky_relu),   # 256
+            layers.Dense(hidsize, activation=None)
+        ])
+        self.residual_block3 = tf.keras.Sequential([
+            layers.Dense(outsize, activation=tf.nn.leaky_relu),   # 512
+            layers.Dense(outsize, activation=None)
+        ])
+
+    def call(self, z):
+        sh = tf.shape(z)                       # z, sh=(None,None,128)
+        assert z.get_shape().as_list()[-1] == 128 and len(z.get_shape().as_list()) == 3
+        z = flatten_two_dims(z)                # shape=(None,128)
+
+        x = self.dense1(z)                            # (None, 256)
+        x = x + self.residual_block1(x)               # (None, 256)
+        x = x + self.residual_block2(x)               # (None, 256)
+
+        # variance
+        var_tile = tf.tile(tf.expand_dims(tf.expand_dims(self.var_single, axis=0), axis=0), [16*128, self.outsize])
+
+        # mean
+        x = self.dense2(x)                            # (None, 512)
+        x = x + self.residual_block3(x)               # (None, 512) mean
+
+        # concat and return
+        x = tf.concat([x, var_tile], axis=-1)         # (None, 1024)
+        x = unflatten_first_dim(x, sh)                # shape=(None, None, 1024)
+        return x
+
+
+class GenerativeNetworkGaussian(tf.keras.Model):
+    def __init__(self, hidsize=256, outsize=512, name=None):
+        super(GenerativeNetworkGaussian, self).__init__(name=name)
+        self.dense1 = layers.Dense(hidsize, activation=tf.nn.leaky_relu)
+        self.dense2 = layers.Dense(outsize, activation=tf.nn.leaky_relu)
+        self.dense3 = layers.Dense(outsize*2, activation=tf.nn.leaky_relu)
+
+        self.residual_block1 = tf.keras.Sequential([
+            layers.Dense(hidsize, activation=tf.nn.leaky_relu),   # 256
+            layers.Dense(hidsize, activation=None)
+        ])
+        self.residual_block2 = tf.keras.Sequential([
+            layers.Dense(hidsize, activation=tf.nn.leaky_relu),   # 256
+            layers.Dense(hidsize, activation=None)
+        ])
+        self.residual_block3 = tf.keras.Sequential([
+            layers.Dense(outsize, activation=tf.nn.leaky_relu),   # 512
+            layers.Dense(outsize, activation=None)
+        ])
+
+    def call(self, z):
+        sh = tf.shape(z)                       # z, sh=(None,None,128)
+        assert z.get_shape().as_list()[-1] == 128 and len(z.get_shape().as_list()) == 3
+        z = flatten_two_dims(z)                # shape=(None,128)
+
+        x = self.dense1(z)                     # (None, 256)
+        x = x + self.residual_block1(x)        # (None, 256)
+        x = x + self.residual_block2(x)        # (None, 256)
+        x = self.dense2(x)                     # (None, 512)
+        x = x + self.residual_block3(x)        # (None, 512)
+        x = self.dense3(x)                     # (None, 1024)
+        x = unflatten_first_dim(x, sh)         # shape=(None, None, 1024)
+        return x
+
+
+class ProjectionHead(tf.keras.Model):
+    def __init__(self, name=None):
+        super(ProjectionHead, self).__init__(name=name)
+        self.dense1 = layers.Dense(256, activation=None)
+        self.dense2 = layers.Dense(128, activation=None)
+        self.ln1 = layers.LayerNormalization()
+        self.ln2 = layers.LayerNormalization()
+
+    def call(self, x, ln=False):
+        assert x.get_shape().as_list()[-1] == 512 and len(x.get_shape().as_list()) == 3
+        x = flatten_two_dims(x)        # shape=(None,512)
+        x = self.dense1(x)             # shape=(None,256)
+        x = self.ln1(x)                # layer norm
+        x = tf.nn.relu(x)              # relu
+        x = self.dense2(x)             # shape=(None,128)
+        x = self.ln2(x)
+        return x
+
+
+class ContrastiveHead(tf.keras.Model):
+    def __init__(self, temperature, z_dim=128, name=None):
+        super(ContrastiveHead, self).__init__(name=name)
+        self.W = tf.Variable(tf.random.uniform((z_dim, z_dim)), name='W_Contras')
+        self.temperature = temperature
+
+    def call(self, z_a_pos):
+        z_a, z_pos = z_a_pos
+        Wz = tf.linalg.matmul(self.W, z_pos, transpose_b=True)  # (z_dim,B) Wz.shape = (50,32)
+        logits = tf.linalg.matmul(z_a, Wz)                      # (B,B)     logits.shape = (32,32)
+        logits = logits - tf.reduce_max(logits, 1)[:, None]     # logits
+        logits = logits * self.temperature
+        return logits
+
+
+def rec_log_prob(rec_params, s_next, min_sigma=1e-2):
+    # rec_params.shape = (None, None, 1024)
+    distr = normal_parse_params(rec_params, min_sigma)
+    log_prob = distr.log_prob(s_next)               # (None, None, 512)
+    assert len(log_prob.get_shape().as_list()) == 3 and log_prob.get_shape().as_list()[-1] == 512
+    return tf.reduce_sum(log_prob, axis=-1)
+
+
+def normal_parse_params(params, min_sigma=0.0):
+    n = params.shape[0]
+    d = params.shape[-1]                    # channel
+    mu = params[..., :d // 2]               # 
+    sigma_params = params[..., d // 2:]
+    sigma = tf.math.softplus(sigma_params)
+    sigma = tf.clip_by_value(t=sigma, clip_value_min=min_sigma, clip_value_max=1e5)
+
+    distr = tfd.Normal(loc=mu, scale=sigma)   # 
+    return distr
+
+
+def tile_images(array, n_cols=None, max_images=None, div=1):
+    if max_images is not None:
+        array = array[:max_images]
+    if len(array.shape) == 4 and array.shape[3] == 1:
+        array = array[:, :, :, 0]
+    assert len(array.shape) in [3, 4], "wrong number of dimensions - shape {}".format(array.shape)
+    if len(array.shape) == 4:
+        assert array.shape[3] == 3, "wrong number of channels- shape {}".format(array.shape)
+    if n_cols is None:
+        n_cols = max(int(np.sqrt(array.shape[0])) // div * div, div)
+    n_rows = int(np.ceil(float(array.shape[0]) / n_cols))
+
+    def cell(i, j):
+        ind = i * n_cols + j
+        return array[ind] if ind < array.shape[0] else np.zeros(array[0].shape)
+
+    def row(i):
+        return np.concatenate([cell(i, j) for j in range(n_cols)], axis=1)
+
+    return np.concatenate([row(i) for i in range(n_rows)], axis=0)
+
+
+
+import distutils.spawn
+import subprocess
+
+
+def save_np_as_mp4(frames, filename, frames_per_sec=30):
+    print(filename)
+    if distutils.spawn.find_executable('avconv') is not None:
+        backend = 'avconv'
+    elif distutils.spawn.find_executable('ffmpeg') is not None:
+        backend = 'ffmpeg'
+    else:
+        raise NotImplementedError(
+            """Found neither the ffmpeg nor avconv executables. On OS X, you can install ffmpeg via `brew install ffmpeg`. On most Ubuntu variants, `sudo apt-get install ffmpeg` should do it. On Ubuntu 14.04, however, you'll need to install avconv with `sudo apt-get install libav-tools`.""")
+
+    h, w = frames[0].shape[:2]
+    output_path = filename
+    cmdline = (backend,
+               '-nostats',
+               '-loglevel', 'error',  # suppress warnings
+               '-y',
+               '-r', '%d' % frames_per_sec,
+
+               # input
+               '-f', 'rawvideo',
+               '-s:v', '{}x{}'.format(w, h),
+               '-pix_fmt', 'rgb24',
+               '-i', '-',  # this used to be /dev/stdin, which is not Windows-friendly
+
+               # output
+               '-vcodec', 'libx264',
+               '-pix_fmt', 'yuv420p',
+               output_path)
+
+    print('saving ', output_path)
+    if hasattr(os, 'setsid'):                            # setsid not present on Windows
+        process = subprocess.Popen(cmdline, stdin=subprocess.PIPE, preexec_fn=os.setsid)
+    else:
+        process = subprocess.Popen(cmdline, stdin=subprocess.PIPE)
+    process.stdin.write(np.array(frames).tobytes())
+    process.stdin.close()
+    ret = process.wait()
+    if ret != 0:
+        print("VideoRecorder encoder exited with status {}".format(ret))
+
+
+# ExponentialSchedule
+class ExponentialSchedule(object):
+    def __init__(self, start_value, decay_factor, end_value, outside_value=None):
+        """Exponential Schedule.
+           y = start_value * (1.0 - decay_factor) ^ t
+        """
+        assert 0.0 <= decay_factor <= 1.0
+        self.start_value = start_value
+        self.decay_factor = decay_factor
+        self.end_value = end_value
+
+    def value(self, t):
+        v = self.start_value * np.power(1.0 - self.decay_factor,  t/int(1e5))
+        return np.maximum(v, self.end_value)
--- a/vec_env.py
+++ b/vec_env.py
@ -0,0 +1,222 @@
+"""
+An interface for asynchronous vectorized environments.
+"""
+
+
+import ctypes
+from abc import ABC, abstractmethod
+from multiprocessing import Pipe, Array, Process
+
+import gym
+import numpy as np
+from baselines import logger
+
+_NP_TO_CT = {np.float32: ctypes.c_float,
+             np.int32: ctypes.c_int32,
+             np.int8: ctypes.c_int8,
+             np.uint8: ctypes.c_char,
+             np.bool: ctypes.c_bool}
+_CT_TO_NP = {v: k for k, v in _NP_TO_CT.items()}
+
+
+class CloudpickleWrapper(object):
+    """
+    Uses cloudpickle to serialize contents (otherwise multiprocessing tries to use pickle)
+    """
+
+    def __init__(self, x):
+        self.x = x
+
+    def __getstate__(self):
+        import cloudpickle
+        return cloudpickle.dumps(self.x)
+
+    def __setstate__(self, ob):
+        import pickle
+        self.x = pickle.loads(ob)
+
+
+class VecEnv(ABC):
+    """
+    An abstract asynchronous, vectorized environment.
+    """
+
+    def __init__(self, num_envs, observation_space, action_space):
+        self.num_envs = num_envs
+        self.observation_space = observation_space
+        self.action_space = action_space
+
+    @abstractmethod
+    def reset(self):
+        """
+        Reset all the environments and return an array of
+        observations, or a tuple of observation arrays.
+
+        If step_async is still doing work, that work will
+        be cancelled and step_wait() should not be called
+        until step_async() is invoked again.
+        """
+        pass
+
+    @abstractmethod
+    def step_async(self, actions):
+        """
+        Tell all the environments to start taking a step
+        with the given actions.
+        Call step_wait() to get the results of the step.
+
+        You should not call this if a step_async run is
+        already pending.
+        """
+        pass
+
+    @abstractmethod
+    def step_wait(self):
+        """
+        Wait for the step taken with step_async().
+
+        Returns (obs, rews, dones, infos):
+         - obs: an array of observations, or a tuple of
+                arrays of observations.
+         - rews: an array of rewards
+         - dones: an array of "episode done" booleans
+         - infos: a sequence of info objects
+        """
+        pass
+
+    @abstractmethod
+    def close(self):
+        """
+        Clean up the environments' resources.
+        """
+        pass
+
+    def step(self, actions):
+        self.step_async(actions)
+        return self.step_wait()
+
+    def render(self):
+        logger.warn('Render not defined for %s' % self)
+
+
+class ShmemVecEnv(VecEnv):
+    """
+    An AsyncEnv that uses multiprocessing to run multiple
+    environments in parallel.
+    """
+
+    def __init__(self, env_fns, spaces=None):
+        """
+        If you don't specify observation_space, we'll have to create a dummy
+        environment to get it.
+        """
+        if spaces:
+            observation_space, action_space = spaces
+        else:
+            logger.log('Creating dummy env object to get spaces')
+            with logger.scoped_configure(format_strs=[]):
+                dummy = env_fns[0]()
+                observation_space, action_space = dummy.observation_space, dummy.action_space
+                dummy.close()
+                del dummy
+        VecEnv.__init__(self, len(env_fns), observation_space, action_space)
+
+        obs_spaces = observation_space.spaces if isinstance(self.observation_space, gym.spaces.Tuple) else (
+            self.observation_space,)
+        self.obs_bufs = [tuple(Array(_NP_TO_CT[s.dtype.type], int(np.prod(s.shape))) for s in obs_spaces) for _ in
+                         env_fns]
+        self.obs_shapes = [s.shape for s in obs_spaces]
+        self.obs_dtypes = [s.dtype for s in obs_spaces]
+
+        self.parent_pipes = []
+        self.procs = []
+        for env_fn, obs_buf in zip(env_fns, self.obs_bufs):
+            wrapped_fn = CloudpickleWrapper(env_fn)
+            parent_pipe, child_pipe = Pipe()
+            proc = Process(target=_subproc_worker,
+                           args=(child_pipe, parent_pipe, wrapped_fn, obs_buf, self.obs_shapes))
+            proc.daemon = True
+            self.procs.append(proc)
+            self.parent_pipes.append(parent_pipe)
+            proc.start()
+            child_pipe.close()
+        self.waiting_step = False
+
+    def reset(self):
+        if self.waiting_step:
+            logger.warn('Called reset() while waiting for the step to complete')
+            self.step_wait()
+        for pipe in self.parent_pipes:
+            pipe.send(('reset', None))
+        return self._decode_obses([pipe.recv() for pipe in self.parent_pipes])
+
+    def step_async(self, actions):
+        assert len(actions) == len(self.parent_pipes)
+        for pipe, act in zip(self.parent_pipes, actions):
+            pipe.send(('step', act))
+
+    def step_wait(self):
+        outs = [pipe.recv() for pipe in self.parent_pipes]
+        obs, rews, dones, infos = zip(*outs)
+        return self._decode_obses(obs), np.array(rews), np.array(dones), infos
+
+    def close(self):
+        if self.waiting_step:
+            self.step_wait()
+        for pipe in self.parent_pipes:
+            pipe.send(('close', None))
+        for pipe in self.parent_pipes:
+            pipe.recv()
+            pipe.close()
+        for proc in self.procs:
+            proc.join()
+
+    def _decode_obses(self, obs):
+        """
+        Turn the observation responses into a single numpy
+        array, possibly via shared memory.
+        """
+        obs = []
+        for i, shape in enumerate(self.obs_shapes):
+            bufs = [b[i] for b in self.obs_bufs]
+            o = [np.frombuffer(b.get_obj(), dtype=self.obs_dtypes[i]).reshape(shape) for b in bufs]
+            obs.append(np.array(o))
+        return tuple(obs) if len(obs) > 1 else obs[0]
+
+
+def _subproc_worker(pipe, parent_pipe, env_fn_wrapper, obs_buf, obs_shape):
+    """
+    Control a single environment instance using IPC and
+    shared memory.
+
+    If obs_buf is not None, it is a shared-memory buffer
+    for communicating observations.
+    """
+
+    def _write_obs(obs):
+        if not isinstance(obs, tuple):
+            obs = (obs,)
+        for o, b, s in zip(obs, obs_buf, obs_shape):
+            dst = b.get_obj()
+            dst_np = np.frombuffer(dst, dtype=_CT_TO_NP[dst._type_]).reshape(s)  # pylint: disable=W0212
+            np.copyto(dst_np, o)
+
+    env = env_fn_wrapper.x()
+    parent_pipe.close()
+    try:
+        while True:
+            cmd, data = pipe.recv()
+            if cmd == 'reset':
+                pipe.send(_write_obs(env.reset()))
+            elif cmd == 'step':
+                obs, reward, done, info = env.step(data)
+                if done:
+                    obs = env.reset()
+                pipe.send((_write_obs(obs), reward, done, info))
+            elif cmd == 'close':
+                pipe.send(None)
+                break
+            else:
+                raise RuntimeError('Got unrecognized cmd %s' % cmd)
+    finally:
+        env.close()
--- a/wrappers.py
+++ b/wrappers.py
@ -0,0 +1,475 @@
+import itertools
+from collections import deque
+from copy import copy
+
+import gym
+import numpy as np
+from PIL import Image
+import random
+
+
+def unwrap(env):
+    if hasattr(env, "unwrapped"):
+        return env.unwrapped
+    elif hasattr(env, "env"):
+        return unwrap(env.env)
+    elif hasattr(env, "leg_env"):
+        return unwrap(env.leg_env)
+    else:
+        return env
+
+
+class MaxAndSkipEnv(gym.Wrapper):
+    def __init__(self, env, skip=4):
+        """Return only every `skip`-th frame"""
+        gym.Wrapper.__init__(self, env)
+        # most recent raw observations (for max pooling across time steps)
+        self._obs_buffer = deque(maxlen=2)
+        self._skip = skip
+
+    def step(self, action):
+        """Repeat action, sum reward, and max over last observations."""
+        total_reward = 0.0
+        done = None
+        acc_info = {}
+        for _ in range(self._skip):
+            obs, reward, done, info = self.env.step(action)
+            acc_info.update(info)
+            self._obs_buffer.append(obs)
+            total_reward += reward
+            if done:
+                break
+        max_frame = np.max(np.stack(self._obs_buffer), axis=0)
+
+        return max_frame, total_reward, done, acc_info
+
+    def reset(self):
+        """Clear past frame buffer and init. to first obs. from inner env."""
+        self._obs_buffer.clear()
+        obs = self.env.reset()
+        self._obs_buffer.append(obs)
+        return obs
+
+
+class ProcessFrame84(gym.ObservationWrapper):
+    def __init__(self, env, crop=True):
+        self.crop = crop
+        super(ProcessFrame84, self).__init__(env)
+        self.observation_space = gym.spaces.Box(low=0, high=255, shape=(84, 84, 1), dtype=np.uint8)
+
+    def observation(self, obs):
+        return ProcessFrame84.process(obs, crop=self.crop)
+
+    @staticmethod
+    def process(frame, crop=True):
+        if frame.size == 210 * 160 * 3:
+            img = np.reshape(frame, [210, 160, 3]).astype(np.float32)
+        elif frame.size == 250 * 160 * 3:
+            img = np.reshape(frame, [250, 160, 3]).astype(np.float32)
+        elif frame.size == 224 * 240 * 3:  # mario resolution
+            img = np.reshape(frame, [224, 240, 3]).astype(np.float32)
+        else:
+            assert False, "Unknown resolution." + str(frame.size)
+        img = img[:, :, 0] * 0.299 + img[:, :, 1] * 0.587 + img[:, :, 2] * 0.114
+        size = (84, 110 if crop else 84)
+        resized_screen = np.array(Image.fromarray(img).resize(size,
+                                                              resample=Image.BILINEAR), dtype=np.uint8)
+        x_t = resized_screen[18:102, :] if crop else resized_screen
+        x_t = np.reshape(x_t, [84, 84, 1])
+        return x_t.astype(np.uint8)
+
+
+class ExtraTimeLimit(gym.Wrapper):
+    def __init__(self, env, max_episode_steps=None):
+        gym.Wrapper.__init__(self, env)
+        self._max_episode_steps = max_episode_steps
+        self._elapsed_steps = 0
+
+    def step(self, action):
+        observation, reward, done, info = self.env.step(action)
+        self._elapsed_steps += 1
+        if self._elapsed_steps > self._max_episode_steps:
+            done = True
+        return observation, reward, done, info
+
+    def reset(self):
+        self._elapsed_steps = 0
+        return self.env.reset()
+
+
+class AddRandomStateToInfo(gym.Wrapper):
+    def __init__(self, env):
+        """Adds the random state to the info field on the first step after reset
+        """
+        gym.Wrapper.__init__(self, env)
+
+    def step(self, action):
+        ob, r, d, info = self.env.step(action)
+        if self.random_state_copy is not None:
+            info['random_state'] = self.random_state_copy
+            self.random_state_copy = None
+        return ob, r, d, info
+
+    def reset(self, **kwargs):
+        """ Do no-op action for a number of steps in [1, noop_max]."""
+        self.random_state_copy = copy(self.unwrapped.np_random)
+        return self.env.reset(**kwargs)
+
+
+class MontezumaInfoWrapper(gym.Wrapper):
+    ram_map = {
+        "room": dict(
+            index=3,
+        ),
+        "x": dict(
+            index=42,
+        ),
+        "y": dict(
+            index=43,
+        ),
+    }
+
+    def __init__(self, env):
+        super(MontezumaInfoWrapper, self).__init__(env)
+        self.visited = set()
+        self.visited_rooms = set()
+
+    def step(self, action):
+        obs, rew, done, info = self.env.step(action)
+        ram_state = unwrap(self.env).ale.getRAM()
+        for name, properties in MontezumaInfoWrapper.ram_map.items():
+            info[name] = ram_state[properties['index']]
+        pos = (info['x'], info['y'], info['room'])
+        self.visited.add(pos)
+        self.visited_rooms.add(info["room"])
+        if done:
+            info['mz_episode'] = dict(pos_count=len(self.visited),
+                                      visited_rooms=copy(self.visited_rooms))
+            self.visited.clear()
+            self.visited_rooms.clear()
+        return obs, rew, done, info
+
+    def reset(self):
+        return self.env.reset()
+
+
+class MarioXReward(gym.Wrapper):
+    def __init__(self, env):
+        gym.Wrapper.__init__(self, env)
+        self.current_level = [0, 0]
+        self.visited_levels = set()
+        self.visited_levels.add(tuple(self.current_level))
+        self.current_max_x = 0.
+
+    def reset(self):
+        ob = self.env.reset()
+        self.current_level = [0, 0]
+        self.visited_levels = set()
+        self.visited_levels.add(tuple(self.current_level))
+        self.current_max_x = 0.
+        return ob
+
+    def step(self, action):
+        ob, reward, done, info = self.env.step(action)
+        levellow, levelhigh, xscrollHi, xscrollLo = \
+            info["levelLo"], info["levelHi"], info["xscrollHi"], info["xscrollLo"]
+        currentx = xscrollHi * 256 + xscrollLo
+        new_level = [levellow, levelhigh]
+        if new_level != self.current_level:
+            self.current_level = new_level
+            self.current_max_x = 0.
+            reward = 0.
+            self.visited_levels.add(tuple(self.current_level))
+        else:
+            if currentx > self.current_max_x:
+                delta = currentx - self.current_max_x
+                self.current_max_x = currentx
+                reward = delta
+            else:
+                reward = 0.
+        if done:
+            info["levels"] = copy(self.visited_levels)
+            info["retro_episode"] = dict(levels=copy(self.visited_levels))
+        return ob, reward, done, info
+
+
+class LimitedDiscreteActions(gym.ActionWrapper):
+    KNOWN_BUTTONS = {"A", "B"}
+    KNOWN_SHOULDERS = {"L", "R"}
+
+    '''
+    Reproduces the action space from curiosity paper.
+    '''
+
+    def __init__(self, env, all_buttons, whitelist=KNOWN_BUTTONS | KNOWN_SHOULDERS):
+        gym.ActionWrapper.__init__(self, env)
+
+        self._num_buttons = len(all_buttons)
+        button_keys = {i for i in range(len(all_buttons)) if all_buttons[i] in whitelist & self.KNOWN_BUTTONS}
+        buttons = [(), *zip(button_keys), *itertools.combinations(button_keys, 2)]
+        shoulder_keys = {i for i in range(len(all_buttons)) if all_buttons[i] in whitelist & self.KNOWN_SHOULDERS}
+        shoulders = [(), *zip(shoulder_keys), *itertools.permutations(shoulder_keys, 2)]
+        arrows = [(), (4,), (5,), (6,), (7,)]  # (), up, down, left, right
+        acts = []
+        acts += arrows
+        acts += buttons[1:]
+        acts += [a + b for a in arrows[-2:] for b in buttons[1:]]
+        self._actions = acts
+        self.action_space = gym.spaces.Discrete(len(self._actions))
+
+    def action(self, a):
+        mask = np.zeros(self._num_buttons)
+        for i in self._actions[a]:
+            mask[i] = 1
+        return mask
+
+
+class FrameSkip(gym.Wrapper):
+    def __init__(self, env, n):
+        gym.Wrapper.__init__(self, env)
+        self.n = n
+
+    def step(self, action):
+        done = False
+        totrew = 0
+        for _ in range(self.n):
+            ob, rew, done, info = self.env.step(action)
+            totrew += rew
+            if done: break
+        return ob, totrew, done, info
+
+
+def make_mario_env(crop=True, frame_stack=True, clip_rewards=False):
+    assert clip_rewards is False
+    import gym
+    import retro
+    from baselines.common.atari_wrappers import FrameStack
+
+    gym.undo_logger_setup()
+    env = retro.make('SuperMarioBros-Nes', 'Level1-1')
+    buttons = env.BUTTONS
+    env = MarioXReward(env)
+    env = FrameSkip(env, 4)
+    env = ProcessFrame84(env, crop=crop)
+    if frame_stack:
+        env = FrameStack(env, 4)
+    env = LimitedDiscreteActions(env, buttons)
+    return env
+
+
+class OneChannel(gym.ObservationWrapper):
+    def __init__(self, env, crop=True):
+        self.crop = crop
+        super(OneChannel, self).__init__(env)
+        assert env.observation_space.dtype == np.uint8
+        self.observation_space = gym.spaces.Box(low=0, high=255, shape=(84, 84, 1), dtype=np.uint8)
+
+    def observation(self, obs):
+        return obs[:, :, 2:3]
+
+
+class RetroALEActions(gym.ActionWrapper):
+    def __init__(self, env, all_buttons, n_players=1):
+        gym.ActionWrapper.__init__(self, env)
+        self.n_players = n_players
+        self._num_buttons = len(all_buttons)
+        bs = [-1, 0, 4, 5, 6, 7]
+        actions = []
+
+        def update_actions(old_actions, offset=0):
+            actions = []
+            for b in old_actions:
+                for button in bs:
+                    action = []
+                    action.extend(b)
+                    if button != -1:
+                        action.append(button + offset)
+                    actions.append(action)
+            return actions
+
+        current_actions = [[]]
+        for i in range(self.n_players):
+            current_actions = update_actions(current_actions, i * self._num_buttons)
+        self._actions = current_actions
+        self.action_space = gym.spaces.Discrete(len(self._actions))
+
+    def action(self, a):
+        mask = np.zeros(self._num_buttons * self.n_players)
+        for i in self._actions[a]:
+            mask[i] = 1
+        return mask
+
+
+class NoReward(gym.Wrapper):
+    def __init__(self, env):
+        gym.Wrapper.__init__(self, env)
+
+    def step(self, action):
+        ob, rew, done, info = self.env.step(action)
+        return ob, 0.0, done, info
+
+
+def make_multi_pong(frame_stack=True):
+    import gym
+    import retro
+    from baselines.common.atari_wrappers import FrameStack
+    gym.undo_logger_setup()
+    game_env = env = retro.make('Pong-Atari2600', players=2)
+    env = RetroALEActions(env, game_env.BUTTONS, n_players=2)
+    env = NoReward(env)
+    env = FrameSkip(env, 4)
+    env = ProcessFrame84(env, crop=False)
+    if frame_stack:
+        env = FrameStack(env, 4)
+
+    return env
+
+
+def make_robo_pong(frame_stack=True):
+    from baselines.common.atari_wrappers import FrameStack
+    import roboenvs as robo
+
+    env = robo.make_robopong()
+    env = robo.DiscretizeActionWrapper(env, 2)
+    env = robo.MultiDiscreteToUsual(env)
+    env = OneChannel(env)
+    if frame_stack:
+        env = FrameStack(env, 4)
+
+    env = AddRandomStateToInfo(env)
+    return env
+
+
+def make_robo_hockey(frame_stack=True):
+    from baselines.common.atari_wrappers import FrameStack
+    import roboenvs as robo
+
+    env = robo.make_robohockey()
+    env = robo.DiscretizeActionWrapper(env, 2)
+    env = robo.MultiDiscreteToUsual(env)
+    env = OneChannel(env)
+    if frame_stack:
+        env = FrameStack(env, 4)
+    env = AddRandomStateToInfo(env)
+    return env
+
+
+def make_robo_hockey(frame_stack=True):
+    from baselines.common.atari_wrappers import FrameStack
+    import roboenvs as robo
+
+    env = robo.make_robohockey()
+    env = robo.DiscretizeActionWrapper(env, 2)
+    env = robo.MultiDiscreteToUsual(env)
+    env = OneChannel(env)
+    if frame_stack:
+        env = FrameStack(env, 4)
+    env = AddRandomStateToInfo(env)
+    return env
+
+
+def make_unity_maze(env_id, seed=0, rank=0, expID=0, frame_stack=True,
+                    logdir=None, ext_coeff=1.0, recordUnityVid=False, **kwargs):
+    import os
+    import sys
+    import time
+    try:
+        sys.path.insert(0, os.path.abspath("ml-agents/python/"))
+        from unityagents import UnityEnvironment
+        from unity_wrapper import GymWrapper
+    except ImportError:
+        print("Import error in unity environment. Ignore if not using unity.")
+        pass
+    from baselines.common.atari_wrappers import FrameStack
+    # gym.undo_logger_setup()  # deprecated in new version of gym
+
+    # max 20 workers per expID, max 30 experiments per machine
+    if rank >= 0 and rank <= 200:
+        time.sleep(rank * 2)
+    env = UnityEnvironment(file_name='envs/' + env_id, worker_id=(expID % 60) * 200 + rank)
+    maxsteps = 3000 if 'big' in env_id else 500
+    env = GymWrapper(env, seed=seed, rank=rank, expID=expID, maxsteps=maxsteps, **kwargs)
+    if "big" in env_id:
+        env = UnityRoomCounterWrapper(env, use_ext_reward=(ext_coeff != 0.0))
+    if rank == 1 and recordUnityVid:
+        env = RecordBestScores(env, directory=logdir, freq=1)
+    print('Loaded environment %s with rank %d\n\n' % (env_id, rank))
+
+    # env = NoReward(env)
+    # env = FrameSkip(env, 4)
+    env = ProcessFrame84(env, crop=False)
+    if frame_stack:
+        env = FrameStack(env, 4)
+    return env
+
+
+class StickyActionEnv(gym.Wrapper):
+    def __init__(self, env, p=0.25):
+        super(StickyActionEnv, self).__init__(env)
+        self.p = p
+        self.last_action = 0
+
+    def reset(self):
+        self.last_action = 0
+        return self.env.reset()
+
+    def step(self, action):
+        if self.unwrapped.np_random.uniform() < self.p:
+            action = self.last_action
+        self.last_action = action
+        obs, reward, done, info = self.env.step(action)
+        return obs, reward, done, info
+
+
+##############   Pixel-Noise  #################
+class PixelNoiseWrapper(gym.ObservationWrapper):
+    def __init__(self, env, strength=80):
+        """ The source must produce a image with a shape that's compatible to `env.observation_space`.
+        """
+        super(PixelNoiseWrapper, self).__init__(env)
+        self.env = env
+        self.obs_shape = env.observation_space.shape[:2]
+        self.strength = strength
+
+    def observation(self, obs):
+        mask = (obs == (0, 0, 0))         # shape=(210,140,3)
+        noise = np.maximum(np.random.randn(self.obs_shape[0], self.obs_shape[1], 3) * self.strength, 0)
+        obs[mask] = noise[mask]
+        self._last_ob = obs
+        return obs
+
+    def render(self, mode='rgb_array'):
+        img = self._last_ob
+        return img
+
+
+#############  Random Box Noise #################
+class RandomBoxNoiseWrapper(gym.ObservationWrapper):
+    def __init__(self, env, strength=0.1):
+        super(RandomBoxNoiseWrapper, self).__init__(env)
+        self.obs_shape = env.observation_space.shape[:2]     # 210, 160
+        self.strength = strength
+
+    def observation(self, obs, w=20, ):
+        n1 = self.obs_shape[1] // w
+        n2 = self.obs_shape[0] // w
+
+        idx_list = np.arange(n1*n2)
+        random.shuffle(idx_list)
+
+        num_of_box = n1 * n2 * self.strength   # the ratio of random box
+        idx_list = idx_list[:np.random.randint(num_of_box-5, num_of_box+5)]
+
+        for idx in idx_list:
+            y = (idx // n1) * w
+            x = (idx % n1) * w
+            obs[y:y+w, x:x+w, :] += np.random.normal(0, 255*0.3, size=(w, w, 3)).astype(np.uint8)
+
+        obs = np.clip(obs, 0, 255)
+        self._last_ob = obs
+        return obs
+
+    def render(self, mode='rgb_array'):
+        img = self._last_ob
+        return img
+