started adding user query interactions

2023-04-25 17:24:02 +02:00 · 2023-04-25 17:24:02 +02:00 · 2cea3b3c53
commit 2cea3b3c53
parent 6cdb7f8711
16 changed files with 103 additions and 354 deletions
--- a/src/active_bo_ros/active_bo_ros/AcquisitionFunctions/ConfidenceBound.py
+++ b/src/active_bo_ros/active_bo_ros/AcquisitionFunctions/ConfidenceBound.py
@ -1,13 +1,11 @@
 import numpy as np
-def ConfidenceBound(gp, X, nr_test, nr_weights, lam=1.2, seed=None, lower=-1.0, upper=1.0):
+def ConfidenceBound(gp, nr_test, nr_weights, beta=1.2, seed=None, lower=-1.0, upper=1.0):
    y_hat = gp.predict(X)
    best_y = max(y_hat)
    rng = np.random.default_rng(seed=seed)
    X_test = rng.uniform(lower, upper, (nr_test, nr_weights))
    mu, sigma = gp.predict(X_test, return_std=True)
-    cb = mu + lam * sigma
+    cb = mu + beta * sigma
    idx = np.argmax(cb)
    X_next = X_test[idx, :]
--- a/src/active_bo_ros/active_bo_ros/BayesianOptimization/BayesianOptimization.py
+++ b/src/active_bo_ros/active_bo_ros/BayesianOptimization/BayesianOptimization.py
@ -109,10 +109,9 @@ class BayesianOptimization:
        elif self.acq == "Upper Confidence Bound":
            x_next = ConfidenceBound(self.GP,
                                     self.X,
                                     self.eval_X,
                                     self.nr_policy_weights,
-                                     lam=2.576,
+                                     beta=2.576,
                                     seed=self.policy_seed,
                                     lower=self.lower_bound,
                                     upper=self.upper_bound)
--- a/src/active_bo_ros/active_bo_ros/ReinforcementLearning/Acrobot.py
+++ b/src/active_bo_ros/active_bo_ros/ReinforcementLearning/Acrobot.py
--- a/src/active_bo_ros/active_bo_ros/ReinforcementLearning/CartPole.py
+++ b/src/active_bo_ros/active_bo_ros/ReinforcementLearning/CartPole.py
--- a/src/active_bo_ros/active_bo_ros/ReinforcementLearning/Pendulum.py
+++ b/src/active_bo_ros/active_bo_ros/ReinforcementLearning/Pendulum.py
--- a/src/active_bo_ros/active_bo_ros/UserQuery/init.py
+++ b/src/active_bo_ros/active_bo_ros/UserQuery/init.py
--- a/src/active_bo_ros/active_bo_ros/UserQuery/improvement_query.py
+++ b/src/active_bo_ros/active_bo_ros/UserQuery/improvement_query.py
@ -0,0 +1,19 @@
 import numpy as np
 class ImprovementQuery:
    def __init__(self, threshold, period):
        self.threshold = threshold
        self.period = period
    def query(self, reward_array):
        if reward_array.shape < self.period:
            return False
        else:
            first = reward_array[-self.period]
            last = reward_array[-1]
            slope = (last - first) / self.period
            return slope < self.threshold
--- a/src/active_bo_ros/active_bo_ros/UserQuery/max_acq_query.py
+++ b/src/active_bo_ros/active_bo_ros/UserQuery/max_acq_query.py
@ -0,0 +1,55 @@
 import numpy as np
 from scipy.stats import norm
 class MaxAcqQuery:
    def __init__(self, threshold, gp,
                 nr_test, nr_weights,
                 lower=-1.0, upper=1.0,
                 acq="Expected Improvement",
                 **kwargs):
        self.threshold = threshold
        self.gp = gp
        self.nr_test = nr_test
        self.nr_weights = nr_weights
        self.lower = lower
        self.upper = upper
        self.acq = acq
        self.seed = kwargs.get('seed', None)
        self.kappa = kwargs.get('kappa', 2.576)
        self.beta = kwargs.get('beta', 1.2)
        self.X = kwargs.get('X', None)
        self.rng = np.random.default_rng(self.seed)
    def query(self):
        X_test = self.rng.uniform(self.lower, self.upper, (self.nr_test, self.nr_weights))
        max_acq = 0
        if self.acq == "Expected Improvement":
            if self.X is None:
                raise ValueError
            y_hat = self.gp.predict(self.X)
            best_y = max(y_hat)
            mu, sigma = self.gp.predict(X_test, return_std=True)
            z = (mu - best_y - self.kappa) / sigma
            ei = (mu - best_y - self.kappa) * norm.cdf(z) + sigma * norm.pdf(z)
            max_acq = np.max(ei)
        if self.acq == "Probability of Improvement":
            if self.X is None:
                raise ValueError
            y_hat = self.gp.predict(self.X)
            best_y = max(y_hat)
            mu, sigma = self.gp.predict(X_test, return_std=True)
            z = (mu - best_y - self.kappa) / sigma
            pi = norm.cdf(z)
            max_acq = np.max(pi)
        if self.acq == "Upper Confidence Bound":
            mu, sigma = self.gp.predict(X_test, return_std=True)
            cb = mu + self.beta * sigma
            max_acq = np.max(cb)
        return max_acq > self.threshold
--- a/src/active_bo_ros/active_bo_ros/UserQuery/random_query.py
+++ b/src/active_bo_ros/active_bo_ros/UserQuery/random_query.py
@ -0,0 +1,10 @@
 import numpy as np
 class RandomQuery:
    def __init__(self, threshold):
        self.threshold = threshold
        self.random = np.random.uniform(0.0, 1.0, 1)
    def query(self):
        return self.random > self.threshold
--- a/src/active_bo_ros/active_bo_ros/UserQuery/regular_query.py
+++ b/src/active_bo_ros/active_bo_ros/UserQuery/regular_query.py
@ -0,0 +1,13 @@
 class RegularQuery:
    def __init__(self, regular):
        self.regular = regular
        self.counter = 0
    def query(self):
        if self.counter < self.regular:
            self.counter += 1
            return False
        else:
            self.counter = 0
            return True
--- a/src/active_bo_ros/active_bo_ros/active_bo_service.py
+++ b/src/active_bo_ros/active_bo_ros/active_bo_service.py
@ -1,123 +0,0 @@
 from active_bo_msgs.srv import ActiveBO
 from active_bo_msgs.srv import ActiveRL
 import rclpy
 from rclpy.node import Node
 from rclpy.callback_groups import ReentrantCallbackGroup
 from active_bo_ros.BayesianOptimization.BayesianOptimization import BayesianOptimization
 from active_bo_ros.ReinforcementLearning.ContinuousMountainCar import Continuous_MountainCarEnv
 import numpy as np
 import time
 class ActiveBOService(Node):
    def __init__(self):
        super().__init__('active_bo_service')
        bo_callback_group = ReentrantCallbackGroup()
        rl_callback_group = ReentrantCallbackGroup()
        self.srv = self.create_service(ActiveBO,
                                       'active_bo_srv',
                                       self.active_bo_callback,
                                       callback_group=bo_callback_group)
        self.active_rl_client = self.create_client(ActiveRL,
                                                   'active_rl_srv',
                                                   callback_group=rl_callback_group)
        self.env = Continuous_MountainCarEnv()
        self.distance_penalty = 0
        self.nr_init = 3
    def active_bo_callback(self, request, response):
        self.get_logger().info('Active Bayesian Optimization Service started!')
        nr_weights = request.nr_weights
        max_steps = request.max_steps
        nr_episodes = request.nr_episodes
        nr_runs = request.nr_runs
        acq = request.acquisition_function
        epsilon = request.epsilon
        reward = np.zeros((nr_episodes, nr_runs))
        best_pol_reward = np.zeros((1, nr_runs))
        best_policy = np.zeros((max_steps, nr_runs))
        best_weights = np.zeros((nr_weights, nr_runs))
        BO = BayesianOptimization(self.env,
                                  max_steps,
                                  nr_init=self.nr_init,
                                  acq=acq,
                                  nr_weights=nr_weights)
        arl_request = ActiveRL.Request()
        for i in range(nr_runs):
            BO.initialize()
            for j in range(nr_episodes):
                # active part
                if (j > 0) and (np.random.uniform(0.0, 1.0, 1) < epsilon):
                    self.get_logger().info('Active User Input')
                    old_policy, _, old_weights = BO.get_best_result()
                    arl_request.old_policy = old_policy.tolist()
                    arl_request.old_weights = old_weights.tolist()
                    self.get_logger().info('Calling: Active RL')
                    future_rl = self.active_rl_client.call_async(arl_request)
                    self.get_logger().info(str(future_rl))
                    timeout = 10
                    start_time = time.time()
                    while not future_rl.done():
                        rclpy.spin_once(self, timeout_sec=0.1)
                        # self.get_logger().info(f'{future_rl.result()}')
                        if time.time() - start_time > timeout:
                            self.get_logger().error('Service call timed out.')
                            break
                    # self.executor.spin_until_future_complete(future_rl)
                    # arl_response = self.active_rl_client.call(arl_request)
                    self.get_logger().info('Received: Active RL')
                    try:
                        arl_response = future_rl.result()
                        BO.add_new_observation(arl_response.reward, arl_response.new_weights)
                    except Exception as e:
                        self.get_logger().error('active RL Service failed %r' % (e,))
                # BO part
                else:
                    x_next = BO.next_observation()
                    BO.eval_new_observation(x_next)
                self.get_logger().info(str(j))
            best_policy[:, i], best_pol_reward[:, i], best_weights[:, i] = BO.get_best_result()
            reward[:, i] = BO.best_reward.T
        response.reward_mean = np.mean(reward, axis=1).tolist()
        response.reward_std = np.std(reward, axis=1).tolist()
        best_policy_idx = np.argmax(best_pol_reward)
        response.best_weights = best_weights[:, best_policy_idx].tolist()
        response.best_policy = best_policy[:, best_policy_idx].tolist()
        return response
 def main(args=None):
    rclpy.init(args=args)
    active_bo_service = ActiveBOService()
    rclpy.spin(active_bo_service)
    rclpy.shutdown()
 if __name__ == '__main__':
    main()
--- a/src/active_bo_ros/active_bo_ros/active_rl_service.py
+++ b/src/active_bo_ros/active_bo_ros/active_rl_service.py
@ -1,163 +0,0 @@
 from active_bo_msgs.srv import ActiveRL
 from active_bo_msgs.msg import ImageFeedback
 from active_bo_msgs.msg import ActiveRL as ActiveRLEval
 import rclpy
 from rclpy.node import Node
 from rclpy.callback_groups import ReentrantCallbackGroup
 from active_bo_ros.ReinforcementLearning.ContinuousMountainCar import Continuous_MountainCarEnv
 import numpy as np
 import time
 import copy
 class ActiveRLService(Node):
    def __init__(self):
        super().__init__('active_rl_service')
        srv_callback_group = ReentrantCallbackGroup()
        topic_callback_group = ReentrantCallbackGroup()
        self.srv = self.create_service(ActiveRL,
                                       'active_rl_srv',
                                       self.active_rl_callback,
                                       callback_group=srv_callback_group)
        self.publisher = self.create_publisher(ImageFeedback, 'rl_feedback', 1, callback_group=topic_callback_group)
        self.eval_pub = self.create_publisher(ActiveRLEval,
                                              'active_rl_eval_request',
                                              1,
                                              callback_group=topic_callback_group)
        self.eval_sub = self.create_subscription(ActiveRLEval,
                                                 'active_rl_eval_response',
                                                 self.active_rl_eval_callback,
                                                 1,
                                                 callback_group=topic_callback_group)
        # active_rl_eval_response
        self.eval_response_received = False
        self.eval_response = None
        self.env = Continuous_MountainCarEnv(render_mode='rgb_array')
        self.distance_penalty = 0
    def active_rl_eval_callback(self, response):
        self.eval_response = response
        self.eval_response_received = True
    def active_rl_callback(self, request, response):
        self.get_logger().info('Active RL: Called')
        feedback_msg = ImageFeedback()
        reward = 0
        step_count = 0
        old_policy = request.old_policy
        old_weights = request.old_weights
        eval_request = ActiveRLEval()
        eval_request.policy = old_policy
        eval_request.weights = old_weights
        self.env.reset()
        self.get_logger().info('Best policy so far!')
        for i in range(len(old_policy)):
            action = old_policy[i]
            output = self.env.step(action)
            done = output[2]
            rgb_array = self.env.render()
            rgb_shape = rgb_array.shape
            red = rgb_array[:, :, 0].flatten().tolist()
            green = rgb_array[:, :, 1].flatten().tolist()
            blue = rgb_array[:, :, 2].flatten().tolist()
            feedback_msg.height = rgb_shape[0]
            feedback_msg.width = rgb_shape[1]
            feedback_msg.red = red
            feedback_msg.green = green
            feedback_msg.blue = blue
            self.publisher.publish(feedback_msg)
            if done:
                break
        self.get_logger().info('Enter new solution!')
        self.eval_pub.publish(eval_request)
        while rclpy.ok():
            rclpy.spin_once(self, timeout_sec=0.1)
            if self.eval_response_received:
                break
        self.get_logger().info('Topic responded!')
        new_policy = copy.deepcopy(self.eval_response.policy)
        new_weights = copy.deepcopy(self.eval_response.weights)
        self.eval_response_received = False
        self.eval_response = None
        reward = 0
        step_count = 0
        done = False
        self.env.reset()
        for i in range(len(new_policy)):
            action = new_policy[i]
            output = self.env.step(action)
            reward += output[1]
            done = output[2]
            step_count += 1
            rgb_array = self.env.render()
            rgb_shape = rgb_array.shape
            red = rgb_array[:, :, 0].flatten().tolist()
            green = rgb_array[:, :, 1].flatten().tolist()
            blue = rgb_array[:, :, 2].flatten().tolist()
            feedback_msg.height = rgb_shape[0]
            feedback_msg.width = rgb_shape[1]
            feedback_msg.red = red
            feedback_msg.green = green
            feedback_msg.blue = blue
            self.publisher.publish(feedback_msg)
            if done:
                break
            if not done and i == len(new_policy):
                distance = -(self.env.goal_position - output[0][0])
                reward += distance * self.distance_penalty
        self.get_logger().info(str(reward))
        response.new_weights = new_weights
        response.reward = reward
        response.final_step = step_count
        self.get_logger().info(f'{response}')
        return response
 def main(args=None):
    rclpy.init(args=args)
    active_rl_service = ActiveRLService()
    rclpy.spin(active_rl_service)
    rclpy.shutdown()
 if __name__ == '__main__':
    main()
--- a/src/active_bo_ros/active_bo_ros/policy_service.py
+++ b/src/active_bo_ros/active_bo_ros/policy_service.py
@ -1,38 +0,0 @@
 from active_bo_msgs.srv import WeightToPolicy
 import rclpy
 from rclpy.node import Node
 from active_bo_ros.PolicyModel.GaussianRBFModel import GaussianRBF
 import numpy as np
 class PolicyService(Node):
    def __init__(self):
        super().__init__('policy_service')
        self.srv = self.create_service(WeightToPolicy, 'policy_srv', self.policy_callback)
    @staticmethod
    def policy_callback(request, response):
        weights = request.weights
        weight_len = len(weights)
        nr_steps = request.nr_steps
        policy = GaussianRBF(weight_len, nr_steps)
        policy.weights = weights
        policy.rollout()
        response.policy = policy.policy.flatten().tolist()
        return response
 def main(args=None):
    rclpy.init(args=args)
    policy_service = PolicyService()
    rclpy.spin(policy_service)
    rclpy.shutdown()
 if __name__ == "__main__":
    main()
--- a/src/active_bo_ros/launch/launch_active_bo.launch.py
+++ b/src/active_bo_ros/launch/launch_active_bo.launch.py
@ -15,14 +15,7 @@ def generate_launch_description():
            )
        )
    )
-    policy_launch = IncludeLaunchDescription(
+
        PythonLaunchDescriptionSource(
            os.path.join(
                get_package_share_directory('active_bo_ros'),
                'policy_service.launch.py'
            )
        )
    )
    rl_launch = IncludeLaunchDescription(
        PythonLaunchDescriptionSource(
            os.path.join(
@ -31,6 +24,7 @@ def generate_launch_description():
            )
        )
    )
    bo_launch = IncludeLaunchDescription(
        PythonLaunchDescriptionSource(
            os.path.join(
@ -39,9 +33,9 @@ def generate_launch_description():
            )
        )
    )
    return LaunchDescription([
        websocket_launch,
        policy_launch,
        rl_launch,
        bo_launch
    ])
--- a/src/active_bo_ros/launch/policy_service.launch.py
+++ b/src/active_bo_ros/launch/policy_service.launch.py
@ -1,12 +0,0 @@
 from launch import LaunchDescription
 from launch_ros.actions import Node
 def generate_launch_description():
    return LaunchDescription([
        Node(
            package='active_bo_ros',
            executable='policy_srv',
            name='policy_srv'
        ),
    ])
--- a/src/active_bo_ros/setup.py
+++ b/src/active_bo_ros/setup.py
@ -27,12 +27,9 @@ setup(
    tests_require=['pytest'],
    entry_points={
        'console_scripts': [
            'policy_srv = active_bo_ros.policy_service:main',
            'rl_srv = active_bo_ros.rl_service:main',
            'bo_srv = active_bo_ros.bo_service:main',
            'bo_torch_srv = active_bo_ros.bo_torch_service:main',
            'active_bo_srv = active_bo_ros.active_bo_service:main',
            'active_rl_srv = active_bo_ros.active_rl_service:main',
            'active_bo_topic = active_bo_ros.active_bo_topic:main',
            'active_rl_topic = active_bo_ros.active_rl_topic:main',
        ],