BO execute error

2023-03-07 13:23:37 +01:00 · 2023-03-07 13:23:37 +01:00 · a05e5af477
commit a05e5af477
parent 916b11e933
6 changed files with 101 additions and 7 deletions
--- a/src/active_bo_msgs/CMakeLists.txt
+++ b/src/active_bo_msgs/CMakeLists.txt
@ -22,6 +22,7 @@ find_package(rosidl_default_generators REQUIRED)
 rosidl_generate_interfaces(${PROJECT_NAME}
    "srv/WeightToPolicy.srv"
    "srv/RLRollOut.srv"
+    "srv/BO.srv"
    "msg/ImageFeedback.msg"
 )

--- a/src/active_bo_msgs/srv/BO.srv
+++ b/src/active_bo_msgs/srv/BO.srv
@ -0,0 +1,9 @@
+uint16 nr_weights
+uint16 max_steps
+uint16 nr_episodes
+uint16 nr_runs
+string acquisition_function
+---
+float32[] best_policy
+float32[] reward_mean
+float32[] reward_std
--- a/src/active_bo_ros/active_bo_ros/BayesianOptimization/BayesianOptimization.py
+++ b/src/active_bo_ros/active_bo_ros/BayesianOptimization/BayesianOptimization.py
@ -7,9 +7,6 @@ from active_bo_ros.AcquistionFunctions.ExpectedImprovement import ExpectedImprov
 from active_bo_ros.AcquistionFunctions.ProbabilityOfImprovement import ProbabilityOfImprovement
 from active_bo_ros.AcquistionFunctions.ConfidenceBound import ConfidenceBound

-from active_bo_ros.ReinforcementLearning.ContinuousMountainCar import Continuous_MountainCarEnv
-
-
 class BayesianOptimization:
    def __init__(self, env, nr_steps, nr_init=3, acq='ei', nr_weights=6, policy_seed=None):
        self.env = env
@ -145,5 +142,14 @@ class BayesianOptimization:
        self.episode += 1
        return step_count

+    def get_best_result(self):
+        y_hat = self.GP.predict(self.X)
+        idx = np.argmax(y_hat)
+        x_max = self.X[idx, :]
+
+        self.policy_model.weights = x_max
+
+        return self.policy_model.rollout(), y_hat[idx]
+


--- a/src/active_bo_ros/active_bo_ros/bo_service.py
+++ b/src/active_bo_ros/active_bo_ros/bo_service.py
@ -0,0 +1,64 @@
+from active_bo_msgs.srv import BO
+
+import rclpy
+from rclpy.node import Node
+
+from active_bo_ros.BayesianOptimization.BayesianOptimization import BayesianOptimization
+from active_bo_ros.ReinforcementLearning.ContinuousMountainCar import Continuous_MountainCarEnv
+
+import numpy as np
+
+class BOService(Node):
+    def __init__(self):
+        super().__init__('bo_service')
+        self.srv = self.create_service(BO, 'bo_srv', self.bo_callback)
+
+        self.env = Continuous_MountainCarEnv()
+        self.distance_penalty = 0
+
+        self.nr_init = 3
+
+    def bo_callback(self, request, response):
+        nr_weights = request.nr_weights
+        max_steps = request.steps
+        nr_episodes = request.nr_episodes
+        nr_runs = request.nr_runs
+        acq = request.acquisition_function
+
+        reward = np.zeros((nr_episodes, nr_runs))
+        best_pol_reward = np.zeros((nr_runs, 1))
+        best_policy = np.zeros((max_steps, nr_runs))
+
+        BO = BayesianOptimization(self.env,
+                                  max_steps,
+                                  nr_init=self.nr_init,
+                                  acq=acq,
+                                  nr_weights=nr_weights)
+
+        for i in range(nr_runs):
+            BO.initialize()
+
+            for j in range(nr_episodes):
+                x_next = BO.next_observation()
+                BO.eval_new_observation(x_next)
+
+            best_policy[:, i], best_pol_reward[:, i] = BO.get_best_result()
+            reward[:, i] = BO.best_reward.T
+
+        response.reward_mean = np.mean(reward, axis=1)
+        response.reward_std = np.std(reward, axis=1)
+
+        best_policy_idx = np.argmax(best_pol_reward)
+        response.best_policy = best_policy[:, best_policy_idx]
+        return response
+
+
+def main(args=None):
+    rclpy.init(args=args)
+
+    bo_service = BOService()
+
+    rclpy.spin(bo_service)
+
+if __name__ == '__main__':
+    main()
--- a/src/active_bo_ros/launch/bo_service.launch.py
+++ b/src/active_bo_ros/launch/bo_service.launch.py
@ -0,0 +1,11 @@
+from launch import LaunchDescription
+from launch_ros.actions import Node
+
+def generate_launch_description():
+    return LaunchDescription([
+        Node(
+            package='active_bo_ros',
+            executable='bo_srv',
+            name='bo_srv'
+        ),
+    ])
--- a/src/active_bo_ros/setup.py
+++ b/src/active_bo_ros/setup.py
@ -8,15 +8,17 @@ setup(
    name=package_name,
    version='0.0.0',
    packages=[package_name,
-              package_name+'/PolicyModel',
-              package_name+'/ReinforcementLearning'],
+              package_name + '/PolicyModel',
+              package_name + '/ReinforcementLearning',
+              package_name + '/AcquisitionFunctions',
+              package_name + '/BayesianOptimization'],
    data_files=[
        ('share/ament_index/resource_index/packages',
            ['resource/' + package_name]),
        ('share/' + package_name, ['package.xml']),
        (os.path.join('share', package_name), glob('launch/*.launch.py')),
    ],
-    install_requires=['setuptools', 'gym', 'numpy'],
+    install_requires=['setuptools', 'gym', 'numpy', 'sklearn'],
    zip_safe=True,
    maintainer='cpsfeith',
    maintainer_email='nikolaus.feith@unileoben.ac.at',
@ -26,7 +28,8 @@ setup(
    entry_points={
        'console_scripts': [
            'policy_srv = active_bo_ros.policy_service:main',
-            'rl_srv = active_bo_ros.rl_service:main'
+            'rl_srv = active_bo_ros.rl_service:main',
+            'bo_srv = active_bo_ros.bo_service:main'
        ],
    },
 )