Rossini Orlane
controlled_pdmp_po

Repository

git clone git@forgemia.inra.fr:orlane.le-quellennec/controlled_pdmp_po.git
cd controlled_pdmp_po
pip install -r requirements.txt
pip install -e .
import gymnasium
from gymnasium.envs.registration import register

# Import your environment
from env.full_pdmp import Patient

# Register your environment
register(
    id="env/Patient",
    entry_point="env.full_pdmp:Patient",
)

# Load an instance of Patient PDMP model
env = gymnasium.make('env/Patient', render_mode="human")
import gymnasium
from gymnasium.envs.registration import register

# Import your environment
from env.full_pdmp import Patient
from env.wrappers.partially_observable import POWrapper

# Register your environment
register(
    id="env/Patient",
    entry_point="env.full_pdmp:Patient",
)

# Load an instance of partially observable patient (POMDP model)
env = gymnasium.make('env/Patient', render_mode="human")
env_po = POWrapper(env)
cd simulations
python generate_data.py --env pdmp --policy alea --num-samples 100000
python generate_data.py --env pomdp --policy dqn --num-samples 100000
cd simulations
python compare_cost.py --logdir ./data/pdmp_alea.csv ./data/pomdp_thresh.csv ./data/pdmp_inactive.csv ./data/pomdp_dqn.csv
python ./training/tune.py --config-file ./env/experiment/pomdp_v2_dqn.py --stop-timesteps 100000  --num-samples 1000 --stop-iters 1000 --output-file ./env/experiment/tuned_hyperparams_dqn_v2.yaml
python ./training/evaluate.py  --config-file ./env/experiment/tuned_hyperparams_dqn_v2.yaml --stop-timesteps 100000 --evaluation-interval 5 --stop-iters 1000 --num-samples 3 --output-folder ./env/results/pomdp_xp2_DQN
python ./training/evaluate.py --masking --config-file ./env/experiment/tuned_hyperparams_dqn_v3_with_action_mask.yaml --stop-timesteps 100000 --evaluation-interval 5 --stop-iters 1000 --num-samples 3 --output-folder ./env/results/pomdp_xp_DQN_with_action_masking
python ./training/evaluate.py --masking --config-file ./env/experiment/tuned_hyperparams_r2d2_v3_with_action_mask.yaml --stop-timesteps 100000 --evaluation-interval 5 --stop-iters 1000 --num-samples 3 --output-folder ./env/results/pomdp_xp_R2D2_with_action_masking