Policy Iteration
Iteracja polityki to metoda uczenia przez wzmacnianie, w której agent na przemian ocenia swoją bieżącą politykę i poprawia ją na podstawie uzyskanych wyników. Policy Iteration jest stosowana w zadaniach związanych z optymalizacją decyzji w dynamicznych środowiskach, takich jak gry, robotyka i zarządzanie zasobami.

