Value Iteration
Iteracja wartości to algorytm uczenia przez wzmacnianie, który aktualizuje wartości stanów na podstawie maksymalnych oczekiwanych nagród, aż do znalezienia optymalnej polityki działania. Jest stosowana w optymalizacji procesów decyzyjnych, zarządzaniu zasobami oraz zadaniach takich jak sterowanie robotami, gdzie istotne jest znajdowanie optymalnych ścieżek działania.
