본문 바로가기

분류 전체보기43

최적제어 3강 - Dicrete Linear Regulator Problem (수식유도 및 결론) 2024. 10. 1.
Linear Quadratic Regulator 제어 [RL] The Linear Quadratic Regulatordynamic를 모르는 상태에서의 optimal control을 이해하고, 강화학습을 전개하는 입장에서 관점을 제공해주는 엄청 심플한 baseline이 있을까? 일단 매우 일반화가 된 예에서 시작해보자. 일반적으로 알talkingaboutme.tistory.com LQR 제어는 Linear 시스템에 대해서 2차함수로 주어진 목적함수를 이용한 최적제어 문제에서 도출되었으며, 명시적인 제어법칙을 가지고 있는 제어기임. 시스템이 Linear 즉 선형이며, 목적함수는 2차함수(Quadratic)인 것이 LQR 제어기이며, Reulator는 시스템의 상태를 0으로 만드는 제어기를 뜻한다. LQR은 PID 제어가와 함께 실제 플랜트 등에서 많이 사용되는.. 2024. 9. 17.
최적제어 3강 - 벨만의 원리와 Dynamic Programming 최적성의 원리는 a+b가 최적이라면, b보다 나은 b'은 없다는 것을 전제로 함  최적의 경로란 앞서 구한 stage까지가 최적의 해라면, 다음 stage에서 최적의 경로를 구할 때 앞서 구한 최적의 해까지는 건드리지 않는 것이 Bellman's principle이고 이게 바로 dynamic 프로그래밍 stage 형태로 만들어서 변수를 두고, Starting 포인트에서 일정 Stage까지 경로를 구했으면, 다음 Stage에서는 이전 Stage에서 다음 Stage 사이까지만 고려하고 Starting 포인트 부터 고려하지 않는것이 핵심  위 예를 봤을때, Bellman의 원리를 이용하면 계산량이 줄어듦  functional이란 벡터를 어떠한 연산을 통해서 scalar로 만들어내는 작업을 말함 여기서는 g(x.. 2024. 9. 14.
최적제어 1강~2강 - Introduction & 적용예시 state euqaion의 기본은 F = ma이고,  x dot은 어떤 state가 현재의 상태와 시간에 따라 변화하는 것을 말하는데, u라는 control 인풋을 넣어서 제어할 수 있도록 하는게 다니아믹 시스템 즉 다이나믹시스템은 현재의 상태와 제어인풋에 따라 변화하는 시스템. x dot = f(x,u,t)  시스템을 분류하면 크게 네가지 (1) nonlinear, time-varying은 그 함수 자체도 시간에 따라 변화할 때임 → time-varying이면 의미있는 변화 얻기 힘듦(2) nonlinear, time-invariant 함수가 시간에 따라 변화지는 않음 → 의미있는 변화를 얻을 수 있음(3) Linear, time-varying가 선형이면서 time-varying인 경우  → x'(t).. 2024. 9. 14.