
Guiding Pretraining in Reinforcement Learning with Large Language Models
Guiding Pretraining in Reinforcement Learning with Large Language Models (arxiv.org)
Reinforcement learning(강화학습)
머신러닝의 한 종류로 지도학습, 비지도 학습과 비교되는 개념이다. 강화학습은 기계가 직접 시행착오를 거치며 보상을 극대화하는 행동양식을 터득하는 학습방식으로 세 머신러닝 기법 중 기계에게 가장 높은 자율성을 부여한다.

강화학습 알고리즘은 다음과 같은 요소들로 이루어진다.

강화학습 알고리즘에서 인공지능 주체(Agent)는 특정 학습 환경(Enviorment)에서 어떠한 행동(Action)을 했을때 받는 보상 또는 결과(Rewards)를 통해 보상을 극대화하는 행동 양식을 학습하게 된다. 이때 상태(State)는 에이전트가 환경과 상호작용해서 가지는 상황을 의미한다.

Intrinsically Motivated RL

보상이 하나의 행동이 아닌 여러 행동을 통해 얻어지는 시스템일 때 보상 체계가 sparse하다고 한다. 대표적인 sparse reward 환경인 몬테주마의 복수 게임을 예로 들 수 있다. 게임에서 에이전트는 몬스터를 피해서 열쇠를 먹고 문으로 가야지만 보상을 받을 수 있다. 이러한 환경에서 에이전트가 탐색할 수 있는 액션의 경우의 수는 아주 넓어지기 때문에 마구잡이로 탐색하는 방법은 비효율적일 수 있다. Intrinsically Motivated RL은 랜덤으로 탐색하던 기존 연구보다 탐색의 기준을 정하는 것이 나을 수 있다는 제안을 한다. Intrinsically Motivated RL의 액션보다 액션에 따른 결과를 다양화하는 데에 초점을 맞춤으로써 탐색을 효율화한다.
하지만 결과의 다양성이 늘 성능 향상으로 이어지는 것은 아니다. 결과의 다양성에 치중한 나머지 정답 테스크 리워드와 거의 관련이 없는 쪽으로 학습이 진행될 수 있기 때문이다. 이에 위 논문은 Intrinsically Motivated RL이 탐색을 효율화 하는 방법으로 ELLM(Exploring with LLMs)을 제안한다. ELLM은 RL에 거대 자연어 모델을 학습시켜 에이전트가 사람과 같은 일반적 상식(의미론적 정보, Semantic information)을 기반으로 "효과가 있을 것 같은" 액션을 탐색하도록 하는 방법이다.
사람은 게임을 할 때 가능한 모든 경우를 시도해보지 않고도 문은 열쇠를 통해 열고 사다리는 타고 오를때 사용하며 뱀은 몬스터일 수 있다는 것을 일반적 상식으로 안다. ELLM은 RL 모델이 이러한 배경지식을 가지도록 의도한 방법론인 것이다.

IM RL모델은 크게 지식 기반 IM(KB-IM)과 Competence 기반 IM(CB-IM)으로 나뉜다. KB-IM은 상황의 다양성을 극대화하는 것에 중점을 두고 CB-IM은 에이전트가 마스터하는 스킬에 중점을 둔다. ELLM은 에이전트가 일반적 상식을 기준으로 효과가 있을 것 같은 스킬 중에서 액션을 탐색한다는 점에서 CB-IM방법에 속한다고 할 수 있다.
Model Algorithm
기호 설명

O(o | s, a) : 각 환경과 액션이 주어졌을 때의 관측을 나타냄
Environment states : s ∈ S
actions : a ∈ A
관측 (observations) o ∈ Ω
T (s ′ | s, a) : 환경의 변화를 나타냄
R : 보상 함수
γ : discount factor
CB-IM의 보상 함수







