논문리뷰 - LARGE LANGUAGE MODELS ARE HUMAN-LEVEL PROMPT ENGINEERS
프롬프트 엔지니어링은 언어모델을 다향한 주제에 효율적으로 사용할 수 있도록 학습 프롬프트값을 최적화하는 방법으로 대규모 언어 모델을 특정한 테스크에 적합시키는데 널리 사용되고 있다. 해당 논문은 그동안 사람이 처리하던 프롬프트 엔지니어링을 기계가 자동으로 처리할 수 있는 알고리즘인 APE(Automatic Prompt Engineer) 를 제안한다.

LLM (Large Language model)
LLM은 대규모 언어 모델을 의미한다. 자연어 처리 분야에 초점을 맞춘 NLP는 감정 분석, 기계 번역 등 다양한 테스크를 포함하며 기계가 자연어를 해석하고 생성하는 것에 목표를 둔다. 하지만 LLM은 통계 모델로 이전 단어를 기반으로 다음 단어를 예측하고 이를 생성하는데 초점을 둔다. LLM은 NLP의 하위 개념이다.
LLM은 대량의 수집된 텍스트 데이터를 사용해 pre-train되며 그 후 특정 분야의 텍스트 데이터를 사용해 fine-tuning을 거쳐 특정 문제를 처리하는데 사용할 수 있다.


Prompt Engineering 방법의 변화
프롬프트 학습이 항상 LLM의 성능을 높여주지는 않는다. 따라서 LLM가 특정 테스크를 잘 수행하려면 이에 최적화된 프롬프트 값을 찾아내는 과정, 즉 프롬프트 엔지니어링이 필요하다. 프롬프트 엔지니어링은 연구가 발전되면서 연속적인 공간에서의 탐색에서 이산적인 공간으로의 탐색으로 변화했다.
연속적인 가설 공간에서의 후보들을 모두 조사하는 방법
-> 가격에 비해 효율성이 떨어짐
이산적인 프롬프트 조사 방법으로 추세가 변화함
여기서 이산적이란 말은 임베딩 공간에 연속적인 공간에서의 벡터값이 아닌 자연어 그 자체를 넣는 방법을 의미
Automatic Prompt Engineer (APE)
자동 프롬프트 엔지니어(APE)는 기계가 프롬프트 후보값을 자동으로 생성하고 이 중 최적의 선택값을 선택하는 알고리즘이다. APE는 Instruct GPT 모델 기준에서 기존사람이 처리하던 프롬프트 학습방법을 능가하는 성능을 보여주었다.

WORKFLOW

APE는 다음과 같은 과정으로 수행된다.
1. LLM을 inference 모델로 사용해 작은 input, out 예시 세트 값을 기반으로 instruction proposals (프롬프트 후보군) 값들을 샘플링한다. 즉 prove 단어를 넣어서 disprove 단어가 나와야 할 때 이러한 결과가 나올만한 프롬프트 명령어를 추측해 샘플링하는 과정.
2, 3, 4. 각 후보군의 점수를 산출해 가장 높은 점수의 후보값을 산출하는 과정 (체크 표시)
5. 몬테 카를로 방식(반복적인 무작위 추출로 실험하는 방식)의 조사를 통해 산출된 후보값과 의미가 비슷한 여러 후보군을 생성, 비교하고 그 중 점수가 가장 높은 후보값을 반환한다. (별 표시)
NATURAL LANGUAGE PROGRAM SYNTHESIS USING LLMS
위 알고리즘을 수식으로 나타내면 다음과 같다.
X : 개수
M : 프롬프트 된 모델
Q : 입력값 데모
A : 출력값 데모
ρ : 최적 후보값
U : 후보값들의 집합
Dtrain : 학습 데이터
이때 학습 데이터는 인풋 - 아웃풋 쌍으로 이루어져있다.

이때 가능한 (Q, A) 에 대한 f(ρ, Q, A) 값은 다음과 같이 나타내어진다.

알고리즘 1 설명
1 : (노란색) LLM에서 후보군 U를 생성
3 - 5 : 랜덤한 학습 데이터 subset, ~Dtrain 을 선택해 해당 데이터셋에서의 각 후보군의 첨수를 ~s에 저장
7 : 점수가 상위 k퍼센트인 후보군을 추출해 Uk에 저장
8. Uk를 U로 업데이트 (리샘플링) 하거나 몬테 카를로 서치법을 사용해 후보군 Uk를 리샘플링
이때 점수 산출식 f(p, Q, A)는 다음에서 볼 수 있다. 리턴 단계에서는 해당 점수의 최고값이 반환된다.

Iterative Monte Carlo Search
몬테 카를로 서치법을 사용한 리샘플링 단계의 간단한 설명 및 결과

추출된 후보군 Uk로 기존의 후보군 집합 U를 대체하는 대신 해당 논문에서는 반복적 몬테 카를로 서치 기법을 사용해 후보군 Uk 주변 공간을 반복적으로 조사하는 것이 최적의 후보값을 찾을 확률을 더 높인다는 것을 발견했다

위 그래프 왼쪽은 기존 방식, 오른쪽은 몬테 카를로 서치 기법을 사용한 방식이다. 오른쪽의 정확도가 더 높은 것을 봐서 몬테 카를로 서치 기법이 효과가 있다고 할 수 있다.