본문 바로가기
자연어처리/개념 정리

NLP 평가지표(PPL, BLEU) 간단 개념 정리

by 아인슈페너먹고싶다 2022. 11. 19.

평가지표은 PPL과 BLEU를 간단하게 개념 정리 해보려고한다. 

 

곧 월드컵이 개막하는데 공부하면서 면접 잘보게 해주세요 ㅠ 

 

 

 


 

 

 

PPL(Perplexity)는 언어모델을 평가하기 위한 지표로 'perplexed' 라는 영어에서 의미를 따왔다. 

 

뜻은 '헷갈리는 정도'를 의미하고 이 헷갈리는 정도가 낮아야 성능이 좋다고 볼 수 있다.

 

계산식으로 보자면 다음과 같다.

 

 

 

문장 생성확률의 역수를 단어의 수로 정규화 함

 

 

 

 

다시 정리해 보자면 언어모델의 평가 관점에서

 

테스트 데이터에 존재하는 문장에 대한 모델의 Perplexity가 낮다는 것은

 

해당 정답 샘플에 대한 발생 확률이 높아 언어 모델이 잘 학습되었음을 의미한다.

 

 

주로 N-gram에서 활용되며 text generation task에 활용된다.

 

 


 

 

 

하지만 기계번역에서 번역의 성능을 직접적으로 표현한다고 보기 어렵기 때문에

 

다른 성능 지표가 등장하였는데

 

바로 BLEU score이다. 

 

 

 

BLEU score는 Bilingual Evaluation Understudy Score로 

 

모델의 값이 실제값과 얼마나 유사한지 즉 겹치는 정도를 의미한다.

 

높을수록 성능이 좋으며 계산식으로 보자면 다음과 같다. 

 

 

 

 

 

 

정답 문장과 예측 문장 사이에 단어가 겹치는 정도의 기하 평균이다.

 

다만 이렇게만 하면 오류가 많이 발생하기에 중복, 순서, 길이에 대한 보정이 포함되어있어서

 

결론적으로 모든 수정된 n-gram 정밀도의 가중 기하 평균에 간결성 페널티를 곱한 것이라고 할 수 있다.

 

BLEU score는 input과 output이 모두 sequence로 이루어져있는 경우 사용되며

 

기계번역에 자주 활용된다.

 

 

 

언어에 구애받지않고 계산속도가 빠르다는 장점이 있지만

 

유사성이 없다는 단점이 존재하는데 그렇기에

 

같은 의미의 다른 단어에 대한 점수가 낮게 나오거나, 가중치가 존재하지 않아

 

별로 상관없는 단어와 유사한 단어가 같은 점수를 받는 문제가 있다.

 

끝!

댓글