자연어처리/개념 정리19 NLP 평가지표(PPL, BLEU) 간단 개념 정리 평가지표은 PPL과 BLEU를 간단하게 개념 정리 해보려고한다. 곧 월드컵이 개막하는데 공부하면서 면접 잘보게 해주세요 ㅠ PPL(Perplexity)는 언어모델을 평가하기 위한 지표로 'perplexed' 라는 영어에서 의미를 따왔다. 뜻은 '헷갈리는 정도'를 의미하고 이 헷갈리는 정도가 낮아야 성능이 좋다고 볼 수 있다. 계산식으로 보자면 다음과 같다. 다시 정리해 보자면 언어모델의 평가 관점에서 테스트 데이터에 존재하는 문장에 대한 모델의 Perplexity가 낮다는 것은 해당 정답 샘플에 대한 발생 확률이 높아 언어 모델이 잘 학습되었음을 의미한다. 주로 N-gram에서 활용되며 text generation task에 활용된다. 하지만 기계번역에서 번역의 성능을 직접적으로 표현한다고 보기 어렵기 .. 2022. 11. 19. Levenshtein distance (편집거리) 간단 개념 정리 NLP 부트캠프 kaggle 대회에서 평가지표로 Levenshtein distance를 사용하기 때문에 급하게 관련해서 공부하게 되었다. Levenshtein distance는 문자 사이의 거리를 측정하는 지표인데 한 문자를 다른 문자로 변경하기위해 이동해야하는 최소 거리라고 볼 수 있다. Levenshtein distance를 가장 기본적인 재귀 수식으로 본다면 다음과 같다. 여기서 tail이란 첫번째 문자를 제외한 모든 문자열을 의미한다. 최소값의 첫 번째는 삭제, 두번 째는 삽입, 세번 째는 교체를 의미한다. 예를들어 kitten과 sitten의 levenshtein distance를 계산한다고 하면 3가지 단계가 있다. 1. kitten의 k를 s로 대체한다. 2. sitten의 e를 i로 대체한.. 2022. 10. 12. Text generation(NLP) 간단 개념 정리 Text generation은 NLP 분야에서 다양하게 사용되고 있다. 그 예시로는 1) Machine Translation 2) Open-Ended Generation 3) Summarization 4) Dialogue System 5) Q&A 그 중 Document Summarization 에는 두 종류로 나눠서 볼 수 있다. 1) Extractive Summarization 추출적 요약은 주어진 원문 내에서 단어들을 뽑아 문장을 구성해 요약하는 방법이다. 중요한 단어들을 뽑을 수 있지만 자연스러운 연결이 힘들 때도 있다. 2) Abstractive Summarization 추상적 요약은 주어진 원문을 기반으로 요약한 새로운 문장을 생성하는 방법이다. 요즘엔 Extractive Summarizatio.. 2022. 9. 21. NLP Roadmap 및 평가지표 간단 개념 정리 구름 자연어처리 수업에서 배웠던 내용을 정리해 보았다. 자연어처리 분야에서 문제를 정의하고 해결하는 과정을 나열해 보았는데 1) TASK 어떤 문제를 해결해야 하는지 2) Formulation 어떤 공식을 사용하여 문제를 해결할지 3) Model 어떤 모델을 통해 문제를 해결할지 4) Learning 어떤 방식으로 학습할지 (vanila는 randomly initialize한 뒤 scratch부터 다시하는 경우를 말함) Text classification의 경우 sequence 분류라고도 불리는데 many to one 방식이며 카테고리는 사전에 미리 정의해 둔다. ex) 스팸분류, article classifier Token classification의 경우 many to many 방식으로 text ta.. 2022. 9. 20. GPTs 간단 개념 정리 GPT는 Elmo나 BERT와는 다르게 양방향이 아닌 오른쪽 단어를 예측하는 모델로만 되어있다는 특징이 있다. GPT는 성능에 따라 여러 모델로 점차 늘어나게 되었는데 먼저 GPT 1에 대해 알아보자 GPT1은 위 그림과 같이 transformer 모델의 디코더에서 두번째 attention이 빠진 형태를 띄고 있다. 비지도 pre-training 과 각 task 별로 supervised한 fine-tuning이 결합되어 있고 이 것을 다양한 unlabeled된 text data에 적용시켜 성능을 얻고자 한다. GPT2는 fine-tuning이 아닌 zero shot setting개념을 볼 수 있는데 zero-shot은 대용량 데이터로 인해 학습 없이도 task를 알아서 해결할 수 있는 것을 이야기한다. .. 2022. 9. 19. 이전 1 2 3 4 다음