본문 바로가기
자연어처리/개념 정리

NLP Roadmap 및 평가지표 간단 개념 정리

by 아인슈페너먹고싶다 2022. 9. 20.

구름 자연어처리 수업에서 배웠던 내용을 정리해 보았다.

 

 

자연어처리 분야에서 문제를 정의하고 해결하는 과정을 나열해 보았는데

 

 

1) TASK 

어떤 문제를 해결해야 하는지

 

2) Formulation

어떤 공식을 사용하여 문제를 해결할지

 

3) Model

어떤 모델을 통해 문제를 해결할지

 

4) Learning

어떤 방식으로 학습할지

(vanila는 randomly initialize한 뒤 scratch부터 다시하는 경우를 말함)

 

 

 

 

Text classification의 경우 sequence 분류라고도 불리는데

 

many to one 방식이며 카테고리는 사전에 미리 정의해 둔다.

 

ex) 스팸분류, article classifier

 

 

Token classification의 경우 many to many 방식으로

 

text tagging과 QA로 나누어서 볼 수 있다.

 

 

text tagging의 예시로는 NER(Named Entity Recognition)이 있는데

 

BPE, wordpieice를 기반으로 tokenization한 후 

 

pos tagging을 통해 token 하나하나 각각 class를 예측한다.

 

 

QA의 예시로는 MRC(Machine Reading Comprehension)이 있고

 

MRC는 Retrival과 Read 과정으로 이루어져 있다. 

 

 

Retrival은 해당 정보가 담긴 지문을 찾는 과정으로 

 

sparse retriever(bow나 tf-idf), dense retriever로 나뉜다. 

 

 

text tagging과 QA모두 저번에 배운 BERT모델로 높은 성능을 기대할 수 있다.

 

 

 

 

혼동행렬과 ROC 커브

 

 

아주 유명한 confusion matrix다 

 

그래도 개념을 다시 정리해 보자면

 

정확도 accuracy : TP + TN / (TP+TN+FP+FN)

 

재현율, recall :  TP / (TP+FN)

 

정밀도, precision : TP / (TP+FP)

 

F1 score : 2*(precision * recall) / (precision + recall)

 

 

추가적으로 ROC curves를 보면

 

TP rates를 x축으로 FP rates를 y축으로 그리고

 

TP rates는 recall값과 동일하며 benefit 느낌,

 

FP rates는 1-specificity와 동일하며 cost 느낌으로 볼 수 있다.

 

(특이도, specificity는  TN/(TN+FP))

 

 

 

ROC 커브에서 밑면인 AUC가 넓을 수록 모델의 성능이 좋다고 볼 수 있다. 

 

 

개념 정리가 애매했지만 여기서마무리

댓글