구름 자연어처리 수업에서 배웠던 내용을 정리해 보았다.
자연어처리 분야에서 문제를 정의하고 해결하는 과정을 나열해 보았는데
1) TASK
어떤 문제를 해결해야 하는지
2) Formulation
어떤 공식을 사용하여 문제를 해결할지
3) Model
어떤 모델을 통해 문제를 해결할지
4) Learning
어떤 방식으로 학습할지
(vanila는 randomly initialize한 뒤 scratch부터 다시하는 경우를 말함)
Text classification의 경우 sequence 분류라고도 불리는데
many to one 방식이며 카테고리는 사전에 미리 정의해 둔다.
ex) 스팸분류, article classifier
Token classification의 경우 many to many 방식으로
text tagging과 QA로 나누어서 볼 수 있다.
text tagging의 예시로는 NER(Named Entity Recognition)이 있는데
BPE, wordpieice를 기반으로 tokenization한 후
pos tagging을 통해 token 하나하나 각각 class를 예측한다.
QA의 예시로는 MRC(Machine Reading Comprehension)이 있고
MRC는 Retrival과 Read 과정으로 이루어져 있다.
Retrival은 해당 정보가 담긴 지문을 찾는 과정으로
sparse retriever(bow나 tf-idf), dense retriever로 나뉜다.
text tagging과 QA모두 저번에 배운 BERT모델로 높은 성능을 기대할 수 있다.
혼동행렬과 ROC 커브
아주 유명한 confusion matrix다
그래도 개념을 다시 정리해 보자면
정확도 accuracy : TP + TN / (TP+TN+FP+FN)
재현율, recall : TP / (TP+FN)
정밀도, precision : TP / (TP+FP)
F1 score : 2*(precision * recall) / (precision + recall)
추가적으로 ROC curves를 보면
TP rates를 x축으로 FP rates를 y축으로 그리고
TP rates는 recall값과 동일하며 benefit 느낌,
FP rates는 1-specificity와 동일하며 cost 느낌으로 볼 수 있다.
(특이도, specificity는 TN/(TN+FP))
ROC 커브에서 밑면인 AUC가 넓을 수록 모델의 성능이 좋다고 볼 수 있다.
개념 정리가 애매했지만 여기서마무리
'자연어처리 > 개념 정리' 카테고리의 다른 글
Levenshtein distance (편집거리) 간단 개념 정리 (0) | 2022.10.12 |
---|---|
Text generation(NLP) 간단 개념 정리 (0) | 2022.09.21 |
GPTs 간단 개념 정리 (0) | 2022.09.19 |
Transformer 간단 개념 정리 (0) | 2022.09.14 |
Attention 간단 개념 정리 2 (0) | 2022.09.13 |
댓글