자연어처리34 ChatGPT 벌써 업그레이드! Open AI 무려 'GPT-4' 공개 Chat GPT가 전세계를 휩쓴지 얼마 되지 않은 3월 15일 OPEN AI가 'GPT-4'를 공개했다. 잠에서 깨어 눈을 비비면서 동기들의 카톡을 확인하다가 깜짝 놀랐다 이게 새벽에 이렇게 갑자기 나오는 거였나? (나만 몰랐음) https://www.youtube.com/live/outcGtbnMuQ?feature=share (GPT-4 공개 라이브) GPT-4는 OpenAI에서 개발한 최신 인공지능 언어 모델로, GPT-3에 이어 더욱 강력한 성능을 자랑한다. GPT-3 or GPT-3.5와의 가장 큰 차이점 몇 가지를 언급하자면 높은 정확도와 맥락 이해력: GPT-4는 더욱 정교한 방식으로 문맥을 이해하며, 높은 수준의 일관성과 정확도를 제공한다. 다양한 언어 지원: GPT-4는 다양한 언어를 지원.. 2023. 3. 15. 깃허브(Github) 파일 및 폴더 추가하고 삭제하는 법 본격적으로 깃허브를 사용하고 나서 모르는 것들 투성이였지만 가장 급한건 파일과 폴더를 추가하고 삭제하는 일이었다. 어찌저찌 Repository를 만들었는데 그 다음을 못하겠다는 거다. 그래서 나와 같은 고생을 하는 사람들을 위해 정리해보았다. 먼저 새로운 폴더나 파일을 추가하기 위해서는 우측 상단의 'Add file' 을 클릭해야 한다. 클릭하면 두가지 옵션이 나오는데 먼저 Upload files부터 알아보자 Upload files를 클릭하면 다음과 같은 창이 나온다. 말 그대로 파일이나 폴더를 Upload하는 단계이므로 자신의 파일이나 혹은 폴더채로 드래그해서 업로드 해주면 된다. 단 업로드 후 꼭 하단의 초록색 'Commit changes'를 클릭해야 제대로 적용이 된다. 기존에 만들어두었던 파일이나.. 2023. 3. 2. NLP 감정 분류 실습 (feat. 데이콘) 면접이 끝나고 미뤄왔던 감성 분류 대회에 참여하기 위해 돌아왔다. 일단은 데이콘에서 제공한 Bert 베이스라인을 따라하면서 전체적인 코드 진행과 구성을 익혀보도록 하자 1 !pip install transformers cs 일단 transformer 기반 만능 라이브러리인 transformers를 설치해준다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import pandas as pd import numpy as np from sklearn.metrics import f1_score from sklearn.preprocessing import LabelEncoder import random import os import torch from torch.. 2022. 11. 29. NLP 평가지표(PPL, BLEU) 간단 개념 정리 평가지표은 PPL과 BLEU를 간단하게 개념 정리 해보려고한다. 곧 월드컵이 개막하는데 공부하면서 면접 잘보게 해주세요 ㅠ PPL(Perplexity)는 언어모델을 평가하기 위한 지표로 'perplexed' 라는 영어에서 의미를 따왔다. 뜻은 '헷갈리는 정도'를 의미하고 이 헷갈리는 정도가 낮아야 성능이 좋다고 볼 수 있다. 계산식으로 보자면 다음과 같다. 다시 정리해 보자면 언어모델의 평가 관점에서 테스트 데이터에 존재하는 문장에 대한 모델의 Perplexity가 낮다는 것은 해당 정답 샘플에 대한 발생 확률이 높아 언어 모델이 잘 학습되었음을 의미한다. 주로 N-gram에서 활용되며 text generation task에 활용된다. 하지만 기계번역에서 번역의 성능을 직접적으로 표현한다고 보기 어렵기 .. 2022. 11. 19. 한국 대중가요 가사 분석 프로젝트 (4) - 토픽 모델링 (LDA) 이전 글 (1) 크롤링 + 빈도 분석 : https://nthree.tistory.com/24 (2) word cloud : https://nthree.tistory.com/43 (3) 장소 어휘 : https://nthree.tistory.com/44 대중가요 가사 분석 프로젝트의 마지막 토픽모델링이다. 이전 포스팅과 비교해서 상대적으로 내용이 길다고 생각하지만 요약해서 해보겠다! 구글링의 비율이 압도적이기도 하고 시간이 좀 지나서 기억이 잘 안나는 부분도 있다 ㅎㅎ 1 2 3 4 5 import konlpy import re from konlpy.tag import Okt from sklearn.feature_extraction.text import CountVectorizer from sklearn.. 2022. 10. 25. 이전 1 2 3 4 ··· 7 다음