본문 바로가기

자연어처리/실습12

NLP 감정 분류 실습 (feat. 데이콘) 면접이 끝나고 미뤄왔던 감성 분류 대회에 참여하기 위해 돌아왔다. 일단은 데이콘에서 제공한 Bert 베이스라인을 따라하면서 전체적인 코드 진행과 구성을 익혀보도록 하자 1 !pip install transformers cs 일단 transformer 기반 만능 라이브러리인 transformers를 설치해준다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 import pandas as pd import numpy as np from sklearn.metrics import f1_score from sklearn.preprocessing import LabelEncoder import random import os import torch from torch.. 2022. 11. 29.
한국 대중가요 가사 분석 프로젝트 (4) - 토픽 모델링 (LDA) 이전 글 (1) 크롤링 + 빈도 분석 : https://nthree.tistory.com/24 (2) word cloud : https://nthree.tistory.com/43 (3) 장소 어휘 : https://nthree.tistory.com/44 대중가요 가사 분석 프로젝트의 마지막 토픽모델링이다. 이전 포스팅과 비교해서 상대적으로 내용이 길다고 생각하지만 요약해서 해보겠다! 구글링의 비율이 압도적이기도 하고 시간이 좀 지나서 기억이 잘 안나는 부분도 있다 ㅎㅎ 1 2 3 4 5 import konlpy import re from konlpy.tag import Okt from sklearn.feature_extraction.text import CountVectorizer from sklearn.. 2022. 10. 25.
한국 대중가요 가사 분석 프로젝트 (3) 장소 어휘 이전글 (1) 크롤링 + 빈도분석 : https://nthree.tistory.com/24 (2) word cloud : https://nthree.tistory.com/43 다음글 (4) 토픽 모델링 : https://nthree.tistory.com/45 분량을 잘못 나누어서 이번 포스팅은 되게 짧은 포스팅이 될 것이다. 지난번에 이어 한국 대중가요 가사 분석 프로젝트의 장소 어휘를 분석하는 과정을 진행했다. 당시 구글링을 하다가 비슷한 주제를 발견하여 참고하였다. 시작! 1 2 3 import os import numpy as np import pandas as pd cs 늘 그렇듯 구글 코랩환경에서 진행하였고 필요 라이브러리를 설치해주었다. 1 2 3 4 5 6 7 8 9 10 11 12 13 1.. 2022. 10. 24.
한국 대중가요 가사 분석 프로젝트 (2) word cloud 이전글 (1) 크롤링 + 빈도분석 : https://nthree.tistory.com/24 다음글 (3) 장소어휘 : https://nthree.tistory.com/44 (4) 토픽 모델링 : https://nthree.tistory.com/45 저번에 이어서 몇달전에 진행했던 NLP 프로젝트 실습을 가져왔다. 이번엔 빈도 분석과 더불어 빈도를 word cloud로 나타내는 방법을 간단하게 포스팅해보려고 한다. 실습은 구글 코랩 환경에서 진행하였다. 1 2 3 4 5 6 7 8 import os import numpy as np import pandas as pd df = pd.read_csv('/content/drive/MyDrive/textmining_rawdata.csv') df1970 = pd... 2022. 10. 23.
MRC(기계독해) 실습 1 : JSON 데이터셋 불러오기 (Groom Competition) 구름 자연어처리 과정 팀 미션 2번째 주제인 MRC를 시작했다. 확실히 단순하게 분류하여 Score만 측정했던 첫번째 주제보다 코드의 난이도부터 빡세서 어려웠다. 그래서 오늘 Baseline Code를 기반으로 JSON 데이터셋을 불러오는 연습을 해보았다. 필수 라이브러리를 후딱 설치해주고 1 2 3 4 from typing import List, Tuple, Dict, Any import json import random Colored by Color Scripter cs 먼저 JSON 데이터를 볼 수 있는 클래스를 만들었다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 .. 2022. 10. 6.