감정 사전
감정을 나타낸 단어와 감정의 강도를 표현한 숫자로 구성됨
ex) 만족스럽다 +2
예쁘고 +2
좋아서 +2
나쁘고 -2
비싸다 -2
감정 점수 부여
디자인 예쁘고 마감도 좋아서 만족스럽다 => 합산 : +6
디자인은 만족스럽다. 그런데 마감이 나쁘고 가격도 비싸다 => 합산 : -2
간단한 문장을 감정 사전을 이용하여 분석
# 사용되는 패키지 활성화
library(stringr)
library(dplyr)
library(tidytext)
library(KoNLP)
library(ggplot2)
library(wordcloud2)
library(readr)
library(textclean)
setwd("작업 경로명") # 작업 경로 설정
dic <- read_csv("knu_sentiment_lexicon.csv") # 감정사전 csv파일 읽어오기
# 긍정, 중립, 부정 단어의 개수 파악
dic %>% mutate(sentiment = ifelse(polarity >= 1, "pos",
ifelse(polarity <= -1, "neg", "neu"))) %>%
count(sentiment)
data:image/s3,"s3://crabby-images/01d54/01d54d8402d1061dad93558e25d52a320a010676" alt=""
# 분석할 문장 생성하기
df <- tibble(sentence = c("디자인 예쁘고 마감도 좋아서 만족스럽다.",
"디자인은 만족스럽다. 그런데 마감이 나쁘고 가격도 비싸다."))
df
data:image/s3,"s3://crabby-images/2eb6e/2eb6e5cfede7b8ea3814af25d5ed497f23ad1905" alt=""
# 문장을 공백을 기준으로 토큰화(단어 토큰화)
df <- df %>%
unnest_tokens(input=sentence, output=word, token="words", drop=F) # 기존 sentence열을 나두고 word열을 추가
df
data:image/s3,"s3://crabby-images/281bd/281bde1eb050e08c689efc7dfaa82514cb14be7a" alt=""
# 감정사전을 이용해 토큰화한 각단어의 점수 구하기
df <- df %>%
left_join(dic, by="word") %>%
mutate(polarity=ifelse(is.na(polarity), 0, polarity))
df
data:image/s3,"s3://crabby-images/b056c/b056c8a4d5990e59bc5047e396c913a696e9034c" alt=""
# 문장의 감정점수를 계산하기
df <- df %>%
group_by(sentence) %>%
summarise(score = sum(polarity))
df
data:image/s3,"s3://crabby-images/e1808/e1808ce043e01f37d82507c32e9b0259ce922fe7" alt=""
# 기생충 댓글을 감정 사전을 이용하여 분석
setwd("작업 경로명") # 작업 경로 설정
raw_news_comment <- read_csv("news_comment_parasite.csv") # 댓글 csv파일 읽어오기
raw_news_comment
data:image/s3,"s3://crabby-images/83ffb/83ffb6fe00fdaa8ff277a51510f7e21f7734744c" alt=""
news_comment <- raw_news_comment %>%
mutate(id=row_number(), # 행 번호 추가
reply = str_squish(replace_html(reply))) # reply안에 html tag가 존재시 공백으로 치환
news_comment
data:image/s3,"s3://crabby-images/3b6ca/3b6ca86375a099267989079f940e5cb7849a44a2" alt=""
word_comment <- news_comment %>%
unnest_tokens(input=reply,
output=word,
token="words",
drop = F)
word_comment
data:image/s3,"s3://crabby-images/82103/821031447118eb3d8229bc2cc115b4b4f9ac08b5" alt=""
# 단어 추출 및 단어에 따른 감정 점수 부여하기
word_comment <- word_comment %>%
left_join(dic, by="word") %>%
mutate(polarity = ifelse(is.na(polarity), 0, polarity))
word_comment
data:image/s3,"s3://crabby-images/ca21e/ca21e6515cd15bd5ab8f75ddd43c9ae1b41c2286" alt=""
word_comment <- word_comment %>%
mutate(sentiment = ifelse(polarity >= 1, "pos",
ifelse(polarity <= -1, "neg", "neu")))
word_comment %>% select(word, sentiment, polarity)
data:image/s3,"s3://crabby-images/d9ac0/d9ac087f3ed3d774580c5cec39e4376417dfa9f9" alt=""
# 가장 많이 사용된 긍정, 부정 단어 10개씩 추출
top10 <- word_comment %>%
filter(sentiment != "neu") %>%
count(sentiment, word) %>%
group_by(sentiment) %>%
slice_max(n, n=10, with_ties = F)
ggplot(top10, aes(x=reorder(word, n), y=n, fill=sentiment)) +
geom_col() +
coord_flip() +
facet_wrap(~sentiment, scales = "free") +
scale_x_reordered() +
labs(x = NULL)
data:image/s3,"s3://crabby-images/ed0d5/ed0d5f583643fa39915d201c8e0a4f86e14b3226" alt=""
'데이터 분석 > R' 카테고리의 다른 글
데이터 분석[R] - 14차시 (0) | 2021.07.14 |
---|---|
데이터 분석[R] - 13차시 (0) | 2021.07.13 |
데이터 분석[R] - 12차시 (0) | 2021.07.12 |
데이터 분석[R] - 11차시 (0) | 2021.07.09 |
데이터 분석[R] - 10차시 (0) | 2021.07.08 |