전체보기 (37) 썸네일형 리스트형 데이터 분석 - [네이버 API] # 강남역 맛집 검색 시 나오는 블로그 리스트들을 csv파일로 저장하기. # 네이버 검색 API예제는 블로그를 비롯 전문자료까지 호출방법이 동일하므로 blog검색만 대표로 예제를 올렸습니다. # 네이버 검색 Open API 예제 - 블로그 검색 import os import sys import urllib.request import csv import json client_id = "YOUR_CLIENT_ID" client_secret = "YOUR_CLIENT_SECRET" encText = urllib.parse.quote("강남역 맛집") url = "https://openapi.naver.com/v1/search/blog?query=" + encText # json 결과 # url = "https.. 데이터 분석[R] -15차시 감정 사전 감정을 나타낸 단어와 감정의 강도를 표현한 숫자로 구성됨 ex) 만족스럽다 +2 예쁘고 +2 좋아서 +2 나쁘고 -2 비싸다 -2 감정 점수 부여 디자인 예쁘고 마감도 좋아서 만족스럽다 => 합산 : +6 디자인은 만족스럽다. 그런데 마감이 나쁘고 가격도 비싸다 => 합산 : -2 간단한 문장을 감정 사전을 이용하여 분석 더보기 # 사용되는 패키지 활성화 library(stringr) library(dplyr) library(tidytext) library(KoNLP) library(ggplot2) library(wordcloud2) library(readr) library(textclean) setwd("작업 경로명") # 작업 경로 설정 dic % mutate(sentiment = ifel.. 데이터 분석[R] - 14차시 오즈비 - 어떤 사건이 A조건에서 발생할 확률이 B조건에서 발생할 확률에 비해 얼마나 더 큰지를 나타낸 값 로그 오즈비 - 오즈비에 로그를 취한 값 - 어떠한 값에 로그를 취하면 1보다 큰 값은 양수, 1보다 작은 값은 음수가 됨. 오즈비를 이용한 각 대통령 연설문 분석 더보기 # 사용할 패키지 활성화 library(KoNLP) library(dplyr) library(stringr) library(tidytext) library(ggplot2) library(wordcloud2) # 작업 경로 설정 setwd("작업 경로명") # 문재인 대통령 연설문 데이터 가져오기 raw_moon % mutate(president="moon") moon # 박근혜 대통령 연설문 데이터 가져오기 raw_park % m.. 데이터 분석[R] - 13차시 텍스트 데이터 마이닝 데이터분석의 목적 더보기 1. 현상을 수치로 표현(증명) 2. 유의미한 변수를 발견하는 것 3. 수익 창출을 위한 모형 개발 KoNLP 사전의 종류 더보기 KoNLP에는 3종류의 사전이 포함되어 있으며 각 사전을 사용하기 위해 다음 명령어를 입력 useSystemDic() # 시스템 사전 useSejongDic() # 세종 사전 useNIADic() # NIADic 사전 문재인 대통령 출마 연설문 단어 빈도 분석 Ⅰ. 토큰을 이용한 분석 더보기 1. 전처리 setwd("작업 경로명") # 작업 경로 설정 raw_moon count()의 첫번째 매개변수가 됨 3. 단어 빈도 분석하기 word_space % count(word, sort = T) word_space word_space .. 데이터 분석[R] - 12차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 1 - 2. - 1 - 3. - 1 - 4. 최소제곱 복습 더보기 로지스틱 회귀(logistic regression) : 회귀모델에서 종속변수의 값의 형태가 연속형 숫자가 아닌 범주형 값인 경우를 다루기 위해서 만들어진 통계적 방법 주어진 데이터로부터 어떤 범주를 예측하는 분야를 회귀와 구분하여 분류(classification)라고 함 R에서 로지스틱 회귀 모델은 glm() 함수 이용 iris.new 데이터 분석[R] - 11차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 3 - 2. - 4 - 3. - 2 - 독립변수의 기울기가 0이면 귀무가설, 0이 아니면 대립가설 4. - 3 - 복습 더보기 1. 다중선형 회귀분석 - 두 개 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법 1) 모델의 통계적 유의성 - F통계량 : 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 통계적으로 유의 - 회귀계수 : 모든 회귀계수의 유의성이 통계적으로 검증되어야 모델을 활용할 수 있음 - 설명력 : 수정된 결정계수를 확인 2. 다중선형 회귀모델의 변수 선택 1) 설명변수 선택 : 가능한 범위 내에서 적은 수의 설명변수 포함 2) 모형 .. 데이터 분석[R] - 10차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 본 글은 2021 ADsP 데이터 분석 준전문가 : 합격을 위한 완벽 요약집[개정판] 책을 공부하면서 정리·요약한 내용입니다. 저자 : 윤종식 출판사 : 데이터에듀 1. - X - 설명이 반대로 되어있다. 2. - 4 - 3. - 4 - 복습 더보기 1. 회귀분석 - 회귀분석(regression analysis) : 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법 - 독립변수가 하나이면 단순선형 회귀분석, 독립변수가 두 개 이상이면 다중선형 회귀분석으로 분석 - 영향을 주는 변수 : 독립변수(independent variable), 설명변수(explanator.. 데이터 분석[R] - 9 차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 2 - 2. dodge 3. - 3 - 복습 더보기 1. 데이터 시각화 데이터 시각화(data visualization) : 숫자 형태의 데이터를 그래프나 그림 등의 형태로 표현하는 과정 2. 트리맵 사각타일의 형태로 구성되어 있으며, 각 타일의 크기와 색깔로 데이터의 크기를 나타냄 treemap(dtf, index, vSize, vColor = NULL, type = "index", title = NA) 3. 버블 차트 버블 차트(bubble chart): 산점도 위에 버블의 크기로 정보를 표시하는 시각화 방법 symbols(x, y) 4. 모자이크 차트 다중변수 범주형 데.. 이전 1 2 3 4 5 다음