본문 바로가기

데이터 분석

(16)
데이터 분석[R] - 8차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 2 - 2. - 3 - 3. - 3 - 복습 더보기 idx
데이터 분석[R] - 7차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 1 - 2. - 2 - 상자그림과 관계없는 내용, 이상치의 값이 정상적인 값일 수 있음 3. ESD (Extreme Studentized Deviation) 복습 더보기 데이터 전처리 : 대표적으로 "결측값"과 "특이값"을 처리하여 데이터 정제 및 가공 order() : 번호표 sort() : 실제 값 위치를 변경 subset() : 기준에 맞는 행들만을 추출(조건) v1 7.6, select=c(Petal.Length, Petal.Width)) # Sepal.Length가 7.6 초과인 데이터 중Petal.Length, Petal.width 컬럼만 확인 데이터 샘플링 더보기..
데이터 분석[R] - 6차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. 상관계수 2. - 4 - 인과관계를 알려면 회귀분석을 이용해야 한다. 3. - 4 - 결측값(missing value) 더보기 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생 → 고의 또는 실수로 누락 결측값의 처리 방법 1. 결측값 제거 또는 생략 2. 결측값 치환 결측값의 특성과 존재 여부 확인 더보기 z
데이터 분석[R] - 5차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 4 - 2. - 4 - 종속변수, 독립변수는 상관분석과 아무런 관계가 없다. -> 회귀분석과 관계가 있음 3. - 4 - 상관관계랑 분산은 관계가 없다. 복습 더보기 단일변수 - 팩터형(질적), 연속형(양적) 팩터형 : 도수분포표, 막대그래프, 원 그래프 연속형 : 기술통계, 히스토그램, 상자그림 다중변수 - 산점도, 상관분석 산점도 : plot(), pairs(), ~ 사용시 y축 ~ x축 상관분석 : 한 변수가 변화함에 따라 다른 변수가 어떻게 변화하는지와 같은 변화의 강도와 방향 피어슨 상관계수 : 등간(구간)척도, 비율척도(연속형)로 측정된 두 변수들의 상관관계를 측정..
데이터분석[R] - 4차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 1. - 3 - 변주형 변수 X -> 연속형 변수 O 2. - 2 - 3. - 2 - 표본의 크기가 작아도 X 복습 더보기 1. 공공데이터 포털에서 올레코스 현황 데이터를 검색하여 다운로드 받은 후 jeju.csv로 이름을 변경하시오. (C:/source에 저장) setwd("C:/Source") 2. R에서 jeju.csv를 읽어서 jeju로 저장하시오. jeju
데이터 분석[R] - 3차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 다음 중 R의 데이터 구조 중 벡터에 대한 설명으로 적절한 것은? - 2 - ① 벡터는 행과 열을 갖는 m X n 형태의 직사각형에 데이터를 나열한 데이터구조이다. ② 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한형태의 집합이다. ③ 벡터는 행렬과 유사한 2차원 목록 데이터 구조이다. ④ 벡터는 숫자로만 구성되어야 한다. 다음 중 결과가 다른 R 코드는? - 2 - ① a
데이터분석 [R] - 2차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 R의 장점으로 옳지 않은 것을 고르시오. - 2 - ① 오픈 소스이므로 사용자들이 만든 다양한 패키지들을 공유하여 사용 가능하므로 최신 알고리즘을 패키지를 통해 활용하기 쉽다. ② R은 사용자들이 많이 때문에 문제가 발생할 경우, 다양한 사용자들을 통해 문제를 해결하므로 다른 통계 패키지에 비해 유지보수가 신속하게 이루어진다. ③ 함수형 언어이기 때문에 다양한 프로그램을 통해 자동화 할 수 있다. ④ 무료로 이용할 수 있다 R에서 제공하는 데이터 가공, 처리를 위한 패키지의 설명으로 가장 부적절한 것은? - 1 - ① data.table 패키지는 데이터 프레임 처리함수인 ddply 함..
데이터 분석 [R] - 1차시 본 글은 모두를 위한 R 데이터 분석 입문 책을 공부하면서 정리·요약한 내용입니다. 저자 : 오세종 출판 : 한빛아카데미 ? head help(head) ? 와 help() 함수를 통해 함수에 대한 도움말이나 정보를 확인 가능하다. + -> 덧셈연산 - -> 뺄셈연산 * -> 곱셈연산 / -> 나눗셈연산 %% -> 나머지연산 ^ -> 제곱연산 기본적인 연산자이다. data() data()함수를 이용하면 R에서 기본적으로 제공되는 데이터 셋 확인할 수 있다. women 기본적으로 제공되는 데이터 셋 중 이름이 women인 데이터들을 확인할 수 있다. 실행결과 : 더보기 height weight 1 58 115 2 59 117 3 60 120 4 61 123 5 62 126 6 63 129 7 64 132 ..