본문 바로가기
R/기타

빅북 통계학 (최용석 저) 공부 정리

by java개발자 2016. 10. 25.

| 1장 |  통계학의 이해_ 13

  1.1  통계학의 활용 _ 15

  1.2  자료의 수집 _ 19

  1.3  자료의 이해 _ 21

  1.4  연습문제 _ 24

| 2장 |  자료의 정리 및 요약_27

  2.1  범주형 자료의 요약 _ 29

  2.2  이산형 자료의 요약 _ 32

  2.3  표와 그림을 이용한 연속형 자료의 요약 _ 

  2.4  수치를 이용한 연속형 자료의 요약 _ 38

  2.5  상자그림 _ 44

  2.6  R-프로그램 실습 _ 47

  2.7  연습문제 _ 50

| 3장 |  이산확률변수 및 분포_53

  3.1  사건의 확률 _ 55

  3.2  확률변수 _ 56

  3.3  이산확률변수의 확률분포함수 _ 57

  3.4  확률변수의 기대값과 표준편차 _ 58

  3.5  이항분포 _ 66

  3.6  R-프로그램 실습 _ 71

  3.7  연습문제 _ 72

| 4장 |  연속확률변수 및 분포_75

  4.1  연속확률변수의 확률분포함수 _ 77

  4.2  정규분포 _ 80

  4.3  정규분포의 확률계산 _ 82

  4.4  이항분포의 정규근사 _ 85

  4.5  R-프로그램 실습 _ 88

  4.6  연습문제 _ 90

---------------------------------------------------------------------------------------------------

| 1장 |  통계학의 이해_ 13

  1.1  통계학의 활용 _ 15

실업률, 농산물 수요 및 소비자 가격, 물가 안정, 지지도 조사, 의학 진단과 예측, 사회경제적 지위와 저체중아 연관성, 시청률 조사, 교통진단, 

통계학 : 

기술통계학 : 

추측통계학 : 

  1.2  자료의 수집 _ 19

모집단 : 

모수 : 

표본 : 

통계량 : 

  1.3  자료의 이해 _ 21

질적자료(범주형 자료) : 

순위형 자료(서수척도 자료)            (1=적음, 2=보통, 3=많음)

명목형 자료                                (1=흡연자, 2=비흡연자)

양적자료 : 

연속형 자료                                키

이산형 자료(셀수있음)                   입장인원 수

  1.4  연습문제 _ 24


| 2장 |  자료의 정리 및 요약_27

  2.1  범주형 자료의 요약 _ 29

도수

도수분포표

상대도수(%)

원도표, 막대도표

  2.2  이산형 자료의 요약 _ 32

중복되는 값이 많으면---------->범주형 방법

중복되는 값이 적으면---------->연속형 방법

  2.3  표와 그림을 이용한 연속형 자료의 요약 _ 

계급, 계급구간 ---> 도수분포표

히스토그램

  2.4  수치를 이용한 연속형 자료의 요약 _ 38

표본평균(mean) : 합계/개수

중위수(median) : 전체 관측중에서 가운데 위치

표본분산(variance) : 

표본표준편차(standard deviation) : 

제 100 X P 백분위수

사분위범위(inter-quartile range) : IQR = 제 3사분위수 - 제 1사분위수 = Q3 - Q1

  2.5  상자그림 _ 44


  2.6  R-프로그램 실습 _ 47

1

blood = c("B","A","B","A","A","B","O","A","A","A","O","B","AB","B","AB",

          "AB","A","A","O","AB","O","A","B","O","B","B","A","A","O","A",

          "A","AB","B","B","O","B","B","B","A","AB","A","A","B","O","B",

          "B","O","B","O","B","A","A","AB","A","A")

cnt = table(blood)

prop = prop.table(cnt)

cbind(cnt,prop)

barplot(cnt)

pie(cnt)


2

height = c(170,178,171,168,173,178,171,174,170,170,175,

           170,169,166,162,170,171,175,175,171,171,170,

           172,179,164,170,181,178,180,177,166,169,168,

           165,163,175,166,178,165,168,167,177,168,177,

           174,174,176,179,169,173,167,170,173,170,162)

cut = c(161.5,165.5,169.5,173.5,177.5,181.5)

hist(height,breaks=cut,probability=T)


3

noise = c(55.9,63.8,57.2,59.8,65.7,62.7,60.8,51.3,61.8,56.0,

          66.9,56.8,66.2,64.6,59.5,63.1,60.6,62.0,59.4,67.2,

          63.6,60.5,66.8,61.8,64.8,55.8,55.7,77.1,62.1,61.0,

          58.9,60.0,66.9,61.7,60.3,51.5,67.0,60.2,56.2,59.4,

          67.9,64.9,55.7,61.4,62.6,56.4,56.4,69.4,57.6,63.8)

mean(noise)

var(noise)

sd(noise)

quantile(noise,type=2)

boxplot(noise,horizontal=T)


  2.7  연습문제 _ 50



| 3장 |  이산확률변수 및 분포_53

  3.1  사건의 확률 _ 55

확률

실험

P(A) = 사건A에 속하는 결과의 수 / 표본공간에 속하는 결과의 수

  3.2  확률변수 _ 56

확률변수 X (random variable)

[확률변수 X의 값] [X의 값에 대응되는 사건]

0                 TTT

1                 HTT THT TTH

2                 HHT HTHTHH

3                 HHH

이산확률변수 (discrete random variable) : 셀수있음

연속확률변수(continuous random variable)

  3.3  이산확률변수의 확률분포함수 _ 57

x        0    1        2        3    합계

P(X=x)    1/8    3/8    3/8    1/8    1


확률분포(probability distribution)

확률분포함수(probability distribution function)


이산확률변수의 확률분포함수 f(x)는

f(x) = P(X=x)


이산확률분포함수의 성질

0<=f(x)<=1

∑ f(x)  = 1

  3.4  확률변수의 기대값과 표준편차 _ 58

 이와 유사한 개념으로 확률변수도 가질 수 있는 값이 많으므로 그 값들의 중심위치를 파악할 필요가 있다. 이 중 확률변수가 가질 수 있는 값들에 대한 확률분포 상의 중심위치를 그 확률변수의 기대값(expected value)이라고 한다. 일반적으로 확률변수 X의 기대값은 E(X) 로 나타내며, 이산확률변수의 기대값은 다음과 같이 계산할 수 있다.


E(X) = ∑ xf(x)


확률변수의 기대값은 중심위치 즉, 모평균을 나타냄

확률변수 X의 분산 Var(X) = ∑ (x-u)^2 * f(x)

  3.5  이항분포 _ 66


  3.6  R-프로그램 실습 _ 71

  3.7  연습문제 _ 72
























'R > 기타' 카테고리의 다른 글

데이터 분석 준전문가 정리  (0) 2016.11.04