본문 바로가기
데이터자격증/재무빅데이터분석사FDA2급 이론

재무빅데이터분석사(FDA 2급) - 통계학, 변수, 모집단, 표본추출

by orangecode 2022. 12. 13.
728x90

재무빅데이터분석사 FDA 2급 출제범위

이론 데이터베이스
  • 데이터베이스 시스템
  • 관계형 데이터베이스 개요
  • 관계형 키
  • 기초 SQL
기초회계 회계의 정의
  • 회계의 기본가정, 회계등식
  • 회계상 거래, 복식부기의 원리
  • 회계등식, 재무제표의 구성요소
  • 분개, 전기, 시산표의 이해
  • 결산, 정산표, 회계의 순환과정
기초통계
  • 모집단과 표본
  • 자료의 척도와 형태
  • 기술통계분석
  • 확률, 확률변수와 확률분포
  • 표본분포와 추정
  • 상관분석과 선형회귀분석
 
  • 변수의 설정
  • 연산자와 복합연산자, 주석
  • 리스트, 튜플, 딕셔너리
실기 파이썬기초
  • if문과 for문
  • 리스트 컴프리헨션
  • 사용자정의함수, 람다함수
  • 전역변수와 지역변수
데이터 분석 (Fraudit 활용)
  • CSV, Excel 데이터 입력
  • 데이터의 Sorting
  • 데이터의 Filtering
  • 데이터의 Select
  • 데이터의 Duplicate, Gap 분석
  • 데이터의 Groupby, Summarize 분석
  • 데이터 테이블의 Join 분석
  • 데이터 Outlier 분석

 

통계학의 정의

통계학이란 관심 또는 연구의 대상이 되는 모집단의 특성 파악을 위해, 모집단으로부터 표본을 수집, 정리, 요약, 분석하여 표본의 특성을 파악한다. 표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문을 통계학이라 부른다.

 

오늘날 통계학이라는 분야는 경영, 과학 등 모든 분야에서 활용되고 있다.

 

특히 데이터를 다루는 분야는 본질적으로 해당 데이터가 나타내는 특성을 파악하기 위해 통계기법이 자주 적용된다.

 

통계학 기본 용어 - 정보, 변수, 자료

정보(information)

일상생활에서 접하는 사실과 현상을 의미를 가지는 것을 정보라 한다.

 

- 양적 정보 : 숫자로 표현할 수 있는 사실 혹은 현실    ex) 국민총생산, 주가, 이자율 등

-  질적 정보 : 성질 또는 특성을 나타내는 사실과 현상  ex)  성별, 취미, 선호도 등

 

변수(Variable)

숫자로 표현된 정보 중 값이 변화하는 것을 말한다.

 

- 양적 변수 : 시험성적, 키 몸무게 같이 숫자로 표현할 수 있는 변수

- 질적 변수 : 범주로 나타낼 수 있는 변수로 범주를 숫자화하여 보여줄 수 있는 변수

 

자료(Data)

관심이 있는 변수의 실제 관측한 값들의 집합

ex) 최근 5년간 상장기업의 당기순이익 증가율, 매출액 증가율, 고용율 등에 대한 관측값들의 집합

 

 

모집단

정의

- 모집단(Population)은 연구대상이 되는 모든 개체의 집합

- 대상 자체보다 그 대상의 속성에 관심이 있기 때문에 전체 대상의 속성이 모집단이 되기도 함

ex) 대한민국 남성 전체 or 대한민국 남성 전체의  수명

 

한계

- 대부분의 모집단은 크기가 매우커서 전수조사(전체조사)를 하는 것이 불가능하다. 시간과 비용상 불가능하기 때문이다.

- 모집단은 명확하게 정의하기 힘들기도 하지만 모호한 경우도 있다.

 

표본 & 표본추출

표본 : 표본이란 모집단에서 선택된 일부의 개체를 말한다.

- 표본을 선택하는 이유는 모집단의  전수조사가 힘들기 때문에 포본을 조사하고 모집단의 특성을 추론한다.

- 표본은 모집단의 특성을 대표할 수 있는지가 매우 중요하다. 특성에 편향되지 않고 모집단을 명확하게 대표할 수 있는 표본을 추출하는 기법이 중요하다.

- 표본을 추출하는 방법은 확률표본추출 비확률표본추출로 구분할 수 있다.

 

 

확률표본추출

① 단순무작위 표본추출(random sampling)

- 모집단으로부터 표본을 균등한 확률로 추출하는 것으로 난수표나 엑셀의 함수 등을 이용한다.

- ex) 모집단 구성원 10,000명일 때, 표본의 크기가 100명이라면 표본 선택 가능성은 1/100, 1%이다.

장 점 - 모집단에 대한 자세한 지식이 불필요하다
- 분류에 따른 오류의 가능성을 제거할 수 있다.
  - 항상 대표성을 지닌 표본이 추출되는 것이 아니다
- 다른 표본추출절차에 비해 표본오차가 높아지는 경향이 있다.

 

② 체계적 표본추출(Systematic sampling)

- 체계적 표본추출은 표본 프레임에 배열된 구성요소들의 목록에서 일정ㅇ한 간격으로 개체를 추출하는 방법이다.

- ex) 모집단이 10,000명일 때 표본의 크기가 100명일 때, 100명을 간격으로 표본을 뽑아서 100명의 표본을 채우는 것이다.

- 체계적 표본추출과정에서도 편향이 발생할 수 있는데,목록의 특성을 잘 찾아보고 편향을 초래하지 않도록 해야한다.

장 점 - 모집단에 대한 자세한 지식이 불필요하다
- 분류에 따른 오류의 가능성을 제거할 수 있다.
  - 항상 대표성을 지닌 표본이 추출되는 것이 아니다
- 다른 표본추출절차에 비해 표본오차가 높아지는 경향이 있다.

 

③ 층화 표본추출(Stratified Sampling)

층화 표본추출이란 모집단을 서로 겹치지 않는 몇개의 집단으로 분류한 뒤, 각 집단에서 배정된 표본을 단순 무작위 표본추출 방법에 따라 추출하는 방법이다.

층화 표본추출이 실제 표본설계에서 이용되는 장점은 다음과 같다

장 점 - 표본크기가 크지 않아도 모집단의 대표성이 보장된다.
- 단순임의 추출 또는 계통추출보다 불필요한 자료의 분산을 축소할 수 있다.
- 전체 모집단에 대한 추정뿐 아니라 각 층별로 추정결과로 얻을 수 있다.

 

④ 집략 표본추출(Cluster Sampling)

모집단의 전체 구성요소들에 대한 목록을 작성하는 것이 불가능하거나 실용적이지 않은 경우에 사용되는 방법

모집단을 서로 인접한 기본 단위로 묶어 cluster를 추출하고, 추출된 cluster 내의 일부 또는 전체를 조사하는 방법이다.

 

 

비확률표본추출

비확률표본추출은 확률표본추출이 불가능하거나 시간, 비용이 매우 많이 드는 경우에 사용된다.

모집단 구성요소들의 추출확률을 모르기 때문에, 표본으로부터 도출된 결론을 일반화할 수 있는 가능성이 현저하게 떨어지므로 과학적인 조사방법으로 활용될 수 있다.

비확률 표본추출방법 간편추출법, 판단추출법, 할당추출법, 눈덩이표본추출 등이 있다.

반응형

댓글