| 제1절 그래프를 이용한 자료 분석 |第一节 使用图表进行数据分析
제2절 통계량을 이용한 자료 분석 第二节 统计数据分析
사례분석 3 금융의 수도권 집중화 현상 案例分析3 金融向都市圈集中
제1절 그래프를 이와한 자屋 분석 第一节 图表分析
1. 그래프 분석의 장점 1.图分析的优点
그래프는 자료가 아무리 방대해도 자료의 특성(예 : 집중화 경향, 산포 경향, 시 계열자료의 추세)을 간결하게 표현해 준다. 无论数据有多大,图表都能简洁地表达数据的特征(例如集中趋势、分散趋势、时间序列数据的趋势)。
따라서 그래프를 보는 사람은 통계학에 대한 전문적인 지식 없이도 그래프가 전 달하고자 하는 자료의 특성을 쉽게 파악할 수 있다. 因此,即使没有专业的统计知识,查看图表的人也可以轻松理解图表试图传达的数据的特征。
그래프를 이용하여 여러 개의 변수를 쉽게 비교하거나 변수들의 관계를 파악할 수 있다. 使用图表,您可以轻松比较多个变量或了解变量之间的关系。
그래프는 통계분석자의 의도를 명확하게 표현해 준다. 图表清楚地表达了统计分析师的意图。
그림 3-1 图3-1
우리나라 청년의 행 복에 대한 평가 韩国青少年幸福感评价
출처 : 한국노동연구원 资料来源:韩国劳动研究院 청년충 고용 노동 실 태조사' (2019; 동아일보, 2019.8.12에서 재인용) 《青年就业劳动调查》(2019年;东亚日报,2019年8月12日转载)
2. 그래프의 종류 2. 图表类型
일반적으로 자료의 특성을 표현하기 위한 그래프로는 원 그림표(pie chart), 막대 그림표(bar chart), 히스토그램(histogram), 선 그립표(line chart), 산포도(scatter plot), 줄기와 잎 그립(stemand-leaf) 등이 있다. 一般来说,表达数据特征的图形有饼图、条形图、直方图、折线图、散点图、茎叶图(stemand-leaf)等。
1) 원 그림표 1)圆形图
가장 자주 활용되는 그래프적 표현인 원 그림표는 관측 대상이 되는 전체 집단을 원의 전체 면적으로 나타내고 특성에 따라 구분될 수 있는 계급의 집단을 파이(pie)의 조각 면적으로 나 타낸다. 따라서 원 그림표는 전체 면적에서 파이의 조각 면적이 차지하는 비율을 시각적으로 표현해준다. 원 그림표에서 총면적은 1 로 보고, 각 계급이 차지하는 면적은 관측도수의 상대 적 크기를 나타낸다. 最常用的图形表示形式是圆形图,将整个观察对象组表示为圆的总面积,而可以根据特征区分的类组则表示为圆的切片面积馅饼。因此,圆形图直观地表达了饼图切片面积与总面积的比值。在圆形图中,将总面积视为1,每个类所占的面积代表观测值数量的相对大小。
그림 3-2 图3-2
주말이나 휴일의 여 가활동을 함께하는 사람 在周末或节假日参加休闲活动的人
출체 : KOSIS 국가롱계 포털(2019). 资料来源:KOSIS 国家龙溪门户网站(2019 年)。
2) 막대 그림표 2) 条形图
막대(기둥) 그림표는 원 그림표와 함께 자주 쓰이는 그래프적 표현으로 자료에서 각 계급 (class)에 속한 관측값의 빈도수를 막대로 표현하는 방법이다. 즉, 계급의 값을 가로축에 나열 하고 각 계급에 속하는 관측값의 빈도수를 막대의 높이로 나타낸다. 원 그림표보다 조직적인 형태라고 볼 수 있다. 条形图(柱形图)是一种经常与圆形图一起使用的图形表示形式,是一种使用条形图来表达数据中属于每个类别的观测值的频率的方法。换句话说,类值列在横轴上,属于每个类的观测值的频率由条形的高度表示。它可以被视为比圆形图更有组织的形式。
표 3-1 산업 및 임금 수준별 종사자 수 表3-1 分行业从业人员数和工资水平
3) 히스토그램 3)直方图
히스토그램은 막대 그림표와 형태가 같지만 계급에 속하는 절대도수나 순위를 비교하기 위 한 것이 아니라, 계급에 속하는 상대도수를 막대의 크기로 나타내어 계급별 상대적 비율 을 쉽게 파악할 수 있도록 한 것이다. 히스토그램을 그리기 위해서는 도수분포표(frequency distribution table)가 필요하다. 도수분포표는 숫자로 관측된 양적자료를 몇 개의 일정한 구간 으로 나눈 다음, 각 구간에 속한 관측값의 개수를 나타낸 표이다. 이때 구간을 계급(class), 관 측값의 개수를 도수(frequency)라고 한다. 直方图与条形图具有相同的形式,但它并不是为了比较属于某个类别的绝对频率或排名,而是通过条形的大小来表达属于某个类别的相对频率,以便每个类别的相对比例可以很容易地识别类别。要绘制直方图,需要频数分布表。频数分布表是将数值观测到的定量数据划分为若干规则区间,然后显示每个区间内观测值数量的表格。这时,区间称为类,观测值的个数称为频率。
도수분포표를 작성하기 위해서는 우선 계급구간을 다음과 같이 정한다. 要创建频率分布表,首先按如下方式确定类别间隔。
표 3-2의 중고차(중형 세단) 가격 자료의 경우 계급의 수를 8 로 한다면 계급구간은 (2820 이나 백의 자리에서 절상하여 400 으로 결정하고, 첫 번째 계급의 하측 경겟 값은 400 에서 시작한다. 이제 각 계급에 속하는 관측값의 개수인 도수, 그리고 도수를 총관측 값의 개수로 나눈 상대도수(relative frequency)를 계산하여 표 3-3과 같은 도수분포표를 작성 할 수 있다. 以表3-2中的二手车(中型轿车)价格数据为例,若类别数为8,则类别区间为(2820 四舍五入到400,第一名的较低分数从400开始。现在,您可以通过计算频率(属于每个类的观测值的数量)和相对频率(频率除以观测值的总数)来创建像表 3-3 一样的频率分布表。
제|1ᄌㅓㄹ 第一章
표 3-2 중고차중형 세단) 가격(2017년 11월 1일 2017년 11월 25일) 表3-2 二手车(中型轿车)价格(2017年11月1日至2017年11月25日)
표 3-3 중고차중형 세단) 가격에 대한 도수분포표 表3-3 二手车(中型轿车)价格频率分布表
계급(단위 : 만 원) 排名(单位:万韩元)
도수 频率
상대도수 相对频率
400 미만 少于 400
3
0.0129
400 이상 800 미만 400以上800以下
25
0.1078
800 이상 1,200 미만 800 或以上但少于 1,200
72
0.3104
1,200 이상 1,600 미만 超过 1,200 但低于 1,600
54
0.2327
1,600 이상 2,000 미만 超过 1,600 但低于 2,000
49
0.2113
2,000 이상 2,400 미만 超过2,000但少于2,400
9
0.0388
2,400 이상 2,800 미만 2,400 或以上但少于 2,800
19
0.0818
2,800 이상 3,200 미만 2,800 或以上但少于 3,200
1
0.0043
합계 全部的
232
1.00
제|절 그래프를 이요안 자료 분석 节|李友安数据的截面图分析
그림 3-4 图3-4
중고차 가격 히스토 그램 二手车价格直方图
4) 선 그림표 4) 线路图
시계열자료는 일정 기간 시간의 흐름에 따른 추세나 변화를 나타낸다. 이런 시계열자료의 추 세나 변화를 보여주기에 가장 적합한 그래프가 선 그림표이다. 선 그림표는 가로축을 시간, 세로축을 관측값의 크기로 정하여 표기된 관측점들이 선으로 이어져서 그려진다. 时间序列数据表示一定时间段内随时间变化的趋势或变化。最适合显示此类时间序列数据的趋势或变化的图表是折线图。以横轴为时间、纵轴为观测值的大小绘制折线图,并用线连接指示的观测点。
그림 3-5 图3-5
대미환율 선 그림표 美元兑美元汇率折线图
제1절 그래프를 이용ㅎㄴ 자료 분석 第一节 使用图表进行数据分析
5) 산포도 5)散点图
흔히 경제 - 경영 전문가들은 물가 상승률과 실업률의 관계, 통화량 증가가 이자율에 미치는 영향, 상품 수요에 대한 가격 상승의 효과 등과 같이 두 변수가 서로 어떤 관계(relationship)에 있는지 관심을 끌게 된다. 산포도는 이런 두 변수의 관계를 효과적으로 나타낸다. 산포도를 그리기 위해서는 두 변수 와 에 대한 관측값들이 필요하며 와 관측값의 한 쌍이 그래 프의 한 점을 이루고 관측값의 각 쌍의 모임이 산포를 나타낸다. 通常,经济和管理专家对两个变量之间的关系感兴趣,例如通货膨胀率和失业率之间的关系、货币供应量增加对利率的影响以及价格上涨对产品需求的影响。散点图有效地表示了这两个变量之间的关系。要绘制散点图,两个变量 和 观察结果 和 一对观测值形成图上的一个点,每对观测值的集合代表离散度。
원 그림표, 막대 그림표, 히스토그램 등은 자료가 가지는 전체적 분포의 특성을 시각적으로 잘 표현해주는 장점이 있으나, 원래 자료의 수치가 나타나지 않기 때문에 정보의 손실이 발 생하는 단점이 있다. 줄기와 잎 그림은 원자료의 수치를 그림에 나타내어 정보가 손실되는 단점을 보완하며, 자료가 가지는 분포의 특성을 시각적으로 잘 표현하는 장점도 지닌다. 圆形图、条形图、柱状图等的优点是可以直观地表达数据整体分布的特征,但缺点是由于没有显示原始数据值,导致信息丢失。茎叶图通过显示原始数据的数量来弥补信息丢失的缺点,并且还具有直观地表达数据分布特征的优点。
줄기와 잎 그림은 다음과 같은 단계로 작성할 수 있다. 可以通过以下步骤创建茎叶图:
단계 1 : 원자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로 정한다. 步骤1:将原始数据中的数字分为两部分,前面的部分是茎,后面的部分是叶子。
단계 2 : 줄기에 해당하는 숫자를 크기순으로 위에서 수직으로 나열한다. 第二步:将茎对应的数字从上往下按大小顺序排列。
단계 3 : 원자료의 수치를 해당 줄기의 우측 옆에 잎 부분만 기록한다. 步骤 3:仅记录茎右侧旁边的叶子部分的原始数据。
9.4
6.4
1.6
7.4
8.6
1.2
2.1
6.3
7.3
8.4
8.9
6.7
4.5
4.0
3.5
1.1
4.3
3.3
8.4
7.6
9.7
1.1
5.0
1.6
8.2
6.5
5.9
5.3
그림 3-7 图3-7
분기별 매출액 증가 율 줄기와 잎 그림 季度销售额增长率茎叶图
1
1
1
2
6
6
2
1
3
3
5
4
0
3
5
5
0
3
9
7
6
3
4
5
6
9
7
3
4
6
8
2
4
4
6
9
4
7
제1절 第1节
3. 그래프의 왜곡된 정보
1) 세로축의 눈금 단위를 바꿈 3. 图表中的信息失真
1)改变纵轴的刻度单位
그림 3-8 图3-8
세로축의 눈금 단위=2 纵轴刻度单位 = 2
그몀 3-9 然后3-9
세로축의 눈금 단위 垂直轴上的缩放单位
제껄ㄹ 矿
2) 가로축의 눈금 간격을 축소(확대) 2)缩小(放大)横轴刻度间隔
그림 3-10 图3-10
가로축의 눈금 水平轴上的刻度
간격을 축소 缩小差距
3) 세로축의 일부 생략 3)省略部分纵轴
그림 3-11 图3-11
OECD 회원국의 经合组织成员国
빈곤 탈출에 필요한 노동시간 摆脱贫困所需的工作时间
4) 가로축에 일정하지 않은 단위 사용 4)横轴上使用不一致的单位
그림 3-12 图3-12
가로축에 일정하지 않은 단위 사용 在水平轴上使用不一致的单位
제|절 节|节
5) 그림 면적의 오류 5) 图片区域错误
그림 3-13 图3-13
그림 면적의 오류로 由于图片面积有误
인한 정보 왜곡 造成的信息失真
제3장 자료 분석 방법 第三章数据分析方法
통계의 이해와 활용 理解和使用统计数据
데이터는 언제나 진실을 말하는가? 数据总是能说明真相吗?
각 도시의 학교 수와 범죄 발생 수에 대한 데이터를 수집하여 분석해보니 학교 수가 증가하면 범죄 발 생 수 역시 증가하는 것으로 나타났다. 그렿다면 우리는 데이터 분석 결과에 근거하여 학교 수의 증가 가 범죄 발생의 원인이라고 말할 수 있을까? 학교 수의 증가가 범죄 발생에 영향을 준다는 사실을 데이 터가 나타낸다고 해도 우리는 직관적으로 이 사실에 의문을 품게 된다. 학교 수의 증가가 범죄 발생의 원인이라는 사실은 타당하지 않기 때문이다. 그럼 왜 이런 현상이 발생할까? 학교 수와 범죄 발생 수라 는 두 변수의 관계에는 다른 변수들의 영향이 존재할 수 있기 때문이다. 예를 들어, 도시가 클수록 학교 수가 많아지고, 범죄 발생 수도 증가하게 되므로 '도시 규모'가 두 변수에 영향을 미치게 됨을 알 수 있 다. '도시 규모' 변수처럼 두 변수의 관계에 영항을 미치는 변수를 교란변수(confounder)라고 하며 데 이터의 분석과정에서 교란변수의 영향력을 통제해야지만 변수들의 관계를 정확하게 파악할 수 있다. 在收集并分析了每个城市的学校数量和犯罪数量的数据后发现,随着学校数量的增加,犯罪数量也随之增加。那么,根据数据分析结果,我们是否可以说学校数量的增加是犯罪的原因呢?即使数据显示学校数量的增加会影响犯罪发生率,我们直觉上也会质疑这一事实。这是因为学校数量的增加不太可能是犯罪的原因。那么为什么会出现这种现象呢?这是因为学校数量和犯罪数量这两个变量之间的关系可能会受到其他变量的影响。例如,城市越大,学校越多,犯罪数量也随之增加,可见“城市规模”对这两个变量都有影响。影响两个变量之间关系的变量,例如“城市规模”变量,被称为混杂变量,在数据分析过程中必须控制混杂变量的影响,才能准确理解变量之间的关系。
내용으 145-146pp. 참고 内容 145-146 页。参考
제|2절 둥게퍙을 이요안 자료 분석 第二节 李耀安数据分析
방대한 기초 자료로부터 자료의 특성을 도출하는 가장 쉬운 방법은 앞 절에서 설명한 것처럼 다양한 그래프를 이용하는 것이다. 그러나 이런 시각적인 방법은 구체적이며 정확한 결과를 요구하는 연구에는 부적합하다. 이 절에서는 연구 목적상 정확한 자료의 특성을 파악해야 하 는 경우, 자료의 관측값을 대표하는 통계량을 구하여 자료의 특성을 파악하는 통계적 방법에 대하여 살펴보고자 한다. 자료의 특성을 기술하기 위한 중요한 통계량으로는 자료의 집중화 경향(central tendency)을 나타내는 평균(mean), 중앙값(median)과 최빈값(mode), 관측값의 흩어 진 정도를 나타내는 범위(range)와 분산(variance), 그리고 분포의 비대칭 정도를 나타내는 왜도 (skewness)와 분포의 뾰족한 정도를 나타내는 첨도(kurtosis) 등이 있다. 从大量基础数据中得出数据特征的最简单方法是使用各种图表,如上一节所述。然而,这些视觉方法不适合需要具体和准确结果的研究。在本节中,当出于研究目的需要确定数据的确切特征时,我们将研究统计方法,通过获取代表数据观测值的统计量来确定数据的特征。描述数据特征的重要统计量包括均值、中位数和众数,它们指示数据的集中趋势,以及极差和方差,指示观测值的分散程度。还有偏度,指示数据的集中趋势。分布的不对称程度和峰度,表示分布的尖锐程度。
모수란 자료가 수집된 대상 집단의 전체인 모집단 특성을 나타내주는 대푯값이다. 통계 량이란 모집단 일부로부터 추출된 표본을 이용하여 표본의 특성을 나타내주도록 계산된 대푯값이다. 参数是一个代表值,代表收集数据的整个总体的特征。统计量是使用从总体的一部分中提取的样本计算出的代表值,以指示样本的特征。
제2절 둥게평을 이요한 자료 분석 第 2 节 使用敦平进行数据分析
그림 3-14 图3-14
모수와 통계량 参数和统计数据
집중화 경향의 측정 集中化倾向的衡量
평균 平均的
평균은 관측된 숫자들을 모두 합한 후에 관측된 숫자들의 총개수로 나눈 값이다. 平均值是所有观察到的数字的总和除以观察到的数字的总数。
부호 符号
: 모집단 자료에서 관측된 숫자들의 총수 :人口数据中观测到的总数 표본자료에서 관측된 숫자들의 총수 样本数据中观察到的数字总数 모집단 평균 总体平均值 표본평균 样本均值 자료의 번째 관측값 数据的 第二次观察 : 자료의 첫 번째 관측값부터 번째 관측값까지의 합, 즉 :从数据中的第一个观察开始 第二个观察结果的总和,即
모집단 평균(population mean)은 모집단 자료에 존재하는 모든 숫자의 합을 관측된 값들의 총개수로 나눈 값이므로 위의 수학 부호들을 이용하여 모집단 평균을 다음과 같이 함축적으 로 정의할 수 있다. 由于总体平均值是总体数据中存在的所有数字的总和除以观测值的总数,因此可以使用上述数学符号将总体平均值隐式定义如下。
모집단 평균 总体平均值
제2절 둥게평을 이요한 자료 분서 第 2 节 使用Dunggepyeong进行数据分析
A 역 지하상가에서 음식점을 경영하는 사람들의 작년 매출액을 조사해 보니 다음과 같 았다. 当我们调查去年A站地下商场餐厅老板的销售额时,我们发现了以下情况。
표 3-5 매출액 表3-5 销售额
(단위 : 만 원) (单位:万韩元)
2,000
2,500
1,800
3,000
2,200
5,500
1,500
4,600
작년 평균 매출액을 계산하라. 计算去年的平均销售额。
만일 모집단 자료 대신 표본자료를 사용하면 관측값들의 총수는 으로 표기되며, 이때 계 산된 평균값은 표본평균 이 된다. 표본의 관측값들은 모집단의 부분집합이므로 이 된 다. 현실적으로는 시간 및 비용 문제 등으로 인해 모집단 자료보다 표본자료를 주로 사용하 므로 모집단 평균 보다 표본평균 을 더 빈번히 사용한다. 표본평균의 계산 방법은 모집 단 평균 계산 방법과 동일하나 관측값들의 총수에 대한 부호가 다르다. 如果使用样本数据而不是总体数据,则观察总数为 表示为 ,此时计算的平均值即为样本平均值。 会发生这种情况。由于样本中的观察结果是总体的子集, 这件事发生了。现实中,由于时间和成本问题,主要使用样本数据而不是总体数据,因此总体平均值 查看样本均值 更频繁地使用。计算样本均值的方法与计算总体均值的方法相同,但观测值总数的符号不同。
표본평균 样本均值
우리나라 전체 기업 중 6 개 기업을 추출하여 전년 대비 이윤 증가율(%)을 조사하였더니 다음과 같았다고 하자. 假设我们从韩国所有企业中选择了6家企业,调查其与前一年相比的利润增长率(%),结果如下。
표 3-6 이윤 증가율 表3-6 利润增长率
(단위 : %) (单元 : %)
13.6
25.0
30.0
-15.0
14.0
-8.8
이윤 증가율의 산술평균을 계산하라. 计算利润增长率的算术平均值。
앞에서 설명한 평균은 엄격하게 정의하면 산술평균(arithmetic mean)이다. 그런데 산술평균 은 시간의 흐름에 따른 자료의 변화율(증가율, 감소율)에 대한 집중화 경향을 나타내기에는 부적합하다. 생물 개체는 시간이 지나면 일반적으로 증가한다. 애완용 고양이가 2 마리 있고, 1 년 후에 4 마리, 2 년 후에는 32 마리가 되었다고 가정하자. 이 애완용 고양이의 1 년 평균 증가 율을 산술평균으로 계산해 보자. 1 년 후 증가는 , 2 년 후 증가는 이므로 산술평균 에 의한 1 년 평균 증가율은 가 된다. 1 년 평균 증가율이 라면 애완 용 고양이 2 마리가 1 년 후에는 10 마리, 또 1 년 후에는 50 마리가 되어야 하지만 실제로 2 년 후 에는 32 마리로 증가하였다. 무엇이 잘못되었을까? 上述平均值严格定义为算术平均值。然而,算术平均值不足以显示数据随时间变化率(增加、减少)的集中趋势。生物种群通常会随着时间的推移而增加。假设您有 2 只宠物猫,一年后您有 4 只猫,2 年后您有 32 只猫。我们来计算一下这只宠物猫每年的平均增长率作为算术平均值。 1年后增加量为 ,2年后增加的是 因此,年均增长率的算术平均值为 就变成了。年平均增长率为 宠物猫的数量本应一年后增加到10只,再过一年增加到50只,但实际上两年后数量增加到32只。出了什么问题?
제2절 둥게퍙을 이요한 자료 분석 第二节 使用 Donggetap 进行数据分析
이 예처럼 인구증가율, 경제성장률, 물가 상승률과 같이 변화하는 비율(즉 곱셈으로 계산 하는 값의 집중화 경향)을 올바로 구하기 위해서는 산술평균 대신 기하평균(geometric mean) 을 사용할 필요가 있다. 기하평균은 가 양수일 때 개의 곱에 대한 제곱근의 값으로 정의 된다. 在这个例子中,为了正确获得人口增长率、经济增长率、通货膨胀率等变化率(即通过乘法计算得到的值的集中倾向),需要使用几何平均数来代替算术平均值。几何平均值为 什么时候是正数 对于产品 它被定义为平方根的值。
기하평균 几何平均数
앞 예의 애완용 고양이에 대한 1 년 평균 증가율을 기하평균으로 계산해 보면 가 된다. 따라서 기하평균을 이용한 1 년 평균 증가율에 의하면 2 마리 애완 용 고양이는 2년 후에 마리가 되어 실제 32 마리와 일치한다. 如果我们将上例中宠物猫的平均年增长率计算为几何平均值, 就变成了。因此,按照每年的平均生长速度采用几何平均数,两只宠物猫两年后就会长大。 它变成了 Marie,并与实际的 32 Marie 相匹配。
한편 평균적인 변화율을 측정하기 위해 조화평균(harmonic mean)을 사용하기도 하며, 이 조 화평균은 개의 수의 각 역수에 대한 산술평균의 역수로 정의된다. 另一方面,调和平均有时也用来衡量平均变化率,这个调和平均是 它被定义为每个数的倒数的算术平均值的倒数。
조화평균 调和平均数
두 수 가 있을 때 다음 등식이 성립함을 보여라. 两个数字 证明当 时以下方程成立。
여기서 는 조화평균, 는 기하평균, 그리고 는 산술평균을 나타낸다. 这里 是调和平均值, 是几何平均值,并且 代表算术平均值。
제2절 둥게퍙을 이요한 자료 분석 第二节 使用 Donggetap 进行数据分析
2) 중앙값 2) 中位数
평균은 집중화 경향을 측정하기에 매우 적합하며 계산된 결과도 쉽게 이해할 수 있어서 가장 일반적으로 사용되고 있다. 그러나 평균은 극단적인 관측값에 의해 심각한 영향을 받으므로 자료에 따라 집중화 경향을 올바르게 나타내지 못하는 경우가 있다. 平均值非常适合衡量中心化倾向,且计算结果易于理解,因此最常用。然而,由于平均值受到极端观测的严重影响,因此根据数据的不同,它可能无法准确地代表集中化趋势。
예를 들어 상경대학을 졸업한 학생 중 일부를 표본 추출하여 그들의 월소득을 조사하였더 니 다음과 같았다고 하자. 比如说,我们抽样了一些商经学院毕业的学生,调查了他们的月收入,结果如下。
표 3-7 월소득 表3-7 月收入
(단위 : 만 원) (单位:万韩元)
180
110
100
150
120
50,000
110
100
110
110
120
150
180
50,000
100
110
110
120
140
150
180
50,000
제|2절 둥게퍙을 이요안 지료 분석 第二节 李耀安材料分析
중앙값 中位数
관측값의 총수 이 홀수인 경우 : 관측값을 크기 순서대로 나열하였을 때 가운데 위치 하는 관측값, 즉 번째 값이 중앙값이다. 观察总数 如果是奇数:当观察值按大小顺序列出时,观察值位于中间,即 第二个值是中位数。
관측값의 총수 이 짝수인 경우 : 관측값을 크기 순서대로 나열하였을 때 가운데 위치 하는 두 관측값의 평균, 즉 번째 값과 번째 값의 평균이 중앙값이다. 观察总数 如果这是一个偶数:当观察值按大小顺序列出时,位于中间的两个观察值的平均值,即 第二个值和 第二个值的平均值是中位数。
3) 최빈값 3)模式
앞에서 소개한 통계량들은 양적으로 관측된 자료일 경우에만 집중화 경향을 측정할 수 있는 데 반해, 최빈값 Mode, 은 양적으로 관측된 자료와 질적으로 관측된 자료에 모두 적용할 수 있는 장점이 있다. 최빈값은 관측횟수가 가장 많은 값으로 정의되며 평균값처럼 소수의 극단적인 값에 의해 영향을 받지 않는다. 평균과 중앙값이 하나인 것과 달리 최빈값은 하나 이상일 수 있다. 虽然前面介绍的统计数据只有在定量观察数据的情况下才能衡量集中化趋势,但该模式 模式, 具有适用于定量和定性观察数据的优点。众数被定义为观察次数最多的值,并且不受平均值等少数极值的影响。与平均值和中位数不同,可以有不止一种众数。
최빈값은 관측값 중 관측횟수가 가장 많은 값이다. 众数是观测值中观测次数最多的值。
4) 평균, 중앙값, 최빈값의 관계 4)均值、中位数和众数之间的关系
그렴 3-15 没错 3-15
자료의 분포에 따른 평균 , 중앙갔 (M), 최빈값 의 위치 根据数据分布进行平均 , 中位数 (M), 众数 的位置
(a) 대칭분포 (a) 对称分布
(b) 오른쪽 긴 꼬리분포 (b) 右长尾分布
(c) 왼쪽 긴 꼬리분포 , (c) 左长尾分布 ,
2. 산포 경향의 측정 2. 分散倾向的测量
그림 3-16 图3-16
자료 1 의 분포 数据分布1
그림 3-17 图3-17
자료 2 의 분포 数据分布2
제|2절 둥게퍙을 이요한 지료 분석 第 2 节 使用东平平进行材料分析
범위란 자료의 집단 중에서 가장 큰 관촉값과 가장 작은 관촉값의 차이이다. 极差是一组数据中最大和最小阈值之间的差值。
그림 3-18 图3-18
자료 3 의 분포 数据分布3
제2절 둥게퍙을 이요한 자료 분석 第二节 使用 Donggetap 进行数据分析
1) 분산 1)分散
모집단 분산 总体方差
자료 1 과 자료 2 의 분산을 구하라. 求数据 1 和数据 2 的方差。
표본분산 样本方差
모집단 평균 대신 표본평균을 사용함으로써 발생하는 편의(bias)를 줄이기 위해 각 관측값의 편차를 제곱하여 모두 합한 값을 대신 자유도 로 나누어 주게 된다. 为了减少使用样本均值而不是总体均值带来的偏差,对每个观测值的偏差进行平方并计算总和。 而是自由度 它将分为
세 가지 수 으로 이루어진 모집단을 가정하자. 이 모집단의 평균과 분산을 구 하라. 三个数字 让我们假设人口由 组成。求该总体的均值和方差。
이 모집단으로부터 표본크기 가 2인 표본 9 개를 표 3-8과 같이 추출하였다고 가정하자. 该人群的样本量 假设提取了 9 个样本,其中 2 个样本被提取,如表 3-8 所示。
표 3-8 표본 表 3-8 示例
1,1
1,2
1,3
2,1
2,2
2,3
3,1
3,2
3,3
각 표본의 평균과 분산을 구하라. 표본분산의 평균은 모집단 분산과 일치하는가? 求每个样本的均值和方差。样本方差的均值与总体方差匹配吗?
3. 이번에는 각 표본의 분산을 계산하기 위해 편차제곱의 합을 자유도 대신 으로 나 누어보아라. 이 값의 평균은 모집단 분산과 일치하는가? 3. 这次计算每个样本的方差,计算偏差平方和作为自由度。 反而 尝试躺着。该值的均值与总体方差相符吗?
2) 표준편차 2)标准差
표준편차는 분산의 제곱근이다. 분산은 편차의 제곱을 기준으로 계산되기 때문에 관측값들 의 단위보다 커질 수 있으므로 원래 관측값들의 단위에서 산포의 경향을 나타내는 값으로 분 산의 제곱근인 표준편차를 사용할 수 있다. 모집단 표준편차는 이며 표본 표준편차 는 이다. 标准差是方差的平方根。由于方差是根据偏差的平方计算的,它可以大于观测值的单位,因此标准差,即方差的平方根,可以作为代表离散趋势的值。原始观测值的单位。总体标准差是 样本标准差是 是。
제2절 둥게팡을 이앙한 자료 분석 第二节 龙格庞移栽数据分析
분산 혹은 표준편차에 의한 산포 경향은 재무관리에서 위험성을 측정하기 위해 응용되기 도 한다. 기업의 판매량, 이윤, 투자 수익률 등의 자료에서 분산이 크면 수익률의 변동이 크다 는 것을 의미하며 이는 투자에 따른 위험성이 높다는 것을 뜻한다. 基于方差或标准差的离散趋势也用于衡量财务管理中的风险。一家公司的销量、利润、投资回报等数据分散度大,意味着回报率波动大,也就意味着投资风险高。
한편 우리는 표준편차를 이용하여 어떤 분포에서 특정 구간에 관측값이 포함될 확률을 추 정할 수 있다. 러시아의 수학자 체비쇼프(Chebyshev)는 모든 자료에서 평균과의 차이(편차)의 절댓값이 를 초과하는 자료의 비율이 이하가 됨을 밝혔으며(단, ), 이를 체비쇼프 부등식이라고 한다. 同时,我们可以利用标准差来估计某个观测值包含在某个分布的特定区间内的概率。俄罗斯数学家切比雪夫认为,所有数据与均值之差(偏差)的绝对值为 数据比例超过 据透露,情况如下(但是, ),这称为切比雪夫不等式。
체비쇼프부등식 切比雪夫不等式
기댓값이 이며 표준편차가 인 확률변수 가 있다고 하면 어떤 실수 에 대해 다 음이 성립한다. 期望值 标准差是 随机变量 如果有的话,那是多么错误的事 以下内容适用于
제2줄 第2行
체비쇼프 부등식에 따르면 인 경우 모든 자료에서 편차의 절댓값이 표준편차의 두 배 를 초과하는 관측값의 비율이 이하이며, 인 경우에는 모든 자료에서 편차의 절댓값 이 표준편차의 세 배를 초과하는 관측값의 비율이 이하이다. 根据切比雪夫不等式, 如果 ,则所有数据中偏差绝对值超过标准差两倍的观测值的比例为 以下, 在所有数据的情况下,偏差绝对值超过标准差三倍的观测值的比例为 如下。
특정 지역의 아파트 실거래 가격 자료를 수집해 보니 평균이 5 억, 분산이 4 억인 비대칭 분포를 이루었다고 가정하자. 假设通过收集特定区域的实际公寓价格数据,我们发现平均值为 5 亿、方差为 4 亿的不对称分布。
아파트 실거래 가격 편차의 절댓값이 6억을 초과하지 않을 최대 확률은 얼마인가? 一套公寓实际成交价格偏差绝对值不超过6亿的最大概率是多少?
적어도 아파트 실거래 가격의 가 포함되는 가격 구간은? 至少是公寓的实际成交价格 包含什么价格范围?
3. 분포의 다른 특성 측정 3. 测量分布的其他属性
1) 사분위수 1) 四分位数
분위수(quantile)란 자료를 확률적으로 동일하게 나누는 구분자이다. 즉, 순서대로 나열한 자 료를 등분하였을 때 그 기준점의 값을 의미하며, 일반적으로 분위수라고 표현한다. 이를테 면 2 분위수는 자료를 0.5 의 같은 확률로 2 등분 하였을 때 그 기준점의 값이며, 중앙값과 같다. 分位数是按概率等分数据的分隔符。也就是说,数据按顺序列出 指参考点等分后的数值,一般为 它被表示为分位数。例如,第二分位数是将数据以相同的概率0.5分为两部分时参考点的值,并且等于中位数。
제|2절 둥게퍙을 이요한 지료 분석 第 2 节 使用东平平进行材料分析
구체적인 예로, 어떤 소그룹에 속하는 5 명의 소득을 순서대로 나열하면 , 450 만 원이라고 하자. 이 소득 자료의 2 분위수에 해당하는 값은 같은 확률 0.5 로 2 등분 하였 을 때 기준점의 값인 300 만 원이 된다. 또한 이 자료의 절반은 이 값보다 크고 나머지 절반은 이 값보다 작으므로 중앙값 300 만 원과 같다. 举个具体的例子,如果按顺序列出某个小组中五个人的收入, ,假设是 450 万韩元。该收入数据的第2分位数对应的值,以0.5的相同概率一分为二时,成为基准点值300万韩元。另外,该数据一半大于该值,另一半小于该值,因此等于300万韩元的中值。
우리가 흔히 사용하는 사분위수(quartile)는 자료를 순서대로 나열한 상태에서 확률적으로 동일하게 4 등분 하는 3 개 기준점의 값이 되는데 제 1 사분위수 는 누적백분율이 , 제 2 사 분위수 는 , 제 3 사분위수 는 에 해당하는 값이다. 또한 순서대로 나열된 자료를 10 개의 동일 구간으로 나눈다면 이를 십분위수(decile), 100 개의 동일 구간으로 나눈다면 이를 백분위수(percentile)라고도 한다. 참고로 제 1 사분위수 는 백분위수, 제 2 사분위수 는 백분위수, 제 3 사분위수 는 백분위수와 같다. 我们常用的四分位数是三个参考点的值,它们概率地将数据分为四个相等的部分,其中数据按顺序排列。 是累计百分比 , 第二个四分位数 是 , 第三个四分位数 是 它是对应于 的值。另外,如果将按顺序列出的数据分为 10 个等分,则称为十分位数,如果将其分为 100 个等分,则称为百分位数。 作为参考,第一个四分位数 是 百分位数、第二个四分位数 是 百分位数、第三个四分位数 是 与百分位数相同。
사분위수란 자료를 순서대로 나열한 상태에서 확률적으로 동일하게 4 등분 하는 각 기준 점의 값을 의미한다. 四分位数是指将数据以概率分为四等份的每个参考点的值。
제2절 둥계량을 이용한 자료 분석 第 2 节 使用批量测量进行数据分析
따라서 사분위수를 통해 우리는 해당 자료가 갖는 분포의 전반적인 특성을 알 수 있는데, 특히 는 중앙값이 되므로 분포의 중심화 경향을 살펴볼 수 있고 과 값의 위치를 비교 함으로써 자료의 분포가 정규분포로부터 얼마나 왜곡되어 있는지도 쉽게 판단해 볼 수 있다. 나아가, 과 사이의 거리를 사분위수 범위(interquartile range, IQR)라고 하며, 중위권에 속 하는 자료의 범위를 나타낸다. 因此,通过四分位数,我们可以知道数据分布的整体特征,尤其是 由于 是中位数,我们可以考察分布的集中趋势。 班级 通过比较值的位置,您可以轻松确定数据分布与正态分布的扭曲程度。此外, 班级 它们之间的距离称为四分位距 (IQR), 表示数据的范围。
2) 왜도 2)偏度
앞에서 평균, 중앙값, 최빈값의 관계를 통해 비대칭분포에 관해 설명하였다. 이런 비대칭분 포가 대칭분포의 형태에서 얼마나 벗어났는지를 나타내주는 척도로 왜도(skewness)를 계산할 수 있다. 그림 3-15에서처럼 오른쪽 긴 꼬리분포의 경우 평균이 중앙값 혹은 최빈값보다 크 고, 반대로 왼쪽 긴 꼬리분포의 경우 평균이 중앙값 혹은 최빈값보다 작을 뿐만 아니라 분포 의 비대칭 정도가 심해질수록 그 차이가 더욱 커진다는 사실을 이용하여 피어슨(Pearson)은 다음과 같은 왜도계수를 정의하였다. 以前,不对称分布是通过均值、中位数和众数之间的关系来解释的。偏度可以作为指示这种不对称分布偏离对称分布的程度的度量来计算。如图3-15所示,在右手长尾分布的情况下,均值大于中位数或众数,反之,在左手长尾分布的情况下,均值不仅大于中位数或众数,小于中位数或众数,但分布越不对称,差异就越大,Pearson 定义了以下偏度系数。
오른쪽 긴 꼬리분포의 경우 피어슨 왜도계수는 0 보다 크며, 왼쪽 긴 꼬리분포의 경우 피어 슨 왜도계수는 0 보다 작다. 또한 비대칭의 정도가 심할수록 피어슨 왜도계수의 절댓값은 커 지게 된다. 对于右长尾分布,皮尔逊偏度系数大于0,对于左长尾分布,皮尔逊偏度系数小于0。另外,不对称性越严重,皮尔逊偏度系数的绝对值就越大。
3) 첨도 3)峰度
첨도(kurtosis)는 정규분포와 비교하여 분포의 형태가 얼마나 뾰족한지를 나타내는 척도이다. 편차 4 제곱의 모든 합을 자유도와 표본분산 제곱의 곱으로 나누어 3 을 빼면 첨도를 구할 수 있다. 峰度是分布形状与正态分布相比的尖锐程度的度量。您可以通过将所有 4 个偏差平方和除以自由度与样本方差平方的乘积并减去 3 来找到峰度。
분포의 형태가 정규분포에 가까우면 첨도계수는 0 에 근접하게 된다. 한편, 분포의 봉우리 가 정규분포의 봉우리보다 완만하면 첨도는 0 보다 작고, 반대로 정규분포의 봉우리보다 뾰족 하면 첨도는 0 보다 크다. 如果分布的形状接近正态分布,则峰度系数接近 0。另一方面,如果分布的峰值比正态分布的峰值更平滑,则峰度小于 0。反之,如果分布的峰值比正态分布的峰值更尖锐,则峰度更大比 0。
그림 3-21 图3-21
첨도계수와 분포의 형태 峰度系数和分布形状
제2절 둥게퍙을 이용한 지浢 분석 第 2 节 使用东平平进行 Jiho 分析
다음 표본자료는 구글 트렌드를 이용하여 '통계’라는 단어에 대한 최근 6 년간의 관심도 를 측정한 값이다. 以下示例数据是使用 Google 趋势衡量过去 6 年对“统计”一词的兴趣程度。
표 3-9 통계 관심도 表3-9 兴趣统计
(단위 : 관심도) (单位:利息)
43
36
42
44
59
70
출처 : 구글 트렌드 来源:谷歌趋势
중앙값을 이용한 피어슨 왜도계수를 계산하고 해석하라. 使用中位数计算和解释 Pearson 偏度系数。
첨도계수를 계산하라. 计算峰度系数。
요약 求和
163 p. 참고 163 页。参考
주요 푱어 主要流行词
163-164pp. 참고 163-164 页。参考
염숙문제 赖床的问题
165-166pp. 참고 165-166 页。参考
기출문제 以前的考试题
166-169pp. 참고 166-169 页。参考
시례분석 3 금요의 수도권 집중회 현상 案例分析3 周五市区集中聚集
사려분석 深思熟虑的分析
금융의 수도권 집중화 현상 金融集中于大都市区
출처 : 셔터스톡 来源:Shutterstock
시폐분석 3 금아의 수도권 집중호 현상 市值分析3 金雅在首都圈的集中飙升现象
수도권과 수도권 외 지역으로 나누어 예금은행 예금에 대한 원 그림표를 그려보자. 我们画一个银行存款分为都市区和非都市区的圆圈图。
수도권과 수도권 외 지역으로 나누어 예금은행 예금과 대출금을 동시에 나타낸 막대 그 림표를 그려보자. 让我们画一个条形图,显示存款银行的存款和贷款,分为都市和非都市地区。
각 변수의 관측값을 수도권과 수도권 외의 지역으로 나누어 평균을 계산하여 비교해 보자. 我们将每个变量的观测值分为都市区和非都市区,并计算平均值来进行比较。
각 변수의 관측값을 수도권과 수도권 외의 지역으로 나누어 분산과 표준편차를 계산하 여 비교해 보자. 我们将每个变量的观测值分为都市区和非都市区,通过计算方差和标准差来进行比较。