仅供办公室使用
T1
T2
T3
T4
团队控制编号
79002
已选择问题
B
仅供办公室使用
F1
F2
F3
F4
2018
MCM/ICM
有多少种语言?
为了预测一种语言的数量,我们假设母语使用者与其母语使用者的自然增长率和第二使用者的数量有关。根据我们收集的数据,我们采用时间序列语言说话人差异方程模型来描述母语和第二语言说话人的动态变化,同时考虑学校教授的外语、社交媒体、经济学、文化传播等的影响。差异方程模型可以将我们收集的指标应用于预测语言分布随时间的变化。50 年后,按总使用者顺序排名前 10 位的语言从 [普通话、英语、印度斯坦语、西班牙语、阿拉伯语、马来语、俄语、孟加拉语、葡萄牙语法语] 变为 [普通话、英语、西班牙语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、马来语、俄语、法语];前 10 名母语使用者的排名从 [普通话、西班牙语、英语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、俄语、旁遮普语、日语] 变为 [普通话、西班牙语、英语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、旁遮普语、俄语和豪萨语]。通过分析这些变化,我们找到了一些合理的解释,例如一些发展中国家的快速自然增长率和一些语言日益增长的口语能力。鉴于全球人口增长和迁移模式,我们建立了差异地理分布方程模型,以预测不同语言的地理分布。通过建立差异方程,我们考虑了不同大陆的语言分布与主要迁移路线之间的关系。我们使用 MATLAB 计算未来 50 年每个大洲的语言比例变化,并找到一些合理的预测。 例如,普通话将成为北美和澳大利亚的第二大母语。欧洲讲普通话和阿拉伯语的比例将显著增加。
在第二部分中,根据服务公司的需求和特点,我们根据对语言使用者的预测选择了六个合适的城市。此外,我们发现,根据公司是面向长期(建议的 6 个城市:上海、纽约、加尔各答、马德里、迪拜和里约热内卢)还是面向短期(6 个城市:上海、纽约、加尔各答、马德里、迪拜和新加坡),城市会有所不同。
此外,我们构建了成本效益分析模型,以计算该公司应该建造的合适办公室数量。考虑到公司的盈利能力和成本水平,我们设定了一个新参数,即成本-盈利能力比。如果 cp 比率的值小于 281,我们认为应该建造 6 个办公室。如果这个比率的值在 281 到 422 之间,我们认为应该建造 5 个办公室。如果值介于 422-527 之间,则最好使用 4 个 office;如果介于 527 到 544 之间,则应建造 3 个办公室;如果> 544,我们应该只保留两个办公室。
最后,我们分析了模型的性能和模型的灵敏度,证明我们的模型对于不同的参数是相对稳定的。
关键词 : 语言分布, 时间序列差分方程模型, 动态仿真, 选址
成本-利润分析
更多数学建模资料请关注微店店铺“数学建模学习交流” https://k.weidian.com/RHO6PSpA
团队 # 79002 第 1 页,共 29 页
内容
1 介绍 2
1.1 问题背景 21.2 我们的工作2
2 假设和符号 2
2.1 初始数据的假设 22.2 符号和定义 3
3 第一部分 模型和结果 4
3.1 模型 I:各种语言的说话人差异方程模型 4
3.1.1 母语人士的增加 4
3.1.2 第二语言使用者的增加 5
3.1.3 模型 I 的总差分方程 8
3.2 模型 I 结果和分析 8
3.2.1 初始等级和参数设置 8
3.2.2 结果与分析 9
3.3 模型 II:地域分布差异模型 10
3.4 人口增长拟合和当前迁移模式 11
3.5 各大洲每种语言的使用者增加 12
3.6 结果与分析 13
4 第二部分模型和结果 15
4.1 关于服务公司的假设 15 4.2 关于我们选择的解释 15 5 敏感性分析 17 5.1 模型 I 的敏感性分析 17 5.2 模型 II 的敏感性分析 19
6
优势与劣势20
7
备忘录 21
8
附录 22
8.1 数据 228.2 程序 24
1 Introduction
1.1 Problem Background
In the world of globalization, number of native speakers and L2 speakers of a certain language increase or
decrease over time. There are many factors that affect the increase or decrease of a certain language, including
the foreign language taught in school, cultural communication and assimilation, Economic Factor, technology,
social media and so on.
Our first task is to establish a model of the distribution of various language speakers over time, in which we
should consider the factor listed above.
Besides, our second task is the establish a model to predict the geographic distributions of these languages over
time based on the given globe population and human migration patterns for the next 50 years.
In the part II, a large multinational service company hire our team to give location options for new offices. So
our third task is to consider where we should locate these offices and if opening less than six offices better.
1.2 Our work
Language is such an important topic due to its role in cultural communication, international business, migration
issue and so on. Under the circumstance that we are consulted to give out 6 most suitable sites to build new
office by a service company, our main work is as follows:
Firstly, based on the data we collected, we use time series languages speakers difference equation model to
describe the dynamic change of both native and second language speakers, considering the influence of foreign
language taught in school, social media, economics, cultural communication and so on.
Secondly, considering the global population growth model and migration patterns, we establish geographical
distribution difference model, presenting the change of languages’ distribution in 6 main continents over 50
years.
Thirdly, we choose the six suitable cities based on our prediction of language speakers. Also, we find that the
cities are different depending on whether the company is long-term oriented or short-term oriented.
Moreover, we build the cost-benefit analysis model to calculate the suitable number of offices that this company
should build.
Finally, we analyze the performance of our model and the sensitivity of our model.
2 Assumptions and Symbols
2.1 Assumptions of the initial data
1. Those languages whose current total speakers are less than 100 million won’t become the top 10
languages. Thus, according to the list of languages by total number of speakers, we only use the data of
top 16 languages, since they are the only languages that are used by more than 100 million people.[1]
Reason: The French ranked 10th in 2017 with a total number of 228million speakers. According to common
sense, total number of Language speakers have a small possibility to decrease. So, those languages with fewer
than 100million speakers are less likely to become Top10 in 50 years. At the same time, we also do this to reduce
our computational load and to reduce our programming difficulty.
2. For some Languages L2 speakers number ‘?’in the [1], we assume it is zero.
团队 # 79002 第 2 页,共 29 页
1 引言
1.1 问题背景
在全球化的世界中,某种语言的母语使用者和 L2 使用者的数量会随着时间的推移而增加或减少。影响某种语言的兴衰的因素有很多,包括学校教授的外语、文化交际和同化、经济因素、技术、社交媒体等。
我们的首要任务是建立一个不同语言使用者随时间分布的模型,其中我们应该考虑上面列出的因素。
此外,我们的第二个任务是建立一个模型,根据给定的全球人口和未来 50 年的人类迁移模式来预测这些语言随时间推移的地理分布。在第二部分,一家大型跨国服务公司聘请我们的团队为新办公室提供选址选择。因此,我们的第三个任务是考虑我们应该在哪里设立这些办事处,以及开设少于 6 个办事处是否更好。
1.2 我们的工作
语言是一个如此重要的话题,因为它在文化交流、国际商务、移民问题等方面的作用。在一家服务公司咨询我们给出 6 个最适合建造新办公室的地点的情况下,我们的主要工作如下:
首先,根据我们收集的数据,我们采用时间序列语言说话人差异方程模型来描述母语和第二语言说话人的动态变化,同时考虑学校教授的外语、社交媒体、经济、文化交际等的影响。
其次,考虑全球人口增长模型和迁移模式,建立地理分布差异模型,呈现 50 年来 6 大洲语言分布的变化。
第三,我们根据对语言使用者的预测来选择六个合适的城市。此外,我们发现城市是不同的,这取决于公司是面向长期还是短期导向。此外,我们构建了成本效益分析模型,以计算该公司应该建造的合适办公室数量。
最后,我们分析模型的性能和灵敏度。
2 假设和符号
2.1 初始数据的假设
1. 那些目前总使用人数少于 1 亿的语言不会成为前 10 名的语言。因此,根据按使用者总数划分的语言列表,我们只使用排名前 16 的语言的数据,因为它们是唯一超过 1 亿人使用的语言。[1] 原因:法语在 2017 年排名第 10 位,使用者总数为 2.28 亿。根据常识,使用语言的总数减少的可能性很小。因此,那些使用人数少于 1 亿的语言不太可能在 50 年内成为前 10 名。同时,我们这样做也是为了减少我们的计算负载并降低我们的编程难度。2. 对于某些语言 L2 使用者,数字为 '?'在 [1] 中,我们假设它为零。
团队 # 79002 第 3 页,共 29 页
原因:我们推测 '?' 的出现可能有两个原因。一是因为数据太小,没有很好的统计数据。另一个原因是,定义谁可以成为第二个说外语的人是有争议的。出于这两个原因,我们都可以假设这个数字为零。
3. 我们认为母语人士的增长仅与其自身的自然增长率和第二语言人口有关
原因:根据我们的常识,母语人士的增长通常与当地人口的变化有关。当地人口增长,母语人士也将增长。外国人移民到这里,以外语为母语的人增加了。因此,母语人士的变化和人口变化是非常相关的。为了简单地使用我们的模型,我们认为母语人士的增长仅与其自身的自然增长率和第二语言人口有关。[2]
4.我们认为二语使用者的成长仅受其自身特点(在学校学习的语言、文化交流)和全球形势(经济、技术发展、媒体使用)的影响。
他们之间的关系是成正比的。
原因: 根据常识,这些因素对 L2 说话者的成长有积极影响。虽然我们不太确定它们之间的关系是否是线性的,但为了简化问题,我们可能会认为它们之间的关系是线性的,因此是成比例的。
2.2 符号和定义表 2 前 16 种语言的代码
我 1 2 3 4 5 6 7 8
语言: 普通话, 英语, 印度斯坦语, 西班牙语, 阿拉伯语, 马来语, 俄语, 孟加拉语
我 9 10 11 12 13 14 15 16
语言: 葡萄牙语, 法语, 豪萨语, 旁遮普语, 德语, 日语, 波斯语, 斯瓦希里语
团队 # 79002 第 4 页,共 29 页
3 第一部分 模型和结果
3.1 模型 I:各种语言的说话人差异方程模型
如何量化语言增长与各种因素之间的关系是一个难题?我们可以使用多种时间序列模型。如果我们有足够的数据,我们可以根据各种因素回归语言数量之间的函数关系。但事实是,我们在网上找不到足够多的可靠数据。这有两个原因。一是因为判断一个人是否具有第二外语能力是模糊的。因此,不同的数据源可能不是来自同一标准。所以两者之间的数据会有很大的不同。此外,来源相同但年份不同的两个数据仍然不可信。这是因为人口普查的日期因国家而异。这使得很多数据没有时间连续性。由于这两个原因,我们不能也不会使用这些方法来拟合预测。
差分方程模型可以考虑不同因素对自变量大小的影响。此外,差分方程模型只需要其上的初始数据。这两个特征与我们的问题非常吻合。我们在差分方程中设置的时间步长是一年。我们表示,下一时期以 i 为母语的人数取决于当前以 i 为母语的人数和当前 2 种语言的人数。因此,我们可以构建一个差分方程模型来描述 16 种语言的 2 种类型说话人的变化。
3.1.1 母语人士的增加
根据我们的常识,母语人士的增长通常与当地人口的变化有关。当地人口增长,母语人士也将增长。外国人移民到这里,以外语为母语的人增加了。因此,母语人士的变化和人口变化是非常相关的。因此,我们假设母语人士的增长仅与其自然增长和第二语言使用者的数量有关。我们选择官方语言为语言 i 的国家的自然增长率加权平均值作为语言 i 的母语使用者的增加。
然而,世界人口增长模式因国家而异。最显著的差异是发展中国家和发达国家的人口增长模式之间的差异。因此,我们将这些语言分为两组。一种主要在发达国家使用,另一种主要在发展中国家使用。发达国家通常具有较低的自然人口增长率和高移民率,而发展中国家通常具有较高的自然人口增长率。为了考虑到这种差异,我们将所有 16 种语言分为 2 种类型,根据它们的主要使用者类型——发达或发展。
表 3 语言类型
类型 languages
I 型:发达国家使用最多的英语、西班牙语、法语、德语、日语、
II 型普通话:在发展中国家使用最多的印度斯坦语、阿拉伯语、马来语、葡萄牙语、豪萨语、
旁遮普语、波斯语、斯瓦希里语
I 型语言使用者的增长模型:马尔萨斯增长模型
I 型语言主要在发达国家使用,这些国家的人口通常具有非常低的自然
团队 # 79002 第 5 页,共 29 页
增长率,例如 0.5%,甚至为负值。其人口增长率主要取决于移民,而这些移民的下一代通常必须学习当地语言作为他们的母语。
对于这种类型的国家,我们可以将其视为未来 50 年的恒定汇率 r。因此,我们使用马尔萨斯增长模型来衡量母语人士的数量[4]。根据马尔萨斯增长模型,人口增长率 r 不随时间变化。因此,t+1 年的人口可以写成:
( + 1) − () = () + ∙ () (1 )
x(t) 表示 T 年以 I 为母语的人数;ri 表示语言 I 的自然使用者增长率;R 表示一个系数,该系数解释了第 t 年该语言的 2 个使用者在第 t+1 年转变为母语使用者的比例。稍后,我们将对这个系数 R 进行敏感性分析。
II 型语言使用者的增长模型:Logistic Growth Model
II 型语言主要在发展中国家使用,这些国家的人口通常具有相对较高的自然增长率,例如 2%。然而,我们不能在未来 50 年使用这个数字,因为它们的人口无法保持如此快速增长。为了进行更现实的分析,我们使用 Logistic Growth Model。Logistic Growth Model 是对 Malthus 模型的略微修改。它指出,种群增长率不是恒定的——环境的承载能力有限,导致种群随着时间的推移保持稳定[5]。
根据 Logistic Growth Model,t+1 年的人口可以写成:
3.1.2 第二语言使用者的增加
在讨论 2language 使用者的变化时,我们认为主要受两个主要因素的影响。首先,受自身特点的影响,如地域、难度、政府推广、文化传播等。其次,它受全球形势的影响,例如经济、技术发展等。
3.1.2.1 语言自身特性的影响
学校教授的外语 [3]
我们假设政府推广的语言是学校教授的外语。例如,由于英语在世界范围内的广泛传播和使用,英语在许多国家被作为学生的主要外语教授。虽然一些发展中国家的统计数据不完整,但我们只找到了一些发达国家的数据。然而,我们认为这种在教育中推广语言的能力与语言本身的力量有关,即讲 L2 的人的数量。因此,我们使用可用数据来弥补缺失的数据。
团队 # 79002 第 6 页,共 29 页
例如,当 i 指的是法语,j 指的是英语时,langTij 是英语国家在学校作为外语教授的法语的百分比。K1 是衡量该因素(学校教授的语言)对语言 I 的第二语言使用者增加多大影响的系数。稍后我们将对 k1 进行敏感性分析。
图 1 在学校学习的外语,以美国为例[6]
文化交流与同化
许多报告指出,文化交流和同化在 2language 学习者的增加中起着重要作用。然而,如何量化文化交流是一个非常困难的问题。为了解决这个问题,我们提出了两个会影响文化传播的因素。以下是两种效果:
邻里效应:如果两种语言的使用者住得很近,他们更有可能进行文化交流。因此,他们将更有可能将邻居的语言作为他们的 2 语言来学习。
图 2 前 16 种语言中的邻域效应
( 两种语言有一条线相连意味着它们之间会有邻域效应 )
政策主导效应:当讲语言的母国大力促进该国与一些特殊国家的关系时,这些语言相互学习的可能性也会增加,例如中国的“一带一路”政策使政策沿线的人们学习汉语的动力更大。例如,巴基斯坦使用中文作为第二语言。
团队 # 79002 第 7 页,共 29 页
这两种效应的强度与语言使用者的人口 习() ∙ () 以及两种语言之间的文化交流呈正相关。我们得到以下方程:
16
Δi,cult = k2 ∙ ∑ 퐶ク⎋, ∙ () ∙ ()
j=1
culti,j 描述了语言 I 和语言 j 之间的文化交流程度;k2 是衡量该因素(文化交流和同化的程度)对 2 语言 i 使用者的增加产生多大影响的系数。稍后我们将对 k2 进行敏感性分析。
3.1.2.2 全球形势的影响 经济因素
在全球商业环境中,不同的语言具有不同的口语能力。它的力量越大,选择学习它的人就越多。通过不同语言贡献的 GDP [见图 3],我们对前 16 种语言给予不同的权重。
Δi,Eco = 푘3 ∙ 퐸th
Ecois 语言 i. k3 的经济实力描述了经济因素在多大程度上激励人们学习语言 i 作为他们的 2语言。稍后我们将对 k3 进行敏感性分析。
图 4 按语言划分的 GDP 贡献 [7]
翻译软件技术的更新
技术的发展将使翻译不同的语言变得更加容易和快捷。我们假设翻译软件的更新速率速度是恒定的。因此,它将对 2language 学习者的数量产生负面影响。这个因素将影响 i 语言使用者的 L2 使用者的增加,因为:
Δi,Tech = k4c (c > 0, k4 < 0)
C 是技术发展的速度。K4 描述了受翻译软件发展影响的 2Language 学习者的变化。稍后我们将对 k4 进行敏感性分析。 网络和社交媒体的推动 尽管全世界有数千种语言,但其中只有 5% 在互联网上得到广泛使用。54.5% 的 Web 内容仍然是英语,尽管不懂英语或更喜欢以母语访问内容的用户大幅增长。根据 W3techs 对最受欢迎的 1000 万个网站的分析,除了英语之外,最常见的语言是俄语 (5.9%)、德语 (5.7%)、日语 (5.0%) 和西班牙语 (4.7%)。[8]
数据还向我们显示,Facebook、Twitter 和 LinkedIn 等主流社交媒体使用的语言数量仅限于少数语言。
团队 # 79002 第 8 页,共 29 页
图 5 互联网中的语言(左)[9] & 主流网站的压力(右)[8]
我们可以将语言在网络中的力量表达如下:
Δi,Net = 푘5 ∙ 푁‸
描述了语言 I 在 Internet 中的力量。K5 描述了受互联网和社交媒体推动影响的 2Language 学习者的变化。稍后我们将对 k5 进行敏感性分析。
3.1.3 模型 I 的全差分方程
3.2 模型 I 结果和分析
3.2.1 初始等级和参数设置
在上面的部分中,我们构建了一个差分方程模型,该模型可以预测未来几年母语使用者和第二语言使用者的数量。我们根据总语言使用者获得初始排名[1]。它代表了 2017 年以不同语言为母语和第二语言的人数。以下是初始数据:
表 4 按语言大小划分的初始排名 [1]
等级 语言 L1使用者 L1等级 L2使用者 L2等级 总计
1 普通话 897 1 193 4 1090 2 英语 371 3 611 1 982
团队 # 79002 第 9 页,共 29 页
3 印度斯坦语 329 4 215 2 544
4 西班牙语 436 2 91 8 527
5 阿拉伯语 290 5 132 6 422
6 马来语 77 15 204 3 281
7 俄罗斯 153 8 113 7 267
8 孟加拉语 242 6 19 13 261
9 葡萄牙语 218 7 11 15 229
10 法语 76 17 153 5 229
11 豪萨语 85 11 65 10 150
12 旁遮普语 148 9 ? ?148
13 德国 76 18 52 12 129
14 日文 128 10 1 19 129
15 波斯语 60 25 61 11 121
16 斯瓦希里语 16 26 91 8 107
根据我们在 [1, 4-7, 9] 中收集的数据,我们可以在公式 (4) 和公式 (5) 中设置索引。指数如下:
表 5 索引设置
索引 k1 k2 k3 k4 k5
价值
1
300
1
90000
0.2 -0.3 0.2
解释
L2 学习者
条件
文化
通信
语言的
电源输入
商
科技
因素
语言的
电源输入
互联网
我们各种语言说话人差异方程模型中的这些参数是由我们的估计给出的。我们将为他们做敏感性分析,以判断 L2 说话人的变化是否会对这些指标敏感。
3.2.2 结果与分析
在 MATLAB 中输入初始值和索引后,我们得到了新的排名:
表 6 50 年后按语言大小划分的预测排名,单位:百万
等级 语言 L1使用者 L1 等级 L2使用者 L2 等级 总计
1 普通话 1119.9556 1 397.2715 2 1517.227
2 英语 625.07569 3 752.60658 1 1377.682
3 西班牙语 714.54914 2 232.09149 7 946.6406
4 印度斯坦语 437.73828 4 322.65571 3 760.394
5 阿拉伯语 410.4004 5 235.69087 5 646.0913
6 孟加拉语 337.48877 6 112.72084 13 450.2096
7 葡萄牙 306.72269 7 101.83735 14 408.56
8 马来语 121.75222 11 269.89281 4 391.645
9 俄语 159.65859 9 187.58738 8 347.246
10 法语 109.24506 13 234.28833 6 343.5334
团队 # 79002 第 10 页,共 29 页
11 旁遮普语 226.42109 8 78.858666 15 305.2798
12 豪萨语 133.98132 10 132.39229 10 266.3736
13 波斯语 87.30792 14 122.95997 12 210.2679
14 德语 81.926176 15 125.04862 11 206.9748
15 日本 121.48183 12 71.268763 16 192.7506
16 斯瓦希里语 26.054248 16 145.23578 9 171.29
前十名演讲者包括华语、英语、印度斯坦语、西班牙语、阿拉伯语、马来语、俄语、孟加拉语、葡萄牙语、法语到普通话、英语、西班牙语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、马来语、俄语、法语。
排名前十的母语使用者包括普通话、西班牙语、英语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、俄语、旁遮普语、日语到普通话、西班牙语、英语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、旁遮普语、俄语、豪萨语。比较这两个排名,我们可以得出 5 个主要结论:
普通话 L2 使用者的快速增长:普通话作为中国的官方语言,是快速发展国家的典型代表,吸引了许多人选择普通话作为他们的第二语言。同时,中国还采取了一系列与其他国家的交流政策,例如对非洲的援助和“一带一路”政策,这也增强了对中国人的吸引力。
俄语总排名下降:由于俄罗斯的自然增长率非常低,俄语母语人士的排名下降,直接导致俄语总排名下降。
孟加拉语总排名增加:孟加拉国拥有庞大的全国人口基数和较高的自然增长率,导致孟加拉语母语人士及其排名迅速提高。
排名前 10 的语言列表只有一个组内的变化:因为 10 种语言(法语,总使用者:2.29 亿)和 11 种语言(豪萨语,总使用者:1.5 亿)之间存在巨大差距。这种差距不会随着时间的推移而完全消失。但从表 7 中我们可以看出,前 16 名名单在 50 年中发生了变化。
母语为日语的人从前 10 名名单中下降:这主要是因为日本的自然增长率最近为负值。此外,非洲的豪萨语由于其快速的自然增长速度而成为第 10 大母语使用者
3.3 模型二:地域分布差异模型
正如上面的模型所建立的那样,我们建立了一个模型来测量不同语言的使用者数量随时间的变化。上面的模型量化了母语人士和第二语言使用者的趋势与学校、文化群体的迁移、经济学、翻译技术的使用和社交媒体之间的关系。但显然,我们没有考虑地理分布对语言的影响。
以下模型专门解决了这个问题。
然而,如何将地理分布放入我们的模型中是一个巨大的挑战。我们一开始不知道应该使用多少语言来衡量语言的地理分布。但当我们查阅数据时,我们发现各大洲的语言分布差异很大。以下是 2017 年的语言分布:
团队 # 79002 第 11 页,共 29 页
图 6 2017 年的语言分布
因此,我们将 Earth 语言数据分为六大洲,每个不同的大洲都有不同的语言分布。然后,基于上述模型的建模思想,我们一方面考虑了各大洲人口的自然增长,另一方面考虑了其他大洲的人口迁移。然后,我们为每个大洲的每种语言创建一个随时间变化的差分方程。这个等式可以考虑每年移民人口对当地语言的影响以及当地语言自身的内部增长,这就是我们想要的。
以下部分考虑了有关世界人口增长和迁移模式的假设。
3.4 人口增长拟合和当前迁移模式
在下一节中,我们将拟合世界人口数据并找到世界人口的主要迁移路径。尽管我们可以很容易地从世界银行[10] 找到 1960 年至 2016 年的世界人口统计数据,但如何拟合 56 年的数据以使其误差更小仍然是一个问题。我们尝试了指数拟合、多项式拟合、logistic 方程拟合等,最终发现高斯函数拟合最好。下面是我们的 fit effect 和函数表达式。
图 7 世界人口统计数据的回归
(−2069)
⁄
N(吨) = 1.058 ∗ 10∗ ‸
N(t) 表示以 t 年为单位的世界人口。
97.67
)
当前的全球迁移模型非常复杂。如果我们关注各种
2
团队 # 79002 第 12 页,共 29 个国家/地区,我们很容易陷入太多数据而无法获得结果。因此,为了简化世界迁移模式,我们可能希望只考虑当前世界的主要迁移路线。然后我们寻找主要的迁移模式,下图显示了我们找到的一些路由。
图 8 全球迁移的一些主要路线[11]
根据当前的全球迁移模式,我们建议假设以下七条主要迁移路线。这七条迁徙路线是我们认为未来 50 年最有希望的迁徙路径。根据年均数据和我们对这些航线的理解,我们对这 7 条航线在所有航线中的比例做出以下假设。
表8 7种主要迁移路径
路线详情比例
1 中国飞往美国和加拿大 20%
2 中国对欧盟 15%
3 印度对欧盟 15%
4 西亚至欧盟 15%
5 北非至欧盟 15%
6 拉丁美洲至美国和加拿大 15%
7 中国至澳大利亚 5%
3.5 各大洲每种语言的使用者增加
此外,移民人口将在目的地国家拥有下一代。因为它是
团队 # 79002 第 13 页,共 29 页 很难衡量这个因素对该国母语人士人数的影响,我们假设由于移民而以当地语言为母语的人每年增长与移民人数成正比,我们将指数设置为 k6。
因此,我们有以下差分方程:
3.6 结果与分析
我们使用 MATLAB 来计算差分方程。下图是我们的结果。为了方便区分各大洲的数据变化,我们专门将不同大洲的数据转换成饼图。
图 9 2017 年 6 个主要大洲的语言分布。
团队 # 79002 第 14 页,共 29 页
图 10 2037 年 6 个主要大洲的语言分布
图 11 2067 年 6 个主要大洲的语言分布
根据以上变化显示,我们可以发现:1. 非洲、澳大利亚、亚洲和拉丁美洲的语言分布变化不大。这是因为这两个大陆的语言变化主要是由自然人口增长决定的。人口迁移的方式对这两个大陆影响不大。
(尽管非洲是移民的出口点之一,澳大利亚是移民的目的地之一)。
2.
在美国和加拿大,普通话和西班牙语的比例正在上升。以葡萄牙语为母语的人出现并占一定比例。这是因为 Route 1 为美国和加拿大带来了大量讲普通话的人,而 Route 6 带来了大量的
团队 # 79002 第 15 页,共 29 页
讲西班牙语和葡萄牙语。
3.
以阿拉伯语、普通话、印地语为母语的人出现在欧洲,并且还在继续增加。但是,由于移民人数少,比例仍然很低。欧洲的语言仍然包含很多变体。
4 第二部分模型和结果
4.1 关于服务公司的假设
服务公司是通过提供服务而不是销售实物产品来产生收入的企业。服务公司的一个很好的例子是公共会计师事务所。他们通过准备所得税申报表、执行审计和资产服务,甚至做簿记工作来赚取收入。[12]
根据我们对服务公司的了解,我们对新国际办事处的位置做出以下假设。
1. 服务公司的利润与其服务的语言总数成正比。它提供的语言越多,它获得的利润就越高。这也是这家服务公司的主要盈利模式。
2.
考虑到英语在不同分支机构之间的交流中起着至关重要的作用,办事处应位于英语广泛使用的地方。
3.
这些办公室往往位于人口稠密且交通便利的大都市地区。也就是说,如果同一语言区有两个城市,我们更愿意选择人口多、交通方便的城市。
4.2 关于我们选择的解释
短期内语言人口不会有重大变化。因此,在考虑短期选址时,我们参考 2017 年使用语言的人数。使用最多的六种语言是普通话、英语、印度斯坦语、西班牙语、阿拉伯语和马来语。这六个地点分别是上海、纽约、加尔各答、马德里、迪拜、新加坡。人口密度图和办公室位置如下所示:
图 12 基于 2017 年数据的 6 个办公室的人口密度图和位置
然而,当我们从长远考虑选址时,我们会参考模型 I 的结果。此时,使用最多的 6 种语言已经发生了变化。他们是普通话、英语、西班牙语、印度斯坦语、阿拉伯语和
团队 # 79002 第 16 页,共 29 页
孟加拉语。然而,由于孟加拉国人口众多但经济不发达,该公司的服务项目缺乏当地消费群体。因此,我们认为预测语言排名中的第七种语言——葡萄牙语。因此,我们选择上海、纽约、马德里、加尔各答、迪拜和里约热内卢来定位这些办事处,按顺序排列。
图 13 基于 2067 年数据的 6 个办公室的人口密度图和位置
正如我们在图 14 中看到的,由于葡萄牙语使用者的快速增长,新加坡被里约热内卢取代。根据我们第一部分的模型,以下是我们的结果:
短期内,我们选择上海、纽约、加尔各答、马德里、迪拜和新加坡来选址
国际办事处。排名前六的办公室将使用相应的语言——普通话、英语、印度斯坦语、西班牙语、阿拉伯语和马来语。
从长远来看,我们选择上海、纽约、马德里、加尔各答、迪拜和里约热内卢。这些办公室将相应地使用普通话、英语、西班牙语、印度斯坦语、阿拉伯语和葡萄牙语。CostBenefit 分析模型
每当在新地点设立新办事处时,公司将拥有更广泛的消费者群体,从而获得更多收入。但与此同时,建造新办公室的成本也很高。根据一般的收益 = 收入 − 成本方程,我们需要澄清公司收入 R 和成本 C 的来源。由于英语是一种必要的语言,因此在建立成本效益分析模型时,我们使用了该地区除英语之外最受欢迎的语言使用者的数量来判断公司的盈利能力。在这里,我们给出一些假设如下: R (总收入) 与公司的盈利能力呈正相关,即 α C (总成本) 在每个地方都是一个固定数字。我们假设建造新办公室的成本是恒定的 C。所以,我们有方程式:
利润 (cityi) = α ∙ pop(cityi) − 퐶
Pop(cityi) 是 cityi 中除英语外,前 10 种语言的使用者人数。因为我们使用 pop(cityi) 来描述语言 i 的力量和流行度,所以我们可以让总使用者的数量大致表示它。
我们在 4.1 中计算了最合适的城市。排名在表 9 中
表 10 最适合的城市
等级 1 2 3 4 5 6
城市 上海 纽约 马德里 加尔各答 迪拜 新加坡
注:1. 上海和纽约是我们已经拥有的两个办公室。
2. 我们使用 2017 年收集的数据,而不是 50 年后的预测值,因为公司现在将建造 6 个新办公室,而不是 50 年后。
团队 # 79002 第 17 页,共 29 页要计算利润最大化的办公室金额,我们需要从我们的客户公司询问一些额外的信息,即 α 和 C 的确切值,从公司那里衡量其盈利能力。
对于 cityi,我们有一个判断来决定我们是否应该在这里设立办事处:
C/α衡量公司将成本转化为利润的能力,我们称之为成本盈利能力比,简称 C-P 比率。
给定 C/α 的不同值,我们可以给出以下建议:
表 11 公司应该设立多少个办事处?
C-p 比率(单位:百万) 办公楼数 城市
[544.982) 2 上海、纽约[527,544) 3 上海、纽约、马德里、
[422,527) 4 上海, 纽约, 马德里, 加尔各答[281, 422] 5 上海, 纽约, 马德里, 加尔各答, 迪拜
[0, 281) 6
上海、纽约、马德里、加尔各答、迪拜、
新加坡
因此,鉴于 α 和 C 的额外信息,我们可以帮助公司决定他们应该建造多少个办公室。
5 敏感性分析
5.1 模型 I 的敏感性分析
我们模型 I 的目的是在未来 50 年内改变最母语使用者和总使用者最多的前 10 种语言。但是,如果你使用排名作为敏感度分析的因变量,我们认为我们得到的结果一定是不敏感的,并且排名保持不变,因为自变量变化不大,并且排名是一个离散数据。所以我们想选择模型 I 的结果数据之一作为我们的另一个因变量。例如,我们选择 50 年后讲普通话第二语言的人数作为我们的观测变量。以下分析是考虑在以下参数的微小变化下此变量的敏感性。
1. 自然增长率
我们在程序中输入不同的普通话自然增长率,我们得到不同的普通话 L2 使用者人数。结果如下:
表 12 自然增长率的敏感性分析
普通话自然增长率 0.34 0.44 0.54
普通话 L2 使用者数量 386.34 397.27 403.18 灵敏度 0.093256475
第 18 页,共 29 页
团队 # 79002
093256475 上述灵敏度指数意味着,当自然增长率增加 1% 时,讲普通话 L2 的人的数量将反过来增加 0.09%。因此,该指数的变化对结果的影响很小。
2. k
K1 是第二语言增长率和学校学习率的比例系数。我们在程序中输入不同的 k1,得到不同的普通话 L2 使用者人数。结果如下:
表 13 对 k 的敏感性分析
k1 0.0025 0.003333 0.005 讲普通话 L2 的人数 383.14 397.27 410.5
灵敏度 0.104437788
上面显示的灵敏度指数意味着当 k1 增加 1% 时,讲普通话 L2 的人的数量将依次增加 0.10%。因此,该指数的变化对结果的影响很小。
3. k
K2 是第二语言增长率和文化交际的比例系数。我们在程序中输入不同的 k2,我们得到不同的普通话 L2 使用者人数。结果如下:
表 14 对 k 的敏感性分析
k0.00001 0.0000111 0.0000125
讲普通话 L2 的人数 393.11 397.27 401.38
灵敏度 0.093739774
上面显示的灵敏度指数意味着当 k2 增加 1% 时,讲普通话 L2 的人的数量将反过来增加 0.09%。因此,该指数的变化对结果的影响很小。
4. k
K3 是第二语言增长率与经济学的比例系数。我们在程序中输入不同的 k3,得到不同的普通话 L2 使用者人数。结果如下:
表 15 对 k 的敏感性分析
k0.2 0.3 0.4
讲普通话 L2 的人数 387.12 397.27 408.2
灵敏度 0.079593224
上面显示的灵敏度指数意味着当 k3 增加 1% 时,讲普通话 L2 的人的数量将依次增加 0.079%。因此,该指数的变化对结果的影响很小。
5. k
K4 是第二语言增长率和技术的比例系数。我们在程序中输入不同的 k4,我们得到不同的普通话 L2 使用者人数。结果如下:
表 16 对 k 的敏感性分析
k
0.1 0.2 0.3
讲普通话 L2 的人数 391.82 397.27 403.1
灵敏度 0.028393788
上面显示的灵敏度指数意味着当 k4 增加 1% 时,讲普通话 L2 的人的数量将依次增加 0.028%。因此,该指数的变化对结果的影响很小。
6. k
团队 # 79002 第 19 页,共 29 页
k5 是第二语言增长率和媒体的比例系数。我们在程序中输入不同的 k5,得到不同的普通话 L2 使用者人数。结果如下:
表 17 对 k 的敏感性分析
k0.1 0.2 0.3
讲普通话 L2 的人数 394.88 397.27 400.12
灵敏度 0.013190022
上面显示的灵敏度指数意味着,当 k5 增加 1% 时,讲普通话 L2 的人的数量将依次增加 0.013%。因此,该指数的变化对结果的影响很小。
5.2 模型 II 的敏感性分析
模型 II 的目的是显示语言地理分布的变化与移民随时间的变化之间的关系。模型 II 中的人为参数是自然增长率和 k6。下面我们将对这两个参数进行敏感性分析。我们将使用不同的结果来衡量两个指数的变化。
7. 自然生长速度
在我们的模型 II 中,我们设置了大量的自然增长率。几乎每个大洲的每种语言都有自己的自然增长率。但是我们无法分析每个参数。所以,我们只改变印地语在亚洲的自然增长率,看看会带来什么变化。
图 15 自然增长率的敏感性分析
给定的印地语增长率为 0.8%(右)和 1.2%(左)
如饼图所示,自然增长率的细微变化不会改变亚洲的分布。
因此,我们说我们的自然增长率的选择对结果不敏感。
8. k
kis 迁移与母语使用者增长的比例系数。如果我们更改 k 的数量,则所有结果都可能发生变化。首先设置的 kwe 为 0.5%。然后我们稍微将该值降低到 0.3%,看看它会产生什么变化。
团队 # 79002 第 20 页,共 29 页
图 16 迁移系数 6 的敏感性分析
现在,此结果与图 17 中的原始结果(图 18 中的原始结果)略有不同。美国和加拿大的英语和法语使用者略有下降。此外,澳大利亚英语用户略有下降。我们可以看到,这些变化非常小,不会影响整体情况。因此,我们认为此参数的更改对结果影响不大。
6 强项与弱项
优势:
(1) 我们进行了大量研究,并收集了大量数据,使我们的模型接近现实。
(2) 我们考虑第二语言增长方面的各种因素,例如学校教学、文化迁移和同化、技术使用、社交媒体和经济。
(3) 我们进行全面的敏感性分析。
弱点:
(1) 我们不包括对某种语言的总使用者人数的所有影响,例如由于缺乏数据而使用电子通信。
(2) 我们假设第二语言使用者与其影响力成正比。但事实可能并非如此。例如,我们假设第二语言使用者与学校教学成正比,但事实可能是指数关系或父系关系。
(3) 我们的模型 II 不考虑年龄和性别比。
(4) 就这些语言的地理分布而言,我们不考虑第二语言。因为我们找不到有效的数据来分析这一点。
团队 # 79002 第 21 页,共 29 页
7 备忘录
备忘录至:首席运营官 发件人:Team#79002
世界上大约一半的总人口说,排名前 10 的语言之一(按大多数使用者的顺序)是他们的母语。此外,由于政府推广、学校教育、邻里效应、社交媒体趋势、国际商业和移民,许多人将语言作为第二语言学习。因此,每种语言的母语使用者和第二语言使用者的数量会随着时间的推移而动态变化。
50 年前 10 种语言预测:
根据从 Ethnologue、世界银行和许多其他资源收集的各种数据,我们的团队考虑了上述因素,并建立了一种语言使用者人数随时间变化的模型,以预测 50 年期间语言排名的变化。
我们发现前 10 种语言的排名从 2017 年的普通话、英语、印度斯坦语、西班牙语、阿拉伯语、马来语、俄语、孟加拉语、葡萄牙语、法语变为 2067 年的普通话、英语、西班牙语、印度斯坦语、阿拉伯语、孟加拉语、葡萄牙语、马来语、俄语、法语。
作为一家服务公司,在选择是否设立本地分公司时,您的公司应该关注有多少潜在的本地客户,然后进行广泛的专业服务,以实现更高的盈利能力。
同时,这些城市中有很大一部分是母语或第二外语,两种以上语言的员工很容易进入公司的分支机构。
六个办公地点:
我们的建议在短期和长期内是不同的,因为葡萄牙语使用者的人口和经济都快速增长。短期内,推荐的 6 个办公地点是:上海、纽约、加尔各答、马德里、迪拜和新加坡。而从长远来看,推荐的六个办公地点是:上海、纽约、加尔各答、马德里、迪拜和里约热内卢。
正如我们所看到的,马来语使用者的增长速度略慢于葡萄牙语使用者的增长。
最好的办公室数量:
为了确定最佳办公室数量,我们建立了一个成本效益分析模型,当您的公司向我们提供了您的盈利能力和办公室建设成本时,我们可以找出合适的公司数量。当公司的盈利能力和成本水平不同时,最适合建设的工厂数量也会不同。
如果 c-p 比率的值小于 281,我们认为应该建造 6 个办公室。如果这个比率的值在 281 到 422 之间,我们认为应该建造 5 个办公室。如果值介于 422-527 之间,则最好使用 4 个 office;如果介于 527 到 544 之间,则应建造 3 个办公室;如果> 544,我们应该只保留两个原始办公室。
团队 # 79002 第 22 页,共 29 页
感谢您的咨询。
最好
团队#79002
引用:
[1]. https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers.
[2]. 未来的语言。2013 年:英国文化协会。
[3]. Sarah Elaine Eaton, P.D.,《21 世纪全球语言学习趋势》。2010.
[4]. https://en.wikipedia.org/wiki/Malthusian_growth_model.
[5]. http://www.stolaf.edu/people/mckelvey/envision.dir/logistic.html.
[6]. https://en.wikipedia.org/wiki/List_of_most_commonly_learned_foreign_languages_in_the_United_States.
[7]. http://unicode.org/notes/tn13/.
[8]. https://www.weforum.org/agenda/2015/10/is-the-internet-killing-off-the-worlds-languages/.
[9]. http://www.internetworldstats.com/stats7.html.
[10]. https://data.worldbank.org.cn/indicator/SP.POP.TOTL.
[11]. https://faculty.washington.edu/sis/.
[12]. https://www.myaccountingcourse.com/accounting-dictionary/service-company.
[13]. https://en.wikipedia.org/wiki/List_of_most_commonly_learned_foreign_languages_in_the_United_States.
8 附录
8.1 数据
(1) 各大洲的语言分布:
来源: https://www.worldatlas.com/articles/the-most-spoken-languages-in-america.html
https://en.wikipedia.org/wiki/Teaching_English_as_a_second_or_foreign_language#Asia
https://en.wikipedia.org/wiki/List_of_countries_by_natural_increase
团队 # 79002 第 23 页,共 29 页
http://www.myeses.com/news/view.asp?id=3457
https://www.douban.com/note/635706471/
https://en.wikipedia.org/wiki/List_of_countries_by_population_growth_rate https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population
(2) 互联网上的语言[9]
(3) 本地生产总值
[7] (4) 学校教授的外国语言:[13]
源:
https://en.wikipedia.org/wiki/List_of_most_commonly_learned_foreign_languages_in_the_United_States http://ec.europa.eu/eurostat/statisticsexplained/index.php/File:Foreign_languages_learnt_per_pupil_in_upper_secondary_education_(常规),_20 10_and_2015_(%25)_ET2017.png
团队 # 79002 第 24 页,共 29 页
(5)自然生长速率:
来源: https://en.wikipedia.org/wiki/List_of_countries_by_natural_increase
8.2 程序
1.模块 I
%r1 人口的平均自然人口 z=xlsread('data.xlsx');x0=z(:,1);
y0=z(:,2);
r1=z(:,3);c=[1;1;0;1;0;0;1;0;0;1;0;0;1;1;0;0];%发达与否
n=长度(x0);
x=零 (n,60);
y=零(n,60);
x(:,1)=x0;
y(:,1)=y0;
r2=0.0005;第二语言使用者对增长的贡献百分比 k1=1/300;% 学校因素 k2=1/90000;% 文化交际
k3=0.3;% 国际业务
团队 # 79002 第 25 页,共 29 页
k4=0.2;% 使用翻译技术
k5=0.3;% 社会媒体
a=xlsread('a.xlsx');不同地区学校的不同语言使用百分比 b=xlsread('b.xlsx');%comunacation percentage q=xlsread('q.xlsx');%按语言交流的 GDP
p=xlsread('p.xlsx');%互联网上使用的语言 i=2:60
%第二年母语人士 x(:,i)=x(:,i-1)+native1(x(:,i-1).*c,y(:,i-1).*c,r1,r2)+native2(x(:,i-1).*(c==0),r1,2*x0);%由于学校使用而增加的第二语言使用者
delta1=学校(x(:,i-1),a,k1);%由于文化交流而增加的第二语言使用者 delta2=culturecom(x(:,i-1),b,k2);
%由于国际业务而增加
delta3=总线间 (q,k3);%由于使用翻译技术而减少 delta4=technology(k4);
%由于 Socia Media 增加 delta5=media(p,k5);
y(:,i)=y(:,i-1)+delta1+delta2+delta3+delta4+delta5;结束 xlswrite('answer.xlsx',[x(:,50),y(:,50)]);
函数 z=native1(x,y,r1,r2)
% 发达国家母语人士的增加
z=r1.*x/100+r2.*y;
end
函数 z=native2(x,r,s) % 发展中国家母语人士的增加 z=r/100.*(1-x./s).*x;结束
函数 z=school(x,a,k)
%由于学校使用而增加的第二语言使用者 %k 是一个实践指数
n=长度(x);z=零(n,1);对于 i=1:n
z(i)=k*a(i,:)*x;
团队 # 79002 第 26 页,共 29 页
end
end
函数 z=technology(k) % 由于使用翻译技术而增加的 z=-k;结束
函数 z=media(p,k) z=k*p;
end
函数 z=culturecom(x,b,k)
%由于文化交流而增加的第二语言使用者 n=length(x);z=零(n,1);
对于 i=1:n z(i)=k*x(i)*b(i,:)*x;结束
end
2. 模块 II
#include<stdio.h>
#include<math.h>
#include<cstring>
#include<iostream>
#include<algorithm>
使用 namespace std;浮点型 r[50][50],sum[50];浮点数 x[50][50],y[50],ry[50],p[50][50];
结构体节点{
漂浮的人;
int 语言;
}aa[50];
bool cmp(节点 A,节点
b){ 返回
a.人>b.人;
}
int T=50;
浮点数 k=0.003;
团队 # 79002 第 27 页,共 29 页
int main()
{
x[i][j]第 i 洲说 j 语言人数
r[i][j]表示第i 洲说语言j 的自然增长率
y[i]第 i 洲 others 的人数 //ry[i]第 i 洲 others 的自然增长率
p[i][j]第 i 洲说 j 语言的比例
x[1][1]=150,x[1][2]=56,x[1][3]=34,x[1][4]=28,x[1][5]=26;y[1]=289.25692;
x[2][6]=897,x[2][7]=550,x[2][8]=301.625412,x[2][9]=260,x[2][10]=240,x[2][1]=230,x[2][11]=230,x[2][12]= 120;
y[2]=1377.734272;
x[3][8]=18.175,x[3][6]=0.625,x[3][1]=0.35,y[3]=5.85;
x[4][9]=106,x[4][13]=97,x[4][14]=66,x[4][15]=65,x[4][8]=60,x[4][16]=38.5,x[4][17]=38,y[4]=304.382487;
x[5][17]=383.4,x[5][18]=217.26,y[5]=38.34;
x[6][8]=43.240855,x[6][17]=4.508850,x[6][6]=0.932035,x[6][18]=0.601385,x[6][19]=0.30643,x[6][1]=0.539 895,x[6][14]=7.2867;
y[6]=9.9511;
r[1][1]=0.015;r[1][3]=0.02;for(int i=1;i<=19;i++)if(r[1][i]==0)r[1][i]=0.016;r[2][6]=0.005;r[2][7]=0.012;r[2][8]=0.009;r[2][9]=0.002;for(int i=1;i<=19;i++)if(r[2][i]==0)r[2][i]=0.01;for(int i=1;i<=19;i++)r[5][i]=0.01,r[6][i]=0.004,r[3][i]=0.008;
ry[1]=0.016;ry[2]=0.001;ry[3]=0.008;ry[5]=0.001;ry[6]=0.004;
printf(“时代大陆语言人口(百万) 其他(百万)\n”);
for(int t=1;t<=T;t++){
for(int
i=1;i<=6;i++){ sum[
i]=0;for(int j=1;j<=19;j++)
sum[i]=sum[i]+x[i][j];
sum[i]+=y[i];
for(int j=1;j<=19;j++)
p[i][j]=x[i][j]/sum[i];} for(int
i=1;i<=6;i++){ for(int j=1;j<=19;j++) x[i][j]=x[i][j]*(1+r[i][j]);y[i]=y[i]*(1+ry[i]);}
团队 # 79002 第 28 页,共 29 页
x[4][6]+=0.36+0.36*k*p[4][6];x[4][1]+=0.72*(1+k*p[4][1]);
x[4][7]+=0.18*(1+k*p[4][7]);x[4][8]+=0.18*(1+k*p[4][8]);x[6][6]+=0.48*(1+k*p[6][6]);x[6][17]+=0.24*(1+k*p[6][17]);x[6][18]+=0.12*(1+k*p[6][18]);x[3][6]+=0.12*(1+k*p[3][6]);
x[2][6]-=8.4;x[2][1]-=3.6;x[2][7]-=1.8;x[2][8]-=1.8;
x[5][17]-=2.4;x[5][18]-=1.2;x[1][1]-=4.8;
for(int i=1;i<=6;i++){ for(int j=1;j<=19;j++){
aa[j].people=x[i][j];aa[j].language=j;}
排序(aa+1,aa+20,cmp);
如果(t==20||t==50){
for(int j=1;j<=19;j++)
printf(“%d %d %d %lf %lf\n”,t,i,aa[j].language,aa[j].peopl e,y[i]);
printf(“\n”);
}
}
}
返回 0;
}