1.分形理论简述

2.概率论与数理统计 问题:概率论与数理统计是研究随机现象统计规律性的一门数学学科。

3.概率论与数理统计 这本书需要高数基础么

石油价格预测时间序列模型应用_石油价格预测时间序列模型应用研究

数据挖掘核心算法之一--回归

回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。

大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。

回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:

1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归

2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了

3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关

4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)

我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):

first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。

第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。

第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。

第四,检验和修改,我们用工具计算好的模型,都有各种设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。

第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。

回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。

分形理论简述

1、r=∑(Xi-X)(Yi-Y)/根号[∑(Xi-X)?×∑(Yi-Y)?]

上式中”∑”表示从i=1到i=n求和;X,Y分别表示Xi,Yi的平均数。

2、简单线性回归用于计算两个连续型变量(如X,Y)之间的线性关系,

具体地说就是计算下面公式中的α和βα和β。

Y=α+βX+εY=α+βX+ε

其中εε称为残差,服从从N(0,σ2)N(0,σ2)的正态分布,自由度为(n-1) - (2-1) = n-2 为了找到这条直线的位置,我们使用最小二乘法(least squares roach)。

最小二乘法确保所有点处的残差的平方和最小时计算α和βα和β,即下面示意图中∑4i=1ε2i=ε21+ε22+ε23+ε24∑i=14εi2=ε12+ε22+ε32+ε42有最小值。

扩展资料:

线性回归有很多实际用途。分为以下两大类:

1、如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。

给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。

2、趋势线

一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据(如GDP、石油价格和股票价格)是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线,更恰当的方法是利用线性回归计算出趋势线的位置和斜率。

百度百科—线性回归

概率论与数理统计 问题:概率论与数理统计是研究随机现象统计规律性的一门数学学科。

分形几何(Fractal Geometry)的概念是由曼德布罗特(B.B.Mandelbrot.15)在15年首先提出的.几十年来,它已经发展成为一门新型的数学分支.这是一个研究和处理自然与工程中不规则图形的强有力的理论工具,它的应用几乎涉及自然科学的各个领域,甚至于社会科学,并且实际上正起着把现代科学各个领域连接起来的作用,分形是从新的角度解释了事物发展的本质.

分形(fractal)一词最早由B.B.Mandelbrot于15年从拉丁文fractus创造出来,《自然界中的分形几何》(Mandelbrot,1982)为其经典之作.最先它所描述的是具有严格自相似结构的几何形体,物体的形状与标度无关,子体的数目N(r)与线性尺度(标度r)之间存在幂函数关系,即N(r)∝1/rD.分形的核心是标度不变性(或自相似性),即在任何标度下物体的性质(如形状,结构等)不变.数学上的分形实际是一种具有无穷嵌套结构的极限图形,分形的突出特点就是不存在特征尺度,描述分形的特征量是分形维数D.不过,现实的分形只是在一定的标度范围内呈现出自相似或自仿射的特性,这一标度范围也就称为(现实)分形的无标度区,在无标度区内,幂函数关系始终成立.

分形理论认为,分形内部任何一个相对独立的部分,在一定程度上都是整体的再现和相对缩影(分形元),人们可以通过认识部分来认识整体.但是分形元只是构成整体的单位,与整体相似,并不简单地等同于整体,整体的复杂性远远大于分形元.更为重要的是,分形理论指出了分形元构成整体所遵循的原理和规律,是对系统论的一个重要的贡献.

从分析事物的角度来看,分形论和系统论体现了从两个极端出发达到对事物全面认识的思路.系统论从整体出发来确立各部分的系统性质,从宏观到微观考察整体与部分的相关性;而分形论则是从部分出发确立整体性质,沿着从微观到宏观的方向展开.系统论强调部分对整体的依赖性,而分形论则强调整体对部分的依赖性,两者的互补,揭示了系统多层次面、多视角、多方位的****,丰富和深化了局部与整体之间的辩证关系.

分形论的提出,对科学认识论与方法论具有广泛而深远的意义.第一,它揭示了整体与部分之间的内在联系,找到了从部分过渡到整体的媒介与桥梁,说明了部分与整体之间的信息“同构”.第二,分形与混沌和现代非线性科学的普遍联系与交叉渗透,打破了学科间的条块分割局面,使各个领域的科学家团结在一起.第三,为描述非线性复杂系统提供了简洁有力的几何语言,使人们的系统思维方法由线性进展到非线性,并得以从局部中认识整体,从有限中认识无限,从非规则中认识规则,从混沌中认识有序.

分形理论与耗散结构理论、混沌理论是相互补充和紧密联系的,都是在非线性科学的研究中所取得的重要成果.耗散结构理论着眼于从热力学角度研究在开放系统和远离平衡条件下形成的自组织,为热力学第二定律的“退化论”和达尔文的“进化论”开辟了一条联系通道,把自然科学和社会科学置于统一的世界观和认识论中.混沌理论侧重于从动力学观点研究不可积系统轨道的不稳定性,有助于消除对于自然界的确定论和随机论两套对立描述体系之间的鸿沟,深化对于偶然性和必然性这些范畴的认识.分形理论则从几何角度,研究不可积系统几何图形的自相似性质,可能成为定量描述耗散结构和混沌吸引子这些复杂而无规则现象的有力工具,进一步推动非线性科学的发展.

分形理论是一门新兴的横断学科,它给自然科学、社会科学、工程技术、文学艺术等极广泛的学科领域提供了一般的科学方法和思考方式.就目前所知,它有很高程度的应用普遍性.这是因为,具有标度不变性的分形结构是现实世界普遍存在的一大类结构,该结构的含义十分丰富,它不仅指研究对象的空间几何形态,而是一般地指其拓扑维(几何维数)小于其测量维数的点集,如点的分布,能量点的分布,时间点的分布,过程点的分布,甚至是意识点、思维点的分布.

分形思想的基本点可以简单表述如下:分形研究的对象是具有自相似性的无序系统,其维数的变化是连续的.从分形研究的进展看,近年来,又提出若干新的概念,其中包括自仿射分形、自反演分形、递归分形、多重分形、胖分形等等.有些分形常不具有严格的自相似性,正如定义所表达的,局部以某种方式与整体相似.

分形理论的自相似性概念,最初是指形态或结构的相似性,即在形态或结构上具有相似性的几何对象称为分形,研究这种分形特性的几何称为分形几何学.随着研究工作的深入发展和领域的拓展,又由于一些新学科,如系统论、信息论、控制论、耗散结构理论和协同论等相继涌现的影响,自相似性概念得到充实与扩展,把信息、功能和时间上的自相似性也包含在自相似性概念之中.于是,把形态(结构)、或信息、或功能、或时间上具有自相似性的客体称为广义分形.广义分形及其生成元可以是几何实体,也可以是由信息或功能支撑的数理模型,分形体系可以在形态(结构)、信息和功能各个方面同时具有自相似性,也允许只在某一方面具有自相似性;分形体系中的自相似性可以是完全相似,这种情况是不多见的,也可以是统计意义上的相似,这种情况占大多数,相似性具有层次或级别上的差别.级别最低的为生成元,级别最高的为分形体系的整体.级别愈接近,相似程度越好,级别相差愈大,相似程度越差,当超过一定范围时,则相似性就不存在了.

分形具有以下几个基本性质:

(1)自相似性是指事物的局部(或部分)与整体在形态、结构、信息、功能和时间等方面具有统计意义上的相似性.

(2)适当放大或缩小分形对象的几何尺寸,整个结构并不改变,这种性质称为标度不变性.

(3)自然现象仅在一定的尺度范围内,一定的层次中才表现出统计自相似性,在这样的尺度之外,不再具有分形特征.换言之,在不同尺度范围或不同层次上具有不同的分形特征.

(4)在欧氏几何学中,维数只能是整数,但是在分形几何学中维数可以是整数或分数.

(5)自然界中分形是具有幂函数分布的随机现象,因而必须用统计的方法进行分析和处理.

目前分形的分类有以下几种:①确定性分形与随机分形;②比例分形与非比例分形;③均匀分形与非均匀分形;④理论分形与自然分形;⑤空间分形与分形(时间分形).

分形研究应注意以下几个问题:

(1)统计性(随机性).研究统计意义上的分形特征,由统计数据分析中找出稳态规律,才能最客观地描述自然纹理与粗糙度.从形成过程来看,分形是一个无穷随机过程的体现.如大不列颠海岸线的复杂度是由长期海浪冲击、侵蚀及风化形成的,其他许多动力过程、凝聚过程也都是无穷随机的,不可能由某个特征量来形成.因此,探讨分形与随机序列、信息熵之间的内在联系是非常必要的.

(2)全局性.分形是整体与局部比较而存在的,它包括多层嵌套及无穷的精细结构.研究一个平面(二维)或立体(三维)的粗糙度,要考虑全局范围各个方向的平稳性,即区别各向同性或各向异性分布规律.

(3)多标度性.一个物体的分形特性通常是在某些尺度现出来,在另一些尺度下则不是分形特性.理想的无标度区几乎不存在,只有从多标度中研究分形特性才较实际.

模型的建立,其实是分形(相似性)模型的建立.利用相似性原理,建立模型单元,对预测单元进行分形处理和预测.

分形的正问题是给出规律,通过迭代和递推过程产生分形,产生的几何对象显然具有某种相似性.反问题叫做分形重构.广义而言,它指任何一个几何上认为是分形的图形,能否找到产生它的规律,以某种方式来生成它.当我们研究非线性动力学时,混沌动力学会产生分形,而分形重构则是动力学系统研究的逆问题.由于存在“一因多果”、“多因一果”,由分维重构分形还需加入另外参数.

临界现象与分形有关.重整化群是研究临界现象的一种方法.该方法首先对小尺寸模型进行计算,然后被重整化至大的或更大的尺度.如果我们有网格状的一组元素,每个元素具有一定的渗透概率,重整化群方法的一个应用就是计算渗透的开始问题.当元素渗透率达到某一临界值时,这一组元素的渗透流动就会突然地发生.一旦流动开始后,相联结元素之间便具有分形结构.

自组织临界现象的概念可以用来分析地震活动性.按照这个概念,一个自然界的系统处在稳定态的边缘,一旦偏离这个状态,系统会自然地演化回到边缘稳定的状态.临界状态不存在天然的长度标度,因而是分形的.简单的细胞自动机模型可以说明这种自组织临界现象.

分形理论作为非线性科学的一个分支,是研究自然界空间结构复杂性的一门学科,可从复杂的看似无序的图案中,提取出确定性、规律性的参量.既可以反演分形结构的形成机制,又可以从看似随机的演化过程(时间序列)中推测体系演化的结果,近年来倍受地球科学家的注意.在地质统计学,孔隙介质、储层非均匀性及石油勘探开发,固相表面或两相界面,岩石破裂、断层及地震和地形、地貌学等地球科学各个领域得到了广泛的应用.

自20世纪80年代初以来,一些专家学者注意到了地质学中的自相似现象,并试图将分形理论运用于地学之中.以地质学中普遍存在的自相似性现象、地质体高度不规则性和分割性与层次性、地质学中重演现象的普遍性、分形几何学在其他学科中应用实例与地质学中的研究对象的相似性、地质学中存在一些幂函数关系等为内在基础,以地质学定量化的需要、非线性地质学的发展及线性地质学难以解决诸多难点、分形理论及现代测试和电算技术的发展为外在基础,使分形理论与地质学相结合成为可能,它的进一步发展将充实数学地质的研究内容并推动数学地质迈上一个新台阶.目前,分形理论应用于地球科学主要包括以下两个方面的研究:

(1)对“地质存在”——地质体或某些地质现象的分形结构分析,求取相应分形维数,寻找分维值与有关物理参量之间的联系,探讨分形结构形成的机理.这方面的研究相对较多,如人们已对断裂、断层和褶皱等地质构造(现象)进行了分形分析,探讨分维值与岩石力学性质等之间的关系;从大到海底(或大陆)地貌,小到纳米级的微晶表面证实了各类粗糙表面具有分形特征;计算了河流网络,断裂网络,地质多孔介质和粘性指进的分维值以及脉厚与品位或品位与储量等之间的分形关系.

(2)对“地质演化”——地质作用过程进行分形分析,求取分形维数并考察其变化趋势,从而预测演化的结果.例如,科学家们通过对强震前小震分布的分形研究表明,强震前普遍出现降维现象,从而为地震预报提供有力理论工具.当今的研究,不仅仅局限于分维数的计算,分形模型的建立;而更着重于解释地质学中引起自相似性特征的原因或成因,自相似体系的生成过程及模拟,以及用分形理论解决地质学中的疑难问题与实践问题,如地震和灾害地质的预报、石油预测、岩体力学类型划分、成矿规律与成矿预测等.地球化学数据在很大程度上反映了地质现象的结构特征.分维是描述分形结构的定量参数,它有可能揭示出地球化学元素空间分布的内在规律.

分维与地质异常有一定的关系.我们可以对不同地段以一定的地质内容为参量对比它们分维大小的差异,以此求得结构地段的位置及范围,从而确定地质异常;也可以对不同时期可恢复的历史地质结构格局分别求分维,还可以确定分维背景值.分形是自然界中普遍存在的一种规律性.

总之,分形理论已经渗透到地学领域的各个角落,应用范围涉及地球物理学、地球化学、石油地质学、构造地质学及灾害地质学等.

概率论与数理统计 这本书需要高数基础么

概率论与数理统计是数学的一个有特色且又十分活跃的分支,一方面,它有别开生面的研究课题,有自己独特的概念和方法,内容丰富,结果深刻;另一方面,它与其他学科又有紧密的联系,是近代数学的重要组成部分。

由于它近年来突飞猛进的发展与应用的广泛性,目前已发展成为一门独立的一级学科。概率论与数理统计的理论与方法已广泛应用于工业、农业、军事和科学技术中,如预测和滤波应用于空间技术和自动控制,时间序列分析应用于石油勘测和经济管理。

概率论在20世纪再度迅速地发展起来,则是由于科学技术发展的迫切需要而产生的。1906年,俄国数学家马尔科夫提出了所谓“马尔科夫链”的数学模型。1934年,前苏联数学家辛钦又提出一种在时间中均匀进行着的平稳过程理论。

扩展资料

应用

1、产品的抽样验收,新研制的药品能否在临床中应用,均需要用到 设检验;

2、寻求最佳生产方案要进行实验设计和数据处理;

3、电子系统的设计, 火箭卫星的研制与发射都离不开可靠性估计;

4、处理通信问题, 需要研究信息论

5、探讨太阳黑子的变化规律时,时间序列分析方法非常有用;

6、研究化学反应的时变率,要以马尔可夫过程来描述。

百度百科-概率论与数理统计

概率论与数理统计不需要高数基础,但是有高数基础的话,学起来会轻松一点。

概率论与数理统计是数学的一个有特色且又十分活跃的分支,一方面,它有别开生面的研究课题,有自己独特的概念和方法,内容丰富,结果深刻;另一方面,它与其他学科又有紧密的联系,是近代数学的重要组成部分。

概率论与数理统计的理论与方法已广泛应用于工业、农业、军事和科学技术中,如预测和滤波应用于空间技术和自动控制,时间序列分析应用于石油勘测和经济管理,同时又向基础学科、工科学科渗透,与其他学科相结合发展成为边缘学科,这是概率论与数理统计发展的一个新趋势。

题型总结

目前,大部分同学开始了概率论和数理统计的复习,本文主要想对同学们近期的复习做一个简单的指导。概率论与数理统计初步主要考查考生对研究随机现象规律性的基本概念、基本理论和基本方法的理解,以及运用概率统计方法分析和解决实际问题的能力。