python經驗分布函數經驗分布函數與分布函數

統計學入門級：常見概率分布+python繪制分布圖

如果隨機變量X的所有取值都可以逐個列舉出來，則稱X為離散型隨機變量。相應的概率分布有二項分布，泊松分布。

創新互聯公司專業為企業提供邗江網站建設、邗江做網站、邗江網站設計、邗江網站制作等企業網站建設、網頁設計與制作、邗江企業網站模板建站服務，十年邗江做網站經驗，不只是建網站，更提供有價值的思路和整體網絡服務。

如果隨機變量X的所有取值無法逐個列舉出來，而是取數軸上某一區間內的任一點，則稱X為連續型隨機變量。相應的概率分布有正態分布，均勻分布，指數分布，伽馬分布，偏態分布，卡方分布，beta分布等。(真多分布，好恐怖~~)

在離散型隨機變量X的一切可能值中，各可能值與其對應概率的乘積之和稱為該隨機變量X的期望值，記作E(X) 。比如有隨機變量，取值依次為：2，2，2，4，5。求其平均值：(2+2+2+4+5)/5 = 3。

期望值也就是該隨機變量總體的均值。推導過程如下：

= (2+2+2+4+5)/5

= 1/5 2 3 + 4/5 + 5/5

= 3/5 2 + 1/5 4 + 1/5 5

= 0.6 2 + 0.2 4 + 0.2 5

= 60% 2 + 20% 4 + 20%*5

= 1.2 + 0.8 + 1

= 3

倒數第三步可以解釋為值為2的數字出現的概率為60%，4的概率為20%，5的概率為20%。所以E(X) = 60% 2 + 20% 4 + 20%*5 = μ = 3。

0-1分布（兩點分布），它的隨機變量的取值為1或0。即離散型隨機變量X的概率分布為：P{X=0} = 1-p, P{X=1} = p，即：

則稱隨機變量X服從參數為p的0-1分布，記作X~B（1，p)。

在生活中有很多例子服從兩點分布，比如投資是否中標，新生嬰兒是男孩還是女孩，檢查產品是否合格等等。

大家非常熟悉的拋硬幣試驗對應的分布就是二項分布。拋硬幣試驗要么出現正面，要么就是反面，只包含這兩個結果。出現正面的次數是一個隨機變量，這種隨機變量所服從的概率分布通常稱為二項分布。

像拋硬幣這類試驗所具有的共同性質總結如下：（以拋硬幣為例）

通常稱具有上述特征的n次重復獨立試驗為n重伯努利試驗。簡稱伯努利試驗或伯努利試驗概型。特別地，當試驗次數為1時，二項分布服從0-1分布(兩點分布)。

舉個栗子：拋3次均勻的硬幣，求結果出現有2個正面的概率。

已知p = 0.5 (出現正面的概率) ，n = 3 ，k = 2

所以拋3次均勻的硬幣，求結果出現有2個正面的概率為3/8。

二項分布的期望值和方差分別為：

泊松分布是用來描述在一指定時間范圍內或在指定的面積或體積之內某一事件出現的次數的分布。生活中服從泊松分布的例子比如有每天房產中介接待的客戶數，某微博每月出現服務器癱瘓的次數等等。泊松分布的公式為：

其中 λ 為給定的時間間隔內事件的平均數，λ = np。e為一個數學常數，一個無限不循環小數，其值約為2.71828。

泊松分布的期望值和方差分別為：

使用Python繪制泊松分布的概率分布圖：

因為連續型隨機變量可以取某一區間或整個實數軸上的任意一個值，所以通常用一個函數f(x)來表示連續型隨機變量，而f(x)就稱為概率密度函數。

概率密度函數f(x)具有如下性質：

需要注意的是，f(x)不是一個概率，即f(x) ≠ P(X = x) 。在連續分布的情況下，隨機變量X在a與b之間的概率可以寫成：

正態分布（或高斯分布）是連續型隨機變量的最重要也是最常見的分布，比如學生的考試成績就呈現出正態分布的特征，大部分成績集中在某個范圍（比如60-80分），很小一部分往兩端傾斜（比如50分以下和90多分以上）。還有人的身高等等。

正態分布的定義：

如果隨機變量X的概率密度為( -∞x+∞)：

則稱X服從正態分布，記作X~N(μ,σ2)。其中-∞μ+∞，σ0， μ為隨機變量X的均值，σ為隨機變量X的標準差。正態分布的分布函數

正態分布的圖形特點：

使用Python繪制正態分布的概率分布圖：

正態分布有一個3σ準則，即數值分布在(μ-σ,μ+σ)中的概率為0.6827，分布在（μ-2σ,μ+2σ)中的概率為0.9545，分布在(μ-3σ,μ+3σ)中的概率為0.9973，也就是說大部分數值是分布在(μ-3σ,μ+3σ)區間內，超出這個范圍的可能性很小很小，僅占不到0.3%，屬于極個別的小概率事件，所以3σ準則可以用來檢測異常值。

當μ=0，σ=1時，有

此時的正態分布N(0,1) 稱為標準正態分布。因為μ，σ都是確定的取值，所以其對應的概率密度曲線是一條形態固定的曲線。

對標準正態分布，通常用φ(x)表示概率密度函數，用Φ(x)表示分布函數：

假設有一次物理考試特別難，滿分100分，全班只有大概20個人及格。與此同時語文考試很簡單，全班絕大部分都考了90分以上。小明的物理和語文分別考了60分和80分，他回家后告訴家長，這時家長能僅僅從兩科科目的分值直接判斷出這次小明的語文成績要比物理好很多嗎？如果不能，應該如何判斷呢？此時Z-score就派上用場了。 Z-Score的計算定義：

即將隨機變量X先減去總體樣本均值，再除以總體樣本標準差就得到標準分數啦。如果X低于平均值，則Z為負數，反之為正數。通過計算標準分數，可以將任何一個一般的正態分布轉化為標準正態分布。

小明家長從老師那得知物理的全班平均成績為40分，標準差為10，而語文的平均成績為92分，標準差為4。分別計算兩科成績的標準分數：

物理：標準分數 = (60-40)/10 = 2

語文：標準分數 = (85-95)/4 = -2.5

從計算結果來看，說明這次考試小明的物理成績在全部同學中算是考得很不錯的，而語文考得很差。

指數分布可能容易和前面的泊松分布混淆，泊松分布強調的是某段時間內隨機事件發生的次數的概率分布，而指數分布說的是隨機事件發生的時間間隔的概率分布。比如一班地鐵進站的間隔時間。如果隨機變量X的概率密度為：

則稱X服從指數分布，其中的參數λ0。對應的分布函數為：

均勻分布的期望值和方差分別為：

使用Python繪制指數分布的概率分布圖：

均勻分布有兩種，分為離散型均勻分布和連續型均勻分布。其中離散型均勻分布最常見的例子就是拋擲骰子啦。拋擲骰子出現的點數就是一個離散型隨機變量，點數可能有1，2，3，4，5，6。每個數出現的概率都是1/6。

設連續型隨機變量X具有概率密度函數：

則稱X服從區間(a,b)上的均勻分布。X在等長度的子區間內取值的概率相同。對應的分布函數為：

f(x)和F(x)的圖形分別如下圖所示：

均勻分布的期望值和方差分別為：

怎么用python表示出二維高斯分布函數，mu表示均值，sigma表示協方差矩陣，x表示數據點

clear?

close?all

%%%%%%%%%%%%%%%%%%%%%%%%%生成實驗數據集

rand('state',0)

sigma_matrix1=eye(2);

sigma_matrix2=50*eye(2);

u1=[0,0];

u2=[30,30];

m1=100;

m2=300;%樣本數

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%sm1數據集

Y1=multivrandn(u1,m1,sigma_matrix1);

Y2=multivrandn(u2,m2,sigma_matrix2);

scatter(Y1(:,1),Y1(:,2),'bo')

hold?on

scatter(Y2(:,1),Y2(:,2),'r*')

title('SM1數據集')

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%sm2數據集

u11=[0,0];

u22=[5,5];

u33=[10,10];

u44=[15,15];

m=600;

sigma_matrix3=2*eye(2);

Y11=multivrandn(u11,m,sigma_matrix3);

Y22=multivrandn(u22,m,sigma_matrix3);

Y33=multivrandn(u33,m,sigma_matrix3);

Y44=multivrandn(u44,m,sigma_matrix3);

figure(2)

scatter(Y11(:,1),Y11(:,2),'bo')

hold?on

scatter(Y22(:,1),Y22(:,2),'r*')

scatter(Y33(:,1),Y33(:,2),'go')

scatter(Y44(:,1),Y44(:,2),'c*')

title('SM2數據集')

end

function?Y?=?multivrandn(u,m,sigma_matrix)

%%生成指定均值和協方差矩陣的高斯數據

n=length(u);

c?=?chol(sigma_matrix);

X=randn(m,n);

Y=X*c+ones(m,1)*u;

end

使用Python構造經驗累積分布函數（ECDF）

對于一個樣本序列，經驗累積分布函數 (Empirical Cumulative Distribution Function)可被定義為

其中是一個指示函數，如果，指示函數取值為1，否則取值為0，因此能反映在樣本中小于的元素數量占比。

根據格利文科定理（Glivenko–Cantelli Theorem），如果一個樣本滿足獨立同分布(IID)，那么其經驗累積分布函數會趨近于真實的累積分布函數。

首先定義一個類，命名為ECDF：

我們采用均勻分布（Uniform）進行驗證，導入 uniform 包，然后進行兩輪抽樣，第一輪抽取10次，第二輪抽取1000次，比較輸出的結果。

輸出結果為：

而我們知道，在真實的0到1均勻分布中，時，，從模擬結果可以看出，樣本量越大，最終的經驗累積分布函數值也越接近于真實的累積分布函數值，因此格利文科定理得以證明。

分享題目：python經驗分布函數經驗分布函數與分布函數
URL標題：http://m.kartarina.com/article44/hgjphe.html

成都網站建設公司_創新互聯，為您提供做網站、網站設計、網站排名、軟件開發、ChatGPT、電子商務

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

python經驗分布函數 經驗分布函數與分布函數

統計學入門級：常見概率分布+python繪制分布圖

怎么用python表示出二維高斯分布函數，mu表示均值，sigma表示協方差矩陣，x表示數據點

使用Python構造經驗累積分布函數（ECDF）

python經驗分布函數經驗分布函數與分布函數