箱圖在數據預處理中的應用

箱圖簡介

箱型圖是一種用作顯示一組數據分布情況的統計圖,因型狀如箱子而得名。
1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值、最小值、中位數及上下四分位數。

成都創新互聯公司從2013年開始,是專業互聯網技術服務公司,擁有項目網站建設、成都網站制作網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元巫山做網站,已為上家服務,為巫山各地企業和個人服務,聯系電話:028-86922220


其中,中位數(50%)上四分位數(75%)下四分位數(25%)都很好理解。
上邊緣下邊緣的概念是不確定的,一般有以下幾種情況(不限于以下幾種情況):

  1. 所有數據中的最大值和最小值
  2. 在[Q1-1.5IQR, Q3+1.5IQR]范圍里的極小值和極大值 (通常被稱為Tukey Boxplot)
  3. 在平均數的基礎上上下浮動一個標準差
  4. 第9百分位數,第91百分位數
  5. 第2百分位數,第98百分位數
  6. 等等。。。

至于異常值,也就是比上邊緣大,比下邊緣小的值,如果上下邊緣是左右數據中的最大值和最小值,那么就不會有異常值。

數據預處理中的箱圖

箱圖最大的優勢是以一種簡單的方式顯示了數據的分布情況。
而我們在數據預處理之前,整體上了解數據各個特征的分布情況是非常有必要的,通過箱圖,了解數據的質量。
比如:

  1. 偏離中間值的情況,看中位數的位置
  2. Q1和Q3之間數據的量,看箱體的長短
  3. 異常值多不多,偏離大不大,通過調整上下邊緣來查看

了解數據各個特征(也就是每列)的質量和分布情況,有助于后續決策如何清洗數據,如何選擇合適的算法來分析不同的特征。

示例

最后,通過一個簡單的實例來演示如何通過箱圖來檢驗數據的情況的。
數據來源:國家統計局歷年糧食產量的統計數據。
?

數據比較多,這里為了演示,只取了3列來作圖。

中稻和一季晚稻單位面積產量(公斤/公頃)
亞麻單位面積產量(公斤/公頃)
其他谷物單位面積產量(公斤/公頃)
冬小麥單位面積產量(公斤/公頃)
雙季晚稻單位面積產量(公斤/公頃)
夏收糧食單位面積產量(公斤/公頃)
大豆單位面積產量(公斤/公頃)
大麥單位面積產量(公斤/公頃)
大麻單位面積產量(公斤/公頃)
小麥單位面積產量(公斤/公頃)
早稻單位面積產量(公斤/公頃)
春小麥單位面積產量(公斤/公頃)
棉花單位面積產量(公斤/公頃)
油料單位面積產量(公斤/公頃)
油菜籽單位面積產量(公斤/公頃)
煙葉單位面積產量(公斤/公頃)
烤煙單位面積產量(公斤/公頃)
玉米單位面積產量(公斤/公頃)
甘蔗單位面積產量(公斤/公頃)
甜菜單位面積產量(公斤/公頃)
秋糧單位面積產量(公斤/公頃)
稻谷單位面積產量(公斤/公頃)
糧食單位面積產量(公斤/公頃)
糖料單位面積產量(公斤/公頃)
紅小豆單位面積產量(公斤/公頃)
綠豆單位面積產量(公斤/公頃)
胡麻籽單位面積產量(公斤/公頃)
芝麻單位面積產量(公斤/公頃)
花生單位面積產量(公斤/公頃)
苧麻單位面積產量(公斤/公頃)
葵花籽單位面積產量(公斤/公頃)
蔬菜單位面積產量(公斤/公頃)
薯類單位面積產量(公斤/公頃)
谷子單位面積產量(公斤/公頃)
谷物單位面積產量(公斤/公頃)
豆類單位面積產量(公斤/公頃)
馬鈴薯單位面積產量(公斤/公頃)
高粱單位面積產量(公斤/公頃)
麻類單位面積產量(公斤/公頃)
黃紅麻單位面積產量(公斤/公頃)

前3列數據如下:

print(data)


?

根據3個特征箱圖如下:

box1, box2, box3 = data["中稻和一季晚稻單位面積產量(公斤/公頃)"], data["亞麻單位面積產量(公斤/公頃)"], data["其他谷物單位面積產量(公斤/公頃)"]

plt.title("sample for 箱圖")
labels = ["中稻和一季晚稻", "亞麻", "其他谷物"]

plt.boxplot([box1, box2, box3], labels=labels)
plt.show()

從圖中可以看出,其他谷物的數據分布比較平均,而中稻和一季晚稻的數據偏重于上半部,亞麻的數據沒有明顯的偏重。
此外,只有一個異常值(中稻和一季晚稻的零值數據)。
?

箱圖的默認上下邊緣數據是 Q3 + whis(Q3-Q1) 和 Q1 - whis(Q3-Q1),其中 whis = 1.5
我們可以通過調整 whis 的大小來調整上下邊緣的值,比如:

plt.boxplot([box1, box2, box3], labels=labels, whis=0.5)

這里 whis 設置為0.5,縮小了上下邊緣的間距,異常值就增多了。

總結

通過箱圖,可以直觀看出整個數據中各個特征的分布情況。
在數據預處理之前,用來了解收集數據的概況大有幫助。

網頁題目:箱圖在數據預處理中的應用
分享網址:http://m.kartarina.com/article2/dsojoic.html

成都網站建設公司_創新互聯,為您提供虛擬主機小程序開發網站維護做網站定制開發網頁設計公司

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

小程序開發
主站蜘蛛池模板: 亚洲成AV人片在线观看无码 | 亚洲av永久无码精品三区在线4| 国产av永久精品无码| 无码熟妇αⅴ人妻又粗又大 | 永久免费AV无码网站在线观看| 亚洲人成无码www久久久| 水蜜桃av无码一区二区| 免费a级毛片无码av| 久久亚洲AV成人无码| 手机在线观看?v无码片| 亚洲国产超清无码专区| 久久综合一区二区无码| 无码少妇A片一区二区三区| 亚洲精品午夜无码电影网| 丰满亚洲大尺度无码无码专线| 国产av永久无码天堂影院| 天码av无码一区二区三区四区| 少妇无码一区二区三区| 野花在线无码视频在线播放| 亚洲a无码综合a国产av中文 | 亚洲中文字幕无码一区| 日韩放荡少妇无码视频| 性无码免费一区二区三区在线| 日韩精品无码一区二区三区四区 | 亚洲AV无码久久精品蜜桃| 免费人妻无码不卡中文字幕18禁 | 色综合久久久无码中文字幕| 无码av免费一区二区三区| 国产成人A人亚洲精品无码| 国产在线无码精品无码| 少妇无码?V无码专区在线观看| 成人免费无码大片A毛片抽搐| 99国产精品无码| 亚洲av永久无码一区二区三区 | 超清无码无卡中文字幕| 亚洲一区二区三区无码影院| 最新亚洲人成无码网www电影| 午夜寂寞视频无码专区| 无码人妻aⅴ一区二区三区有奶水| 无码办公室丝袜OL中文字幕| 国产av无码专区亚洲av毛片搜|