python函數向量化,python向量運算

優化Python編程的4個妙招

1. Pandas.apply() – 特征工程瑰寶

成都創新互聯是一家集網站建設,沙河企業網站建設,沙河品牌網站建設,網站定制,沙河網站建設報價,網絡營銷,網絡優化,沙河網站推廣為一體的創新建站企業，幫助傳統企業提升企業形象加強企業競爭力。可充分滿足這一群體相比中小企業更為豐富、高端、多元的互聯網需求。同時我們時刻保持專業、時尚、前沿，時刻以成就客戶成長自我，堅持不斷學習、思考、沉淀、凈化自己，讓我們為更多的企業打造出實用型網站。

Pandas 庫已經非常優化了，但是大部分人都沒有發揮它的最大作用。想想它一般會用于數據科學項目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征創造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函數。

在Pandas.apply()中，可以傳遞用戶定義功能并將其應用到Pandas Series的所有數據點中。這個函數是Pandas庫最好的擴展功能之一，它能根據所需條件分隔數據。之后便能將其有效應用到數據處理任務中。

2. Pandas.DataFrame.loc – Python數據操作絕妙技巧

所有和數據處理打交道的數據科學家(差不多所有人了!)都應該學會這個方法。

很多時候，數據科學家需要根據一些條件更新數據集中某列的某些值。Pandas.DataFrame.loc就是此類問題最優的解決方法。

3. Python函數向量化

另一種解決緩慢循環的方法就是將函數向量化。這意味著新建函數會應用于輸入列表，并返回結果數組。在Python中使用向量化能至少迭代兩次，從而加速計算。

事實上，這樣不僅能加速代碼運算，還能讓代碼更加簡潔清晰。

4. Python多重處理

多重處理能使系統同時支持一個以上的處理器。

此處將數據處理分成多個任務，讓它們各自獨立運行。處理龐大的數據集時，即使是apply函數也顯得有些遲緩。

關于優化Python編程的4個妙招，青藤小編就和您分享到這里了。如果您對python編程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關于python編程的技巧及素材等內容，可以點擊本站的其他文章進行學習。

對于Python 的科學計算有哪些提高運算速度的技

一：學會正確使用numpy scipy。 numpy scipy寫好的絕不自己寫，比如矩陣運算等操作，pylab的實現還算不錯。各種函數都有，盡量使用他們可以避免初學者大部分的速度不足問題。因為這些函數大部分都是預編譯好的。

根據我幾年前的測試，python的矩陣運算速度并不慢，(因為你運行的是動態鏈接庫里面的函數而不是腳本）比mathematica快，和matlab持平。

大部分新手不擅長看文檔啥都自己造輪子是不好的。當然老手把效率寫的比開源庫高也不算啥新聞，畢竟有對特定程序的優化

二：減少for的使用，多使用向量化函數，np.vectorlize可以把函數變成對數組逐元素的操作，比for效率高幾個華萊士。

三：對內存友好，操作大矩陣的時候減少會引起整矩陣對此copy的操作

四：系統最慢的大部分時候是io，包括上面說的內存操作和頻繁的讀入讀出以及debug輸出。避免他們，在需要實時處理的時候引入類似于gpu的pipeline管線機制或者使用靈活的多線程編程可以起到奇效。

五：matplotlib的繪圖效率并不高明，在使用交互繪圖（plt.ion）的時候減少不必要的刷新率。

「干貨」讓Python性能起飛的15個技巧，你知道幾個呢？

前言

Python 一直以來被大家所詬病的一點就是執行速度慢，但不可否認的是 Python 依然是我們學習和工作中的一大利器。本文總結了15個tips有助于提升 Python 執行速度、優化性能。

關于 Python 如何精確地測量程序的執行時間，這個問題看起來簡單其實很復雜，因為程序的執行時間受到很多因素的影響，例如操作系統、Python 版本以及相關硬件（CPU 性能、內存讀寫速度）等。在同一臺電腦上運行相同版本的語言時，上述因素就是確定的了，但是程序的睡眠時間依然是變化的，且電腦上正在運行的其他程序也會對實驗有干擾，因此嚴格來說這就是實驗不可重復。

我了解到的關于計時比較有代表性的兩個庫就是 time 和 timeit 。

其中， time 庫中有 time() 、 perf_counter() 以及 process_time() 三個函數可用來計時（以秒為單位），加后綴 _ns 表示以納秒計時（自 Python3.7 始）。在此之前還有 clock() 函數，但是在 Python3.3 之后被移除了。上述三者的區別如下：

與 time 庫相比， timeit 有兩個優點：

timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 參數說明：

本文所有的計時均采用 timeit 方法，且采用默認的執行次數一百萬次。

為什么要執行一百萬次呢？因為我們的測試程序很短，如果不執行這么多次的話，根本看不出差距。

Exp1：將字符串數組中的小寫字母轉為大寫字母。

測試數組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.5267724000000005s ，方法二耗時 0.41462569999999843s ，性能提升 21.29%

Exp2：求兩個 list 的交集。

測試數組：a = [1,2,3,4,5]，b = [2,4,6,8,10]。

方法一

方法二

方法一耗時 0.9507264000000006s ，方法二耗時 0.6148200999999993s ，性能提升 35.33%

關于 set() 的語法： | 、、 - 分別表示求并集、交集、差集。

我們可以通過多種方式對序列進行排序，但其實自己編寫排序算法的方法有些得不償失。因為內置的 sort() 或 sorted() 方法已經足夠優秀了，且利用參數 key 可以實現不同的功能，非常靈活。二者的區別是 sort() 方法僅被定義在 list 中，而 sorted() 是全局方法對所有的可迭代序列都有效。

Exp3：分別使用快排和 sort() 方法對同一列表排序。

測試數組：lists = [2,1,4,3,0]。

方法一

方法二

方法一耗時 2.4796975000000003s ，方法二耗時 0.05551999999999424s ，性能提升 97.76%

順帶一提， sorted() 方法耗時 0.1339823999987857s 。

可以看出， sort() 作為 list 專屬的排序方法還是很強的， sorted() 雖然比前者慢一點，但是勝在它“不挑食”，它對所有的可迭代序列都有效。

擴展：如何定義 sort() 或 sorted() 方法的 key

1.通過 lambda 定義

2.通過 operator 定義

operator 的 itemgetter() 適用于普通數組排序， attrgetter() 適用于對象數組排序

3.通過 cmp_to_key() 定義，最為靈活

Exp4：統計字符串中每個字符出現的次數。

測試數組：sentence='life is short, i choose python'。

方法一

方法二

方法一耗時 2.8105250000000055s ，方法二耗時 1.6317423000000062s ，性能提升 41.94%

列表推導（list comprehension）短小精悍。在小代碼片段中，可能沒有太大的區別。但是在大型開發中，它可以節省一些時間。

Exp5：對列表中的奇數求平方，偶數不變。

測試數組：oldlist = range(10)。

方法一

方法二

方法一耗時 1.5342976000000021s ，方法二耗時 1.4181957999999923s ，性能提升 7.57%

大多數人都習慣使用 + 來連接字符串。但其實，這種方法非常低效。因為， + 操作在每一步中都會創建一個新字符串并復制舊字符串。更好的方法是用 join() 來連接字符串。關于字符串的其他操作，也盡量使用內置函數，如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。

Exp6：將字符串列表中的元素連接起來。

測試數組：oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.27489080000000854s ，方法二耗時 0.08166570000000206s ，性能提升 70.29%

join 還有一個非常舒服的點，就是它可以指定連接的分隔符，舉個例子

life//is//short//i//choose//python

Exp6：交換x，y的值。

測試數據：x, y = 100, 200。

方法一

方法二

方法一耗時 0.027853900000010867s ，方法二耗時 0.02398730000000171s ，性能提升 13.88%

在不知道確切的循環次數時，常規方法是使用 while True 進行無限循環，在代碼塊中判斷是否滿足循環終止條件。雖然這樣做沒有任何問題，但 while 1 的執行速度比 while True 更快。因為它是一種數值轉換，可以更快地生成輸出。

Exp8：分別用 while 1 和 while True 循環 100 次。

方法一

方法二

方法一耗時 3.679268300000004s ，方法二耗時 3.607847499999991s ，性能提升 1.94%

將文件存儲在高速緩存中有助于快速恢復功能。Python 支持裝飾器緩存，該緩存在內存中維護特定類型的緩存，以實現最佳軟件驅動速度。我們使用 lru_cache 裝飾器來為斐波那契函數提供緩存功能，在使用 fibonacci 遞歸函數時，存在大量的重復計算，例如 fibonacci(1) 、 fibonacci(2) 就運行了很多次。而在使用了 lru_cache 后，所有的重復計算只會執行一次，從而大大提高程序的執行效率。

Exp9：求斐波那契數列。

測試數據：fibonacci(7)。

方法一

方法二

方法一耗時 3.955014900000009s ，方法二耗時 0.05077979999998661s ，性能提升 98.72%

注意事項：

我被執行了（執行了兩次 demo(1, 2) ，卻只輸出一次）

functools.lru_cache(maxsize=128, typed=False) 的兩個可選參數：

點運算符( . )用來訪問對象的屬性或方法，這會引起程序使用 __getattribute__() 和 __getattr__() 進行字典查找，從而帶來不必要的開銷。尤其注意，在循環當中，更要減少點運算符的使用，應該將它移到循環外處理。

這啟發我們應該盡量使用 from ... import ... 這種方式來導包，而不是在需要使用某方法時通過點運算符來獲取。其實不光是點運算符，其他很多不必要的運算我們都盡量移到循環外處理。

Exp10：將字符串數組中的小寫字母轉為大寫字母。

測試數組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.7235491999999795s ，方法二耗時 0.5475435999999831s ，性能提升 24.33%

當我們知道具體要循環多少次時，使用 for 循環比使用 while 循環更好。

Exp12：使用 for 和 while 分別循環 100 次。

方法一

方法二

方法一耗時 3.894683299999997s ，方法二耗時 1.0198077999999953s ，性能提升 73.82%

Numba 可以將 Python 函數編譯碼為機器碼執行，大大提高代碼執行速度，甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用，在 for 循環中或存在大量計算時能顯著地提高執行效率。

Exp12：求從 1 加到 100 的和。

方法一

方法二

方法一耗時 3.7199997000000167s ，方法二耗時 0.23769430000001535s ，性能提升 93.61%

矢量化是 NumPy 中的一種強大功能，可以將操作表達為在整個數組上而不是在各個元素上發生。這種用數組表達式替換顯式循環的做法通常稱為矢量化。

在 Python 中循環數組或任何數據結構時，會涉及很多開銷。NumPy 中的向量化操作將內部循環委托給高度優化的 C 和 Fortran 函數，從而使 Python 代碼更加快速。

Exp13：兩個長度相同的序列逐元素相乘。

測試數組：a = [1,2,3,4,5], b = [2,4,6,8,10]

方法一

方法二

方法一耗時 0.6706845000000214s ，方法二耗時 0.3070132000000001s ，性能提升 54.22%

若要檢查列表中是否包含某成員，通常使用 in 關鍵字更快。

Exp14：檢查列表中是否包含某成員。

測試數組：lists = ['life', 'is', 'short', 'i', 'choose', 'python']

方法一

方法二

方法一耗時 0.16038449999999216s ，方法二耗時 0.04139250000000061s ，性能提升 74.19%

itertools 是用來操作迭代器的一個模塊，其函數主要可以分為三類：無限迭代器、有限迭代器、組合迭代器。

Exp15：返回列表的全排列。

測試數組：["Alice", "Bob", "Carol"]

方法一

方法二

方法一耗時 3.867292899999484s ，方法二耗時 0.3875405000007959s ，性能提升 89.98%

根據上面的測試數據，我繪制了下面這張實驗結果圖，可以更加直觀的看出不同方法帶來的性能差異。

從圖中可以看出，大部分的技巧所帶來的性能增幅還是比較可觀的，但也有少部分技巧的增幅較?。ɡ缇幪?、7、8，其中，第 8 條的兩種方法幾乎沒有差異）。

總結下來，我覺得其實就是下面這兩條原則：

內置庫函數由專業的開發人員編寫并經過了多次測試，很多庫函數的底層是用 C 語言開發的。因此，這些函數總體來說是非常高效的（比如 sort() 、 join() 等），自己編寫的方法很難超越它們，還不如省省功夫，不要重復造輪子了，何況你造的輪子可能更差。所以，如果函數庫中已經存在該函數，就直接拿來用。

有很多優秀的第三方庫，它們的底層可能是用 C 和 Fortran 來實現的，像這樣的庫用起來絕對不會吃虧，比如前文提到的 Numpy 和 Numba，它們帶來的提升都是非常驚人的。類似這樣的庫還有很多，比如Cython、PyPy等，這里我只是拋磚引玉。

原文鏈接：

當前題目：python函數向量化,python向量運算
網頁鏈接：http://m.kartarina.com/article26/hsdgcg.html

成都網站建設公司_創新互聯，為您提供網站制作、Google、搜索引擎優化、網站營銷、營銷型網站建設、面包屑導航