數據科學家應該了解的5個Python庫

如果你是一位初級或中級的機器學習工程師或數據科學家，這篇文章非常適合你。在選定了你偏愛的機器學習庫，如PyTorch或TensorFlow，並掌握了模型架構之後，便可以訓練模型解決現實問題。

在本篇博文中，我會介紹我認爲每位機器學習工程師和數據科學家都應該熟悉的五個Python庫，它將成爲你所掌握的技能集的寶貴補充。通過簡化機器學習開發過程，使你成爲更具競爭力的候選人。

1. MLFlow — 實驗和模型追蹤

圖片來源：作者，示例來自 https://mlflow.org

想象一下如果你是一位機器學習開發人員，正在構建一個預測客戶流失模型的項目。需要使用Jupyter筆記本探索數據，嘗試不同的算法和超參數。隨著項目的進展，Jupyter筆記本變得越來越複雜，充滿了代碼、結果和可視化。使得追蹤項目進展、識別什麽內容有效內容什麽無效變得愈發困難。

此時，MLflow便大顯身手了。MLflow是一個平台，自始至終助力管理機器學習實驗，確保可追溯性和可複制性。它提供了一個集中的存儲庫，用于存儲代碼、數據和模型組件，以及一個溯源系統，記錄包括超參數、指標和輸出在內的全部實驗內容。

MLflow幫助你避免Jupyter筆記本使用陷阱的具體路徑：

集中存儲庫：MLflow使你的代碼、數據和模型工件組織有序且易于訪問，可以快速找到所需的資源，避免迷失在筆記本的迷宮中。實驗追蹤：MLflow記錄每一個實驗，包括使用的確切代碼、數據和超參數。這使你能夠輕松比較不同的實驗，並識別導致最佳結果的因素。可複制性：MLflow使得用相同的代碼、數據和環境複制最佳模型成爲可能。這對于確保實驗結果的一致性和可靠性至關重要。

所以，如果想構建有效的機器學習模型，抛棄Jupyter筆記本的混亂，擁抱強大的MLflow是個不錯的選擇。

2. Streamlit — 小而快的Web應用程序

Streamlit是數據科學家最受歡迎的前端框架。它是一個開源的Python框架，允許用戶快速輕松地創建交互式數據應用程序，對于那些沒有Web開發基礎知識的數據科學家和機器學習工程師來說特別有益。

使用Streamlit。開發者可以構建和分享引人入勝的用戶界面，並在不需要深入了解前端經驗或知識的情況下部署模型。該框架是免費的，並且是開源的，使得在幾分鍾內創建可共享的Web應用程序成爲可能。

如果有一些涉及機器學習的小項目，使用Streamlit添加用戶界面，有許多現成的模板，無須花費很長時間，在幾分鍾內便能完成前端。分享它也非常容易，它一定成爲你簡曆中的亮點。

3.FastAPI — 輕松快速部署模型

圖片來源：作者

訓練並驗證好模型之後，需要進行部署，以便其他應用程序可以使用，這便是FastAPI的用處所在。

FastAPI是一個用于構建RESTful API的高性能Web框架，以其簡單性、易用性和速度而聞名。這也是爲什麽它能夠成爲將機器學習模型部署到生産環境的理想選擇。

以下是ML工程師和數據科學家應該學習FastAPI的一些原因：

速度：FastAPI非常快。它使用現代異步編程模型，能夠同時高效處理多個請求，這對于部署需要處理大量數據的機器學習模型至關重要。簡單性：FastAPI易于學習和使用。它語法清晰簡潔，更容易編寫幹淨且易于維護的代碼，這對于沒有豐富經驗Web開發人員的ML工程師和數據科學家來說非常重要。易用性：FastAPI提供了很多功能，使得構建和部署API變得容易。例如，它內置了自動歸檔、數據驗證和錯誤處理的支持，使ML工程師能夠專注于他們的核心工作——構建和部署模型，節省了時間和精力。生産就緒：FastAPI專爲生産而設計，支持多後端、加密和部署工具等功能，它成爲部署機器學習模型的可靠選擇。

總之，FastAPI是一個功能強大且多才多藝的工具，可用于將機器學習模型部署到生産環境。它的易用性、速度和生産就緒性使其成爲ML工程師和數據科學家的理想選擇。

4.XGBoost — 既快又好地預測表格數據

圖片來源：作者，來源1和來源2

XGBoost是一種功能強大的機器學習算法，以其准確性、速度和可擴展性而聞名。它基于梯度提升框架，將多個弱學習器組合成一個強學習器。簡單來說，使用多個小模型，如隨機森林，將它們組合成一個大模型，最終得到一個更快的模型（與神經網絡相比），但同時它是可擴展的，並且不容易過擬合。

以下是ML工程師和數據科學家應該學習XGBoost的一些原因：

准確性：XGBoost是最准確的機器學習算法之一，它已贏得許多機器學習競賽，並且在各種任務中始終名列前茅。速度：XGBoost非常快，能夠快速高效地在大型數據集上進行訓練和預測。這使得它成爲以速度首要的應用程序（如實時欺詐檢測或金融建模）的良好選擇。可擴展性：XGBoost具有高度的可擴展性。它可以處理大型數據集和複雜模型，而不犧牲准確性。這使得它成爲數據量大或模型複雜性高的應用程序的最佳選擇。

如果任務涉及表格數據（如根據房間數量預測房價，或根據最後一次購買/賬戶數據計算客戶購買産品的可能性），XGBoost是你在求助于Keras或PyTorch的神經網絡之前應該首先嘗試的算法。

5. ELI5 — 使模型更易于解釋和透明

圖片來源：作者，來源1，來源2

訓練好模型之後，便可以部署使用它，此時模型更像是一個“黑箱”——輸入內容，得到輸出。模型究竟是如何工作的？沒人知道。這兒是數字，那兒也是數字，最後得出了一個答案。

如果客戶/老板問你，模型是如何得出某個特定答案的？你根本無法知道，你甚至不可能知道，在訓練過程中哪些參數最重要，哪些只是增加了噪聲？

所有這些問題都可以使用ELI5來回答。這個庫將使模型變得透明、可解釋和更容易理解。能得到模型、數據、訓練過程、權重分布和輸入參數等更多信息。除此之外，可以“調試”模型，並獲得更多關于什麽架構會更好工作，以及當前模型存在什麽問題的見解。

ELI5支持像Scikit-Learn、Keras、XGBoost等許多庫。模型可以實現圖像、文本和表格數據的分類。

結論

我們探索了五個領先的數據科學框架，如果你掌握了這些庫，你將獲得多重優勢：

與其他數據科學家相比，你將有更多的機會獲得工作，因爲你在機器學習的各個方面都獲得了多項技能。你將能夠從事全棧項目，因爲你不僅可以開發模型，還可以使用FastAPI後端部署它，並讓用戶通過Streamlit前端與之交互。你不會迷失在“Jupyter筆記本地獄”中，因爲全部機器學習實驗都將通過MLFlow變得可追溯和可複制，並且所有模型都將被正確版本化。對于你來說，表格數據不是問題，因爲你知道如何使用XGBoost訓練可擴展、快速和准確的模型。大多數模型對你來說不再是“黑箱”，因爲你可以通過ELI5更深入地理解它們，調試它們的思維過程並解釋它們的預測。

所有這些庫都將使你的生活更輕松，爲你的彈藥庫添加許多有用且重要的技能。愉快編碼！

娛樂新聞吧

Rust給Linux帶來了什麽

微軟開源 MS-DOS「GitHub 熱點速覽」

算力第一龍頭, 底部橫盤5年, 主力+外資搶籌49億, 5月最強妖王誕生!

25.2K star! 功能強大的開源網絡"瑞士軍刀", 相當好用!

NET開源後, 有哪些大型企業或項目轉向.NET?

程序員咋不禿頭