解密推理部署工程師的必備技能，面試題庫分析

推理部署工程師面試題庫

1. 描述一下SM的結構？

英偉達 GPU 架構：

* 計算核心：INT32、FP32、FP64 CUDA 核心，Tensor 核心，超低延遲負載/存儲。

* 調度和存儲器：Warp 調度器注冊文件，共享存儲器，L1 緩存。

2. 共享內存和寄存器分別應該存放哪些數據。

局部變量、臨時變量，場景：高頻訪問、空間較小。

3. bank沖突是什麽？描述具體結構，如何解決？

爲了並行處理，NVIDIA GPU的共享內存被劃分爲多個“bank”來支持並發訪問。然而，當多個線程同時訪問同一個bank內的不同地址時，可能會導致bank沖突，從而降低內存訪問的性能。

數據對齊：確保共享內存中的數據元素（例如數組或結構體）是按照bank大小對齊的。這樣，多個線程可以同時訪問不同的banks，而不會産生沖突。

線程束（warp）的對齊訪問：盡可能地組織線程，使得在同一個warp內的線程訪問的數據都來自不同的banks。例如，如果一個warp有32個線程，並且每個線程訪問不同的bank，那麽整個warp的訪問將是無沖突的。

數據填充：Padding方式避免bank沖突。

分支沖突優化處理：

當 Warp 內存在分支沖突時，符合條件的部分將繼續執行，無需等待其余部分。該機制可有效提升程序性能。

當一個warp中的線程在執行一個條件分支時，如果不是所有的線程都滿足相同的條件（例如，部分線程滿足if條件，而其他線程滿足else條件），這將導致warp內的線程分裂成多個執行路徑，從而增加了計算的開銷。

當warp中的線程分裂到不同的執行路徑時，它們不能再同時執行相同的指令，因爲它們需要執行不同的指令集。這導致了一種情況，其中部分線程在某個時刻被激活，而其他線程則被暫停。在warp內部，所有的線程都是硬件級別上同步的。當一個warp中的線程分裂到不同的執行路徑時，這個warp內的所有線程都需要等待，直到所有的分支條件都被滿足。具體來說：

多線程中，部分滿足 if 條件、其余滿足 else 條件的線程將分裂 Warp，形成兩個獨立的 Warp，提升並行處理效率。每個新的warp都會獨立地執行其指定的指令路徑，不需要等待其他warp。

5. 項目中用過TensorCore嗎？了解TensorCore的原理嗎？

揭秘 Tensor Core 的強大之處！

在 AI 領域，Tensor Core 以其壓倒性的計算能力，加速了數據處理和模型訓練。探索其技術，了解其如何將您的 AI 工作流程提升到新的高度。

6. 爲什麽用float4向量來存取數據？有什麽好處？

向量化優勢：

使用 float4 向量，您可在 GPU 和並行處理器上提升性能：

* 數據對齊優化：自動對齊至 4 字節邊界，加速數據訪問。

* 內存事務優化：減少內存訪問開銷，處理多個數據元素。

* 帶寬利用率提升：通過減少交易數量和增加數據量，有效利用內存帶寬。

7. 了解cuda流和cuda graph嗎？

CUDA流：優化GPU並行計算

CUDA流是管理和調度GPU操作的強大工具。通過組織操作進入不同流，可以同時執行多個流，提高GPU利用率。它提供了一種靈活的方法來優化並行計算，充分利用GPU資源。

CUDA 圖：提升 GPU 性能

CUDA 圖是一種先進技術，通過預先定義和優化 GPU 操作順序，提升並行性並增加性能。它減少了操作間的依賴關系，允許開發人員可視化 GPU 操作，實現更高級的優化和調度。

8. 在Nsight Computing中，經常關注的與內存相關的指標?

內存帶寬（Memory Bandwidth）：內存帶寬指標告訴你GPU的內存子系統每秒可以傳輸的數據量。高帶寬通常表示內存子系統的性能良好。

L1、L2和L3緩存命中率（Cache Hit Rate）：這些指標告訴你在訪問緩存時命中的次數與嘗試訪問緩存的總次數之間的比例。高的緩存命中率通常表示算法和數據訪問模式對緩存友好。

內存利用率（Memory Utilization）：內存利用率指標告訴你GPU內存的使用情況。了解內存的使用情況可以幫助你識別內存使用過多或過少的問題。

內存延遲（Memory Latency）：內存延遲指標告訴你從發出內存請求到收到響應所需的時間。理解內存延遲可以幫助你優化數據訪問和計算模式，從而減少延遲並提高性能。

9.cutlass中如何對GEMM進行優化的嗎？

深入了解 CUTLASS：功能強大且高效的 NVIDIA GPU 庫，專爲深度學習而設計。探索其在加快訓練和推理方面的應用，

探索Transformer的神秘世界：

* 揭示基礎技術，了解其內部運作原理。

* 認識Faster Transformer，提升效率。

* 掌握CUDA優化技巧，釋放最大潛力。

11. Paged Attention有了解嗎？

基于 FlashAttention 的 PagedAttention 革新了 Attention 性能，將其提升了 2.5 倍，有效減輕了訓練大型 Transformer 模型的計算負擔。

zhuanlan.zhihu.com/p/638468472

12. TensorFlow和Pytorch設計思路有何不同？

13. Nsight Compute和Nsight System使用場景和區別？

NVIDIA Nsight Compute

Nsight Compute 專注于爲 CUDA 應用提供深入性能分析，精准識別核函數的特性和性能瓶頸。Nsight Compute 深入分析內核性能，提供：

- 指令級統計

- 內存訪問模式

- 優化計算吞吐量

NVIDIA Nsight Systems

Nsight Systems 提供全景性能洞察，涵蓋應用執行流程、資源使用和性能特征，助您輕松掌握整體應用運行狀況。Nsight Systems 全面分析 GPU、CPU、內存和系統性能，提供系統級洞察，幫助您快速識別和解決瓶頸，優化系統級性能。使用場景：Nsight Compute 適用針對核函數性能優化和調試的需求。Nsight Systems 適用需要全面系統性能分析和優化的應用場景。

導出 FP32 的 TRT Engine 無精度損失，FP16 損失明顯。原因可能包括：

* 量化精度不足（FP16 範圍較窄）

* 模型複雜度過高，FP16 難以有效表示

* 數值不穩定或梯度消失（FP16 運算範圍更小）

量化精度下降可能是以下因素造成的：

* 量化敏感層導致漂移。

* 權重分布分散，導致量化範圍不當，使許多權重歸零。

* 未針對具體操作選擇量化比例（scale），如minmax、entropy、percentile。

量化後推理結果錯誤的潛在原因：

* 量化參數選擇不當，導致權重或激活值範圍過窄或過寬。

* 模型結構不適合量化，如密集連接層過多。

* 量化方法不合適，如使用非對稱量化或權重共享。

可能原因有：

a. calibrator的算法選擇不對；b. calibration過程使用的數據不夠；c. 對網絡敏感層進行了量化；d. 對某些算子選擇了不適合OP特性的scale計算。

使用TensorRT PTQ量化時，不同批次校正後的模型精度不一致是正常現象。這是因爲量化校正過程依賴于輸入數據的分布，不同的批次可能存在差異，導致精度略有不同。

校准過程以張量爲單位計算。若最大值需要更新，PTQ 將擴大張量範圍。爲獲得最佳精度，建議在不導致內存不足的前提下使用更大的批次大小，因其包含更多樣本。

確定最佳批次大小需通過實驗，從較大批次開始並逐步減小。需要注意，批次越大，校准時間越長。

17.模型量化到INT8後，推理時間反而比FP16慢，這正常嗎？

TensorRT中的INT8推理速度受限

優化策略的冗余導致量化反而降低效率，促使TensorRT使用CUDA內核。當網絡參數或架構不合理時，TensorRT會增加處理步驟，導致INT8推理時間超過FP16。通過Trt-Engine Explorer工具可視化模型，可以發現額外的處理步驟。

-對此，您有什麽看法見解？-

-歡迎在評論區留言探討和分享。-

娛樂新聞吧

解密推理部署工程師的必備技能，面試題庫分析

華爲達芬奇與英偉達CUDA架構對比分析

領先Intel 旗艦60%, AMD銳龍9000系桌面CPU徹底殺瘋了

薪科技快評