狠狠躁狠狠躁东京热无码专区,亚洲AV永久无码天堂影院 ,熟妇人妻AV无码一区二区三区

本文分享自華為云社區《在昇騰平臺上對TensorFlow網絡進行性能調優-云社區-華為云》，作者：昇騰CANN 。

用戶將TensorFlow訓練網絡遷移到昇騰平臺后，如果存在性能不達標的問題，就需要進行調優。本文就帶大家了解在昇騰平臺上對TensorFlow訓練網絡進行性能調優的常用手段。

首先了解下性能調優的全流程：

當TensorFlow訓練網絡性能不達標時，首先可嘗試昇騰平臺提供的“三板斧”操作，即上圖中的“基本提升手段”：使能自動混合精度 > 進行親和接口的替換 > 使能訓練迭代循環下沉 > 使用AOE工具進行調優。

基本調優操作完成后，需要再次執行模型訓練并評估性能，如果性能達標了，調優即可結束；如果未達標，需要使用Profling工具采集詳細的性能數據進一步分析，從而找到性能瓶頸點，并進一步針對性的解決，這部分調優操作需要用戶有一定的經驗，難度相對較大，我們將這部分調優操作稱為進階調優。

本文主要帶大家詳細了解基本調優操作，即上圖中的灰色底紋部分。

使能自動混合精度

混合精度是業內通用的性能提升方式，通過降低部分計算精度提升數據計算的并行度?；旌嫌嬎阌柧毞椒ㄍㄟ^混合使用float16和float32數據類型來加速深度神經網絡的訓練過程，并減少內存使用和存取，從而可以提升訓練網絡性能，同時又能基本保證使用float32訓練所能達到的網絡精度。

Ascend平臺提供了“precision_mode”參數用于配置網絡的精度模式，用戶可以在訓練腳本的運行配置中添加此參數，并將取值配置為“allow_mix_precision”，從而使能自動混合精度，下面以手工遷移的訓練腳本為例，介紹配置方法。

Estimator模式下，在NPURunConfig中添加precision_mode參數設置精度模式：npu_config=NPURunConfig( model_dir=FLAGS.model_dir, save_checkpoints_steps=FLAGS.save_checkpoints_steps, session_config=tf.ConfigProto(allow_soft_placement=True,log_device_placement=False), precision_mode="allow_mix_precision" )

sess.run模式下，通過session配置項precision_mode設置精度模式：config = tf.ConfigProto(allow_soft_placement=True) custom_op = config.graph_options.rewrite_options.custom_optimizers.add() custom_op.name = "NpuOptimizer" custom_op.parameter_map["use_off_line"].b = True custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision") … with tf.Session(config=config) as sess: print(sess.run(cost))親和接口替換

針對TensorFlow訓練網絡中的dropout、gelu接口，Ascend平臺提供了硬件親和的替換接口，從而使網絡獲得更優性能。

對于訓練腳本中的nn.dropout，建議替換為Ascend對應的API實現，以獲得更優性能：layers = npu_ops.dropout()

若訓練腳本中存在layers.dropout、tf.layers.Dropout、tf.keras.layers.Dropout、tf.keras.layers.SpatialDropout1D、tf.keras.layers.SpatialDropout2D、tf.keras.layers.SpatialDropout3D接口，建議增加頭文件引用：from npu_bridge.estimator.npu import npu_convert_dropout

對于訓練腳本中的gelu接口，建議替換為Ascend提供的gelu接口，以獲得更優性能。

例如，TensorFlow原始代碼：

遷移后的代碼：

from npu_bridge.estimator.npu_unary_ops import npu_unary_opslayers = npu_unary_ops.gelu(x)訓練迭代循環下沉

訓練迭代循環下沉是指在Host調用一次，在Device執行多次迭代，從而減少Host與Device間的交互次數，縮短訓練時長。用戶可通過iterations_per_loop參數指定訓練迭代的次數，該參數取值大于1即可使能訓練迭代循環下沉的特性。

使用該特性時，要求訓練腳本使用TF Dataset方式讀數據，并開啟數據預處理下沉，即enable_data_pre_proc開關配置為True，例如sess.run配置示例如下：

custom_op.parameter_map["enable_data_pre_proc"].b = True

其他使用約束，用戶可參見昇騰文檔中心（昇騰社區-官網丨昇騰萬里讓智能無所不及）的《TensorFlow模型遷移和訓練指南》。

Estimator模式下，通過NPURunConfig中的iterations_per_loop參數配置訓練迭代循環下沉的示例如下：

session_config=tf.ConfigProto(allow_soft_placement=True)config = NPURunConfig(session_config=session_config, iterations_per_loop=10)AOE自動調優

昇騰平臺提供了AOE自動調優工具，可對網絡進行子圖調優、算子調優與梯度調優，生成最優調度策略，并將最優調度策略固化到知識庫。模型再次訓練時，無需開啟調優，即可享受知識庫帶來的收益。

建議按照如下順序使用AOE工具進行調優：

訓練場景下使能AOE調優有兩種方式：

通過設置環境變量啟動AOE調優。# 1：子圖調優 # 2：算子調優 # 4：梯度調優 export AOE_MODE=2

修改訓練腳本，通過“aoe_mode”參數指定調優模式，例如：

sess.run模式，訓練腳本修改方法如下：

custom_op.parameter_map["aoe_mode"].s = tf.compat.as_bytes("2")

estimator模式下，訓練腳本修改方法如下：

config = NPURunConfig( session_config=session_config, aoe_mode=2)

以上就是TensorFlow網絡在昇騰平臺上進行性能調優的常見手段。關于更多文檔介紹，可以在昇騰文檔中心查看，您也可在昇騰社區在線課程板塊（昇騰社區-官網丨昇騰萬里讓智能無所不及）學習視頻課程，學習過程中的任何疑問，都可以在昇騰論壇互動交流！

相關參考：

[1]昇騰文檔中心

[2]昇騰社區在線課程

[3]昇騰論壇

關注#華為云開發者聯盟#點擊下方，第一時間了解華為云新鮮技術~

華為云博客_大數據博客_AI博客_云計算博客_開發者中心-華為云

• 竇驍敷著面膜求婚__何超蓮轉頭一看大叫「這是什	• 聚焦“雙碳”目標_可能建言建深地工廠發展儲能
• 骨科醫生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業“315”大促_通過4種
• 你有多高？研究發現_一個人的身高_會影響他的收	• 強降溫即將到來_四川盆地這些城市未來72小時約
• 韓學者警告_韓國國內過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團圓滋味
• 查出疝氣沒當回事_六旬女子內臟“大挪移”	• 八旬老人倒地？_果斷扶_事發泉州市區街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環（焊接吊	吸塑托盤與注塑托盤生

VIP

推廣服務

在昇騰平臺上對TensorFlow網絡進行姓能