DynamicQuantizeLinear¶

DynamicQuantizeLinear - 11¶

版本¶

名稱: DynamicQuantizeLinear (GitHub)
網域: main
since_version: 11
function: True
support_level: SupportType.COMMON
形狀推斷: True

此版本的運算子自版本 11 開始可用。

摘要¶

一個融合 FP32 輸入資料的 Scale、Zero Point 和 FP32->8Bit 轉換計算的函式。輸出給定 FP32 輸入的 Scale、ZeroPoint 和量化輸入。Scale 的計算公式為

y_scale = (maximum(0, max(x)) - minimum(0, min(x))) / (qmax - qmin)

其中 qmax 和 qmin 是量化範圍的最大值和最小值，例如 uint8 的 [0, 255]
資料範圍會調整為包含 0。

Zero point 的計算公式為

intermediate_zero_point = qmin - min(x)/y_scale
y_zero_point = cast(round(saturate(itermediate_zero_point)))

其中 qmax 和 qmin 是量化範圍的最大值和最小值，例如 uint8 的 [0, 255]
對於飽和度，如果它是 uint8，則會飽和到 [0, 255]，如果是 int8，則會飽和到 [-127, 127]。目前只支援 uint8。
四捨五入到最接近的偶數。

資料量化公式為

y = saturate (round (x / y_scale) + y_zero_point)

對於飽和度，如果它是 uint8，則會飽和到 [0, 255]，如果是 int8，則會飽和到 [-127, 127]。目前只支援 uint8。
四捨五入到最接近的偶數。

函式主體¶

此運算子的函式定義。

<
  domain: "",
  opset_import: ["" : 11]
>
DynamicQuantizeLinear (x) => (y, y_scale, y_zero_point)
{
   Q_Min = Constant <value: tensor = float {0}> ()
   Q_Max = Constant <value: tensor = float {255}> ()
   X_Min = ReduceMin <keepdims: int = 0> (x)
   X_Min_Adjusted = Min (X_Min, Q_Min)
   X_Max = ReduceMax <keepdims: int = 0> (x)
   X_Max_Adjusted = Max (X_Max, Q_Min)
   X_Range = Sub (X_Max_Adjusted, X_Min_Adjusted)
   Scale = Div (X_Range, Q_Max)
   Min_Scaled = Div (X_Min_Adjusted, Scale)
   Initial_ZeroPoint_FP = Sub (Q_Min, Min_Scaled)
   Clipped_ZeroPoint_FP = Clip (Initial_ZeroPoint_FP, Q_Min, Q_Max)
   Rounded_ZeroPoint_FP = Round (Clipped_ZeroPoint_FP)
   Zeropoint = Cast <to: int = 2> (Rounded_ZeroPoint_FP)
   y_scale = Identity (Scale)
   y_zero_point = Identity (Zeropoint)
   y = QuantizeLinear (x, Scale, Zeropoint)
}

輸入¶

x (異質) - T1

輸入張量

輸出¶

y (異質) - T2

量化輸出張量
y_scale (異質) - tensor(float)

輸出縮放。它是一個純量，這表示每個張量/層的量化。
y_zero_point (異質) - T2

輸出零點。它是一個純量，這表示每個張量/層的量化。

類型約束¶

T1 in ( tensor(float) )

將 'x' 約束為浮點張量。
T2 in ( tensor(uint8) )

將 'y_zero_point' 和 'y' 約束為 8 位元無號整數張量。