RoiAlign¶

RoiAlign - 22¶

此版本的運算符自版本 22 起提供。

Mask R-CNN 論文中描述的感興趣區域 (RoI) 對齊操作。RoiAlign 會使用輸入張量 X 和感興趣區域 (rois) 來跨每個 RoI 應用池化；它會產生一個形狀為 (num_rois, C, output_height, output_width) 的 4 維張量。

RoiAlign 的提出是為了避免在將原始影像轉換為特徵圖，以及從特徵圖轉換為 RoI 特徵時，因量化而產生的對齊誤差；在每個 ROI 分箱中，取樣位置的值會直接透過雙線性內插法計算。

coordinate_transformation_mode - 字串 (預設為 'half_pixel')

允許的值為「half_pixel」和「output_half_pixel」。使用值「half_pixel」將輸入座標像素位移 -0.5（建議的行為）。使用值「output_half_pixel」可省略輸入的像素位移（使用此值以實現向後相容的行為）。
mode - 字串 (預設為 'avg')

池化方法。支援兩種模式：「avg」和「max」。預設為「avg」。
output_height - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的高度。
output_width - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的寬度。
sampling_ratio - 整數 (預設為 '0')

用於計算每個池化輸出分箱的輸出值的內插網格中的取樣點數量。如果 > 0，則會使用 sampling_ratio x sampling_ratio 個網格點。如果 == 0，則會使用自適應數量的網格點（計算為 ceil(roi_width / output_width)，高度亦同）。預設為 0。
spatial_scale - 浮點數 (預設為 '1.0')

將 ROI 座標從其輸入空間比例轉換為池化時使用的比例的乘法空間比例因數，即輸入特徵圖 X 相對於輸入影像的空間比例。例如；預設為 1.0f。

X (異質) - T1

來自前一個運算符的輸入資料張量；形狀為 (N, C, H, W) 的 4 維特徵圖，其中 N 是批次大小，C 是通道數，而 H 和 W 是資料的高度和寬度。
rois (異質) - T1

要池化的 RoI (感興趣區域)；rois 是形狀為 (num_rois, 4) 的 2 維輸入，給定為 [[x1, y1, x2, y2], …]。RoI 的座標位於輸入影像的座標系統中。每個座標集都與「batch_indices」輸入有一對一的對應關係。
batch_indices (異質) - T2

形狀為 (num_rois,) 的 1 維張量，其中每個元素表示批次中對應影像的索引。

Y (異質) - T1

RoI 池化輸出，形狀為 (num_rois, C, output_height, output_width) 的 4 維張量。第 r 個批次元素 Y[r-1] 是對應於第 r 個 RoI X[r-1] 的池化特徵圖。

T1 屬於 (tensor(bfloat16)、tensor(double)、tensor(float)、tensor(float16))

將類型約束為浮點數張量。
T2 屬於 (tensor(int64))

將類型約束為整數張量。

此版本的運算符自版本 16 起提供。

coordinate_transformation_mode - 字串 (預設為 'half_pixel')

允許的值為「half_pixel」和「output_half_pixel」。使用值「half_pixel」將輸入座標像素位移 -0.5（建議的行為）。使用值「output_half_pixel」可省略輸入的像素位移（使用此值以實現向後相容的行為）。
mode - 字串 (預設為 'avg')

池化方法。支援兩種模式：「avg」和「max」。預設為「avg」。
output_height - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的高度。
output_width - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的寬度。
sampling_ratio - 整數 (預設為 '0')

用於計算每個池化輸出分箱的輸出值的內插網格中的取樣點數量。如果 > 0，則會使用 sampling_ratio x sampling_ratio 個網格點。如果 == 0，則會使用自適應數量的網格點（計算為 ceil(roi_width / output_width)，高度亦同）。預設為 0。
spatial_scale - 浮點數 (預設為 '1.0')

將 ROI 座標從其輸入空間比例轉換為池化時使用的比例的乘法空間比例因數，即輸入特徵圖 X 相對於輸入影像的空間比例。例如；預設為 1.0f。

X (異質) - T1

來自前一個運算符的輸入資料張量；形狀為 (N, C, H, W) 的 4 維特徵圖，其中 N 是批次大小，C 是通道數，而 H 和 W 是資料的高度和寬度。
rois (異質) - T1

要池化的 RoI (感興趣區域)；rois 是形狀為 (num_rois, 4) 的 2 維輸入，給定為 [[x1, y1, x2, y2], …]。RoI 的座標位於輸入影像的座標系統中。每個座標集都與「batch_indices」輸入有一對一的對應關係。
batch_indices (異質) - T2

形狀為 (num_rois,) 的 1 維張量，其中每個元素表示批次中對應影像的索引。

Y (異質) - T1

RoI 池化輸出，形狀為 (num_rois, C, output_height, output_width) 的 4 維張量。第 r 個批次元素 Y[r-1] 是對應於第 r 個 RoI X[r-1] 的池化特徵圖。

此版本的運算符自版本 10 起提供。

mode - 字串 (預設為 'avg')

池化方法。支援兩種模式：「avg」和「max」。預設為「avg」。
output_height - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的高度。
output_width - 整數 (預設為 '1')

預設為 1；池化輸出 Y 的寬度。
sampling_ratio - 整數 (預設為 '0')

用於計算每個池化輸出分箱的輸出值的內插網格中的取樣點數量。如果 > 0，則會使用 sampling_ratio x sampling_ratio 個網格點。如果 == 0，則會使用自適應數量的網格點（計算為 ceil(roi_width / output_width)，高度亦同）。預設為 0。
spatial_scale - 浮點數 (預設為 '1.0')

將 ROI 座標從其輸入空間比例轉換為池化時使用的比例的乘法空間比例因數，即輸入特徵圖 X 相對於輸入影像的空間比例。例如；預設為 1.0f。

X (異質) - T1

來自前一個運算符的輸入資料張量；形狀為 (N, C, H, W) 的 4 維特徵圖，其中 N 是批次大小，C 是通道數，而 H 和 W 是資料的高度和寬度。
rois (異質) - T1

要池化的 RoI (感興趣區域)；rois 是形狀為 (num_rois, 4) 的 2 維輸入，給定為 [[x1, y1, x2, y2], …]。RoI 的座標位於輸入影像的座標系統中。每個座標集都與「batch_indices」輸入有一對一的對應關係。
batch_indices (異質) - T2

形狀為 (num_rois,) 的 1 維張量，其中每個元素表示批次中對應影像的索引。

Y (異質) - T1

RoI 池化輸出，形狀為 (num_rois, C, output_height, output_width) 的 4 維張量。第 r 個批次元素 Y[r-1] 是對應於第 r 個 RoI X[r-1] 的池化特徵圖。