StringNormalizer¶

StringNormalizer - 10¶

版本¶

名稱: StringNormalizer (GitHub)
網域: main
since_version: 10
function: False
support_level: SupportType.COMMON
形狀推斷: True

此版本的運算符自版本 10 起可用。

摘要¶

StringNormalization 執行字串操作以進行基本清理。此運算符只有一個輸入 (以 X 表示) 和一個輸出 (以 Y 表示)。此運算符首先檢查 X 中的元素，並移除 "stopwords" 屬性中指定的元素。移除停用詞後，中間結果可以根據 "case_change_action" 屬性進一步轉換為小寫、大寫或直接傳回。此運算符僅接受 [C]- 和 [1, C]-張量。如果 X 中的所有元素都被捨棄，則如果輸入形狀為 [C]，輸出將為形狀為 [1] 的空字串張量值；如果輸入形狀為 [1, C]，則輸出形狀為 [1, 1]。

屬性¶

case_change_action - STRING (預設為 'NONE')

字串列舉，將輸出轉換為小寫/大寫/不變。有效值為 "LOWER"、"UPPER"、"NONE"。預設值為 "NONE"
is_case_sensitive - INT (預設為 '0')

布林值。X 中停用詞的識別是否區分大小寫。預設值為 false
locale - STRING :

環境相關字串，表示需要根據哪個地區設定將輸出字串轉換為大寫/小寫。預設值為 en_US 或實作決定的平台特定等效項。
stopwords - STRINGS :

停用詞清單。如果未設定，則不會從 X 中移除任何單字。

輸入¶

X (異質) - tensor(string)

要正規化的 UTF-8 字串

輸出¶

Y (異質) - tensor(string)

UTF-8 正規化字串