StringNormalizer¶
StringNormalizer - 10¶
版本¶
網域:
main
since_version:
10
function:
False
support_level:
SupportType.COMMON
形狀推斷:
True
此版本的運算符自版本 10 起可用。
摘要¶
StringNormalization 執行字串操作以進行基本清理。此運算符只有一個輸入 (以 X 表示) 和一個輸出 (以 Y 表示)。此運算符首先檢查 X 中的元素,並移除 "stopwords" 屬性中指定的元素。移除停用詞後,中間結果可以根據 "case_change_action" 屬性進一步轉換為小寫、大寫或直接傳回。此運算符僅接受 [C]- 和 [1, C]-張量。如果 X 中的所有元素都被捨棄,則如果輸入形狀為 [C],輸出將為形狀為 [1] 的空字串張量值;如果輸入形狀為 [1, C],則輸出形狀為 [1, 1]。
屬性¶
case_change_action - STRING (預設為
'NONE'
)字串列舉,將輸出轉換為小寫/大寫/不變。有效值為 "LOWER"、"UPPER"、"NONE"。預設值為 "NONE"
is_case_sensitive - INT (預設為
'0'
)布林值。X 中停用詞的識別是否區分大小寫。預設值為 false
locale - STRING :
環境相關字串,表示需要根據哪個地區設定將輸出字串轉換為大寫/小寫。預設值為 en_US 或實作決定的平台特定等效項。
stopwords - STRINGS :
停用詞清單。如果未設定,則不會從 X 中移除任何單字。
輸入¶
X (異質) - tensor(string)
要正規化的 UTF-8 字串
輸出¶
Y (異質) - tensor(string)
UTF-8 正規化字串