StringNormalizer

StringNormalizer - 10

版本

  • 名稱: StringNormalizer (GitHub)

  • 網域: main

  • since_version: 10

  • function: False

  • support_level: SupportType.COMMON

  • 形狀推斷: True

此版本的運算符自版本 10 起可用。

摘要

StringNormalization 執行字串操作以進行基本清理。此運算符只有一個輸入 (以 X 表示) 和一個輸出 (以 Y 表示)。此運算符首先檢查 X 中的元素,並移除 "stopwords" 屬性中指定的元素。移除停用詞後,中間結果可以根據 "case_change_action" 屬性進一步轉換為小寫、大寫或直接傳回。此運算符僅接受 [C]- 和 [1, C]-張量。如果 X 中的所有元素都被捨棄,則如果輸入形狀為 [C],輸出將為形狀為 [1] 的空字串張量值;如果輸入形狀為 [1, C],則輸出形狀為 [1, 1]。

屬性

  • case_change_action - STRING (預設為 'NONE')

    字串列舉,將輸出轉換為小寫/大寫/不變。有效值為 "LOWER"、"UPPER"、"NONE"。預設值為 "NONE"

  • is_case_sensitive - INT (預設為 '0')

    布林值。X 中停用詞的識別是否區分大小寫。預設值為 false

  • locale - STRING :

    環境相關字串,表示需要根據哪個地區設定將輸出字串轉換為大寫/小寫。預設值為 en_US 或實作決定的平台特定等效項。

  • stopwords - STRINGS :

    停用詞清單。如果未設定,則不會從 X 中移除任何單字。

輸入

  • X (異質) - tensor(string)

    要正規化的 UTF-8 字串

輸出

  • Y (異質) - tensor(string)

    UTF-8 正規化字串