groonga - オープンソースのカラムストア機能付き全文検索エンジン

7.3.43. table_tokenize

7.3.43.1. 概要

table_tokenize コマンドは指定したテーブルのトークナイザーでテキストをトークナイズします。

7.3.43.2. 構文

table_tokenize コマンドには必須の引数と省略可能な引数があります。 tablestring が必須の引数で、他の引数はすべて省略可能です。

table_tokenize table
               string
               [flags=NONE]
               [mode=GET]

7.3.43.3. 使い方

以下は簡単な使用例です。

実行例:

register token_filters/stop_word
# [[0,0.0,0.0],true]
table_create Terms TABLE_PAT_KEY ShortText \
  --default_tokenizer TokenBigram \
  --normalizer NormalizerAuto \
  --token_filters TokenFilterStopWord
# [[0,0.0,0.0],true]
column_create Terms is_stop_word COLUMN_SCALAR Bool
# [[0,0.0,0.0],true]
load --table Terms
[
{"_key": "and", "is_stop_word": true}
]
# [[0,0.0,0.0],1]
table_tokenize Terms "Hello and Good-bye" --mode GET
# [
#  [
#    0,
#    0.0,
#    0.0
#  ],
#  [
#    {
#      "value": "hello",
#      "position": 0
#    },
#    {
#      "value": "good",
#      "position": 2
#    },
#    {
#      "value": "-",
#      "position": 3
#    },
#    {
#      "value": "bye",
#      "position": 4
#    }
#  ]
# ]

Terms テーブルには、 TokenBigram トークナイザーと、 NormalizerAuto ノーマライザーと、 TokenFilterStopWord トークンフィルターがセットされています。 この例は TokenBigram トークナイザーで "Hello and Good-bye" をトークナイズしたトークンを返します。トークンは、 NormalizerAuto ノーマライザーで正規化されています。 and トークンは、 TokenFilterStopWord トークンフィルターで除去されています。

7.3.43.4. 引数

このセクションではすべての引数について説明します。引数はカテゴリわけしています。

7.3.43.4.1. 必須引数

必須引数は二つあります。 tablestring です。

7.3.43.4.1.1. table

語彙表テーブルを指定します。 table_tokenize コマンドは、語彙表テーブルにセットされたトークナイザーとノーマライザーとトークンフィルターを使います。

7.3.43.4.1.2. string

トークナイズしたい文字列を指定します。

詳細は、 tokenizestring オプションを参照してください。

7.3.43.4.2. 省略可能引数

いくつか省略可能な引数があります。

7.3.43.4.2.1. flags

トークナイズ処理をカスタマイズするオプションを指定します。「 | 」で区切って複数のオプションを指定することができます。

デフォルト値は NONE です。

詳細は、 tokenizeflags オプションを参照してください。

7.3.43.4.2.2. mode

トークナイズモードを指定します。

デフォルト値は GET です。

詳細は、 tokenizemode オプションを参照してください。

7.3.43.5. 戻り値

table_tokenize コマンドはトークナイズしたトークンを返します。

詳細は、 tokenize戻り値 オプションを参照してください。