「分かち書き」について
「分かち書き」を聞いたことのない人向けに説明します。
日本語(中国語も?)以外の文章は、単語ごとにスペースで区切られており、区切りごとで単語になっているため、すでに「分かち書き」となっています。一方日本語は、漢字、ひらがな、カタカナ、アルファベット等、多くの文字種別を使うため、途中にスペースで区切られていなくても区切りが判断できます。
例えば以下の文章の意味が分かりますでしょうか?
「ははははは、ははのはははははははとわらう」
何のことかわかりませんよね?
これを漢字・かな交じりで書くと以下のようになります。
「母はハハ、母の母はハハハハと笑う」
これであれば、意味が通じますよね。
これをローマ字表記だと、以下のようになります。
「haha wa haha , haha no haha ha hahahaha to warau」
これはスペースで区切られているので、ある程度わかりますね。
同様に、先ほどの漢字・かな交じりの文書を分かち書きすると以下のようになります。
「母 は ハハ、母 の 母 は ハハハハ と 笑う」
このように分けられた単語を、インデックスとして登録するわけです。
プリザンターのユーザマニュアルにもある例を書くと「東京都」という単語が、「東」「京都」と分かち書きされてしまい、「東京」という単語で検索しても、検索結果に出てこないということになります。
ということで、「フルテキスト」に設定した場合に、意図しない検索結果になったりします。
なお、「検索」タブで検索設定を変更した場合は、「検索インデックスの再構築」ボタンをクリックすることを忘れないでください。
プリザンターの検索設定の種類
こんにちは、CCSの田中です。
突然ですが、「プリザンターの検索で思った通りの検索結果が出ない」と感じたことはないでしょうか?
プリザンターには、検索設定が以下の4種類あります。設定内容によっては、思った通りの検索結果が得られませんので、どのように設定するのが良いのかをご説明したいと思います。
1)フルテキスト
データベースのフルテキスト検索機能を使用して検索を行います。データ量が多い場合でも高速に検索結果が得られることがメリットです。ただし、「分かち書き」でのインデックス作成が行われるため、意図した検索結果が得られないことがあります。詳しくは次章で説明します。
2)部分一致
レコード毎に全ての項目についてあいまい検索を行います。フルテキストと違い、意図した通りの検索結果を得ることができます。ただし大量のデータを対象とする場合は検索に時間がかかる場合があります。
3)タイトルの前方一致
レコード毎にタイトルの前方一致検索を行います。
4)タイトルの部分一致
レコード毎にタイトルのあいまい検索を行います。