Felixの一致スコアの計算方法について

2009年11月10日 AM 10:17

Felixで、メモリ検索の際、照会文と原文との一致パーセンテージとういスコアがあります。このスコアは、いわゆる「ファジーマッチ」の類似度を測る指標です。

Felixでは、このスコアの計算は、レーベンシュタイン距離(編集距離とも言います)に基づいています。

レーベンシュタイン(編集)距離とは、何回「照会文」を編集したら、「原文」に変えることができるかを表す数字です。

たとえば、以下の照会文の1箇所を編集したら、原文に変えることができるので、距離が「1」となります。

わがはいはである。【照会文】
わがはいはである。【原文】

この距離値を文字数から引いて、さらにその結果を文字数で割って、基本スコアを求めます。

score_formula_j

上記の場合は、文字数が10ですので、(10 – 1) ÷ 10 = .9
この結果に100をかけて、パーセンテージに変換します(この場合は、90%になります)。

そして、「書式」の違いや数字の置き換えを加味して、最終スコアを計算します。これらの調整で、スコアが数パーセント左右することがあります。

これで、Felixのスコア計算ができます。

adminがFelix,ヒント のカテゴリにて投稿しました。 | コメント 0 件»

コメントを書く