ストップワードによる検索  H17.6.9

 文法的なワードであるために、文中の利用頻度が高く、このために検索に使えなくしてあるワードをストップワードといいます。
 PateSearch Fulltextは、ストップワードの一部のワードが検索できるように見えますが、それはデータベースの都合による特殊なケースであり、通常は検索できないと見るべきです。
 例えば、on、in、and、or などのワードはストップワードになっており通常は検索できません。ところがこれらと別のワードとハイフンでつながっているとき、一部のものが検索されます。

 例えば、半導体チップの上にカメラを置くとか化学プロセスを実施するなど複雑な機能を構築する技術において、オンチップというワードが使われます。PatentWebでは onchip というワードにより、onchip だけでなく on-chip などと書いてある特許の一部も検索できるようになっていますが、これは on-chip と書いてある特許の全体ではありません。もちろん on chip のようにスペースで区切ってあるものは、on がストップワードですから検索できません。

 下図は、キーワードを入力する Search Text for: に onchip と入力したところです。



2001年1月〜2005年6月第一週の4年5ヶ月余りで990件ありました。



 1件目の特許番号をクリックして明細書を見てみると下記のようにon-chipが検索されています。
     on-chipの後ろに(^)があるのは検索によりヒットしたという目印です。
    また、アンダーラインが付いていることからも分かるように、次のヒット
    部分にハイパーリンクが設定されており、クリックするだけで簡単に飛ぶ
    ことができます。



 この特許のイメージデータは以下のようなものです。


 上の出力を見ると on-chip を確かに検索しているように見えます。またこの特許は、ただ一箇所にしか on-chip がないので、これ以上確かめられません。

下記は2件目の特許ですがこれも on-chip が検索されています。


 このイメージデータを見てみると、下記のように確かに文の途中に on-chip があります。なんの問題もなくこれを正常に検索しているように見えます。


 では、この2件目の中のすべての on-chip を検索しているのか確認してみましょう。
ブラウザ(InternetExplorer)の「編集」−「検索(F)」機能を使って on-chip を入力し[次を検索(F)]をクリックします。
 そうすると、下図のように on-chip がヒットします。ところがこの部分はPatentWeb・PateSearch Fulltextによるヒットにはなっていません。もしPateSearch Fulltextでヒットであるならば on-chip(^) となっているはずです。


 [次を検索(F)]をクリックして次の on-clip を検索をしても同様に PateSearch Fulltext ではヒットになっていません。


 このことから、onchip で検索して on-chip を検索しているように見えても、その全体を検索しているわけではないことが分かります。

 では、どのような場合の on-chip が検索されているのでしょうか? これは、やや分かり難いことですが、データベースのコンピュータの内部での処理の問題のようです。PateSearch Fulltextの内部では、文章を(段落などと関係なく)一定の長さごとに切って処理しているようです。そして、その区切りの最後の部分にハイフンがあると、単語が長すぎるために次の行にまたがることを示すためのハイフンであるのか、on-chip のようにワードの中にあるハイフンであるのか区別がつき難いらしいのです。そのため、このような場合には、ハイフンの前後の二つのワードと、つなげたワードの3つのワードでインデックスを作っているようです。(ところが on-chip の場合には on はストップワードであるので on はインデックスは作られませんが)
 この条件にある部分の on-chip だけが onchip で検索しても検索されることになるようです。逆に言えば、区切りの最後ではなく、途中に on-chip とあるような場合には、onchip のインデックスは作られず、検索できないということになります。

 下記は8件目の特許ですが、onchip と書かれている特許であり、当然ですが、検索されています。


 ところが同じ特許の中でも on chip というセンテンスにはヒットのマークがありません。これは on がストップワードであるためです。通常の文中のハイフンはスペースと同じ扱いになりますので、on-chip と書いてあるものも検索できません。




さらに検索においても・・・"on chip" とか on-chip では検索できません。



 下記のように、on は頻度の高いワードのために、いわゆるストップワードになっており、検索には使えないという説明がなされています。



"on chip" だけ入力しても、やはり検索できません。また、on adj chip でも検索できません。
もちろん、on だけでやっても検索できません。

日本特許との比較検討
 同期間(2001年1月以降)の日本公開特許で、「オンチップ」を検索してみると7,301件あります。USP(990件)の7倍あまりの件数があります。
 日本公開特許はUSPに比べて約2倍の件数があること、および、この分野は日本企業が得意であることを考えても、この7倍というのはやや多すぎる、つまりUSPは onchipだけではやまり全体は検索できていないと思われます。


 他の場合も同様です。(件数は2001年1月〜2005.6月第一週まで)

onsite では681件検索できます。この中には、on-site などがたくさん含まれています。
しかし、on-site の全体を検索できていないと見るべきです。

onsilicon では38件であり、on-silicon などが入っています。
しかし、on-silicon の全体を検索できていないと見るべきです。

andorで検索してみるとこれも検索でき、145件ありました。
しかし、and-or の全体を検索できていないと見るべきです。

 "Vitamin C" などは以前から検索できました。

 Aはストップワードなので検索には使えませんが、CやBはストップワードではありませんので検索できます。
"vitamin c" で検索すると2,375件検索されます。
vitamin adj c でも同様に2,375件検索されます。

逆にvitaminc と C を続けて検索するとわずか4件のみ検索されます。通常の使い方ではこれは間違いです。

なお、vitamin c と入力すると、vitanmin と c を and 検索したことになります。
件数は9,385件になります。(ご参考; c だけで検索すると、503,977件あります。)

"vitamin b" も同様に検索できます。