« 小説葛野記:20070524(木)大人のはしか、修飾麻疹 | トップページ | 擬態:カムフラージュ/ジョー・ホールドマン・著、金子司・訳 <異星人と未来人> »

2007年5月25日 (金)

KGRノート:仮想レファレンス

KGRノート
 検索エンジンで記事がランキング付きで表示されることの、意味を再考している。
 問題を先にしるすと。
 インターネット検索エンジンでは、記事は、検索する用語によって、記事の待遇が変わる。
 これまでのIR(情報検索)とは、異なる。これまでのIRは、データ群が静的に格納されていたわけだ。だから、利用者が適切な用語(シソーラスなどの利用)を、適切にブール式で組み立てて検索すれば、適切な解が得られる。これは再現性を伴う。同じ式、同じ用語なら、データベース更新がなされない限り、なされても、大変動を来さずに、ほぼ同じヒットを得られる。追加された記録は、追加された解として得られる。

 インターネットの検索エンジンでは、解はランキングに現れる。
 利用者の用いる用語は、ほとんど一語で済ませている。
 その一語や、二語の組み合わせで、同じ記事のランキングが大きく変動する。これが奇妙な感覚をもたらす。

検索の錯覚
 それが、問題なのだ。というか、どうすっきり考えればよいのかを、四月頃から考えている。
 列車に座っていて、停車していても、となりの列車が動き出すと、まるで自分の乗っている列車がうごいているように感じる。
 たわいないことなのだろうが、どうも、Googleなどの検索をしていると、そういう錯覚、奇妙な感覚に襲われる。

仮想レファレンス・実験をしてみよう
 Googleで実験してみた。
 対象(ターゲット)記事は、2007年5月22(火)に掲載したので、今日の金曜で4日目になる。

フェリエ:京都ブライトンホテルでカジュアルなディナー」。

 ブライトンホテルは、京都御所の西に位置する瀟洒なシティーホテル。フェリエはそこのレストランの一つ。ディナーの内容はオーストラリアン(風)。カジュアルという表現は、修辞。

 この記事をGoogleで求める人は、一体どんな用語を用いるのだろうか。
 そしてこの記事は、どういう場合にKGRが変化するのか?
 司書の卵程度に、インターネットを理解している人による仮想レファレンスを想定してみる。
 
 (KGRとは、順位÷検索総数(母数)×10万 )→この意味は別記事を参照。

 仮想の利用者1は、京都にもレストランにも詳しくなく、「京都の御所のあたりのホテルで、美味しい物が食べられるようだ」程度としておく。利用者2は、フェリエというレストランを知っている程度。……。以下、なんとなく曖昧な利用者を数名想定してみる。
 Google条件は、全言語対象。表示は50件単位とし、そこにMuBlog記事がなければ「無」とする。
 事例は、Googleの検索結果から、あらかじめKGRを算出し、その順にならべた。
 分析もつけておいた。

事例とKGR指標の分析

1 3.58
 利用者4:ちょっと京都に行って、ホテルでカジュアルな食事をしたい。 
 想定語群: {京都 ホテル カジュアル レストラン}
 Google結果: 11(位)/307000(検索総数:母数)
 KGR指標: 3.58kgr(070524){京都 ホテル カジュアル レストラン}
 分析: 用語はどれも一般的で曖昧だが、KGRは一番になった。
   「カジュアル」に多少難がある。
   こういう言葉で検索するだろうか?
   しかし、KGR指標が1以上10以内なので、記事と用語群がうまくマッチし、記事の待遇も良いと考えておく。

2 7.94
 利用者3:京都のブライトンでディナーとりたい。
 想定語群: {京都 ブライトン ディナー}
 Google結果: 1/12600
 KGR指標: 7.94kgr(070524){京都 ブライトン ディナー}
 分析: 用語群に難はない。ブライトンホテルは著名なので、こういう事例は多いだろう。
   KGR指標が1以上、10以内なので、
   妥当な用語、妥当な記事と言える。

3 20.08
 利用者1:京都御所の近所に、おいしいレストランのあるホテルがあるようだ。
 想定語群: {京都御所 レストラン ホテル}
 Google結果: 49/244000
 KGR指標: 20.08kgr(070524){京都御所 レストラン ホテル}
 分析: 曖昧すぎる用語群だが、京都御所という施設名で限定できた。
   KGR指標が20というのは、記事がそこそこの待遇を得たと判断できる。
   ただし、Google のランキングは49位なので、実用性からは疑問が残る。
   検索母数が24万というのは、ヒットが多すぎることを意味し、それは用語群が凡庸であるとも言える。

4 25.64
 利用者6:京都のホテルで、オーストラリアン風の食事ができるそうだ。
 想定語群: {京都 ホテル オーストラリアン}
 Google結果: 3/11700
 KGR指標: 25.64kgr(070524){京都 ホテル オーストラリアン}
 分析: KGR指標としては3(利用者1)と似通っているが、母数が一桁異なる。
  オーストラリアンという用語が記事にマッチしたのだろう。
  だから記事の待遇としては、3(利用者1)よりも劣るが、Googleで3位という点では実用的である。

5 1088.92
 利用者5:ブライトンのフェリエでメシ喰いたい。
 想定語群: {ブライトン フェリエ}
 Google結果: 6/551
 KGR指標: 1088.92kgr(070524){ブライトン フェリエ}
 分析: この場合、記事待遇が悪いというよりも、
  マイナー世界なのだろう。
  つまり「フェリエ」というレストラン名は、ブライトンというホテル名に比べると知名度が低いと推量できる。

6 1214.57
 利用者2:フェリエというレストランが京都にある、そこでうまいランチかディナーがあるそうだ。
 想定語群: {フェリエ 京都 ランチ ディナー}
 Google結果: 3/247
 KGR指標: 1214.57kgr(070524){フェリエ 京都 ランチ ディナー}
 分析: さらにKGR指標は弱くなっている。
  母数も少なく、マイナ世界である。

以上のまとめ
 事例をみていて、検索用語群として、一番適正なのは2番目の、
 7.94kgr(070524){京都 ブライトン ディナー}
 と、考えた。

 記事内容が妥当なのか。
  (Googleなどの記事判定アルゴリズムで左右される)
 検索用語が妥当なのか。
  (記事判定アルゴリズムでの、用語の扱いと一般利用者の使用傾向)
 双方の関係バランスで、変化する。
 どうなんだろう、と今朝もKGRのことを考えこんでしまった。

|

« 小説葛野記:20070524(木)大人のはしか、修飾麻疹 | トップページ | 擬態:カムフラージュ/ジョー・ホールドマン・著、金子司・訳 <異星人と未来人> »

情報図書館学」カテゴリの記事

KGR」カテゴリの記事

コメント

MuKGRメモ(070525)

 インターネット世界なのだから、発信者からの観点も考えねばならない。
 これを避けてきたのは、記事を上位ランキングに入れる工夫や分析が、インターネット世界では多いからである。これは、MuBlogの基本理念からは、ずれる。

<事情>
1.人がやっている研究や調査は、その人達におまかせする→Mu流儀
2.MuBlogの最大目的は、知識の集積と、知識樹の作成、つまり、Mu自身のための巨大な外部記憶装置を作ることにある。

<さて>
 しかし、なぜ最近、Mu記事のKGR値が高い(数値が低い)のかは、解かねばならない。4月ころからは、記事を出せば、利用者の目にふれないうちに、一般用語でKGR指標が1~10になる事例が多すぎる(つまり第1ページ、その近辺にランキングされる)。なぜか。
 検索エンジン、Googleなどは、記事を採取した時点で、発信アドレスと、記事固有の格付けをしているのかもしれない。
 Muの予想では、実績だと思う。記事総数(1000を越えたのが4月だった)、頻度(ほぼ毎日だ)、固有名詞(MuBlog記事は、芸術的なタイトルが少ない。固有名詞の並列が多い)
 しかし、これらはすべて憶測にすぎない。
 Googleの説明では、なんら事前操作はしていないと、書いてある。
 ~謎だ。

<方法>
 暇にあかせて、初期からの記事を検索し、KGR指標をコメント欄に残していこう。
 後日に、記事待遇の、時系列変化が掴めるかもしれない。
 検索用語は?
 タイトルの二語対、これをパーミュターム方式で回転させてみるのもよいが→プログラマブル。
 著者Muがタイトルないし、内容から、決定的な二語対検索用語を選定し、それでやってみよう。

それにしても。
 インターネット世界は、飽きさせない。
 10年前に感じた、深い海だ。現代の検索エンジンは、水深下1万メートルに近い、海溝、太陽の光などどこにもない深海まで、達していそうだ。

投稿: MuKGRメモ | 2007年5月25日 (金) 10時03分

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: KGRノート:仮想レファレンス:

« 小説葛野記:20070524(木)大人のはしか、修飾麻疹 | トップページ | 擬態:カムフラージュ/ジョー・ホールドマン・著、金子司・訳 <異星人と未来人> »