KGRノート:仮想レファレンス
KGRノート
検索エンジンで記事がランキング付きで表示されることの、意味を再考している。
問題を先にしるすと。
インターネット検索エンジンでは、記事は、検索する用語によって、記事の待遇が変わる。
これまでのIR(情報検索)とは、異なる。これまでのIRは、データ群が静的に格納されていたわけだ。だから、利用者が適切な用語(シソーラスなどの利用)を、適切にブール式で組み立てて検索すれば、適切な解が得られる。これは再現性を伴う。同じ式、同じ用語なら、データベース更新がなされない限り、なされても、大変動を来さずに、ほぼ同じヒットを得られる。追加された記録は、追加された解として得られる。
インターネットの検索エンジンでは、解はランキングに現れる。
利用者の用いる用語は、ほとんど一語で済ませている。
その一語や、二語の組み合わせで、同じ記事のランキングが大きく変動する。これが奇妙な感覚をもたらす。
検索の錯覚
それが、問題なのだ。というか、どうすっきり考えればよいのかを、四月頃から考えている。
列車に座っていて、停車していても、となりの列車が動き出すと、まるで自分の乗っている列車がうごいているように感じる。
たわいないことなのだろうが、どうも、Googleなどの検索をしていると、そういう錯覚、奇妙な感覚に襲われる。
仮想レファレンス・実験をしてみよう
Googleで実験してみた。
対象(ターゲット)記事は、2007年5月22(火)に掲載したので、今日の金曜で4日目になる。
ブライトンホテルは、京都御所の西に位置する瀟洒なシティーホテル。フェリエはそこのレストランの一つ。ディナーの内容はオーストラリアン(風)。カジュアルという表現は、修辞。
この記事をGoogleで求める人は、一体どんな用語を用いるのだろうか。
そしてこの記事は、どういう場合にKGRが変化するのか?
司書の卵程度に、インターネットを理解している人による仮想レファレンスを想定してみる。
(KGRとは、順位÷検索総数(母数)×10万 )→この意味は別記事を参照。
仮想の利用者1は、京都にもレストランにも詳しくなく、「京都の御所のあたりのホテルで、美味しい物が食べられるようだ」程度としておく。利用者2は、フェリエというレストランを知っている程度。……。以下、なんとなく曖昧な利用者を数名想定してみる。
Google条件は、全言語対象。表示は50件単位とし、そこにMuBlog記事がなければ「無」とする。
事例は、Googleの検索結果から、あらかじめKGRを算出し、その順にならべた。
分析もつけておいた。
事例とKGR指標の分析
1 3.58
利用者4:ちょっと京都に行って、ホテルでカジュアルな食事をしたい。
想定語群: {京都 ホテル カジュアル レストラン}
Google結果: 11(位)/307000(検索総数:母数)
KGR指標: 3.58kgr(070524){京都 ホテル カジュアル レストラン}
分析: 用語はどれも一般的で曖昧だが、KGRは一番になった。
「カジュアル」に多少難がある。
こういう言葉で検索するだろうか?
しかし、KGR指標が1以上10以内なので、記事と用語群がうまくマッチし、記事の待遇も良いと考えておく。
2 7.94
利用者3:京都のブライトンでディナーとりたい。
想定語群: {京都 ブライトン ディナー}
Google結果: 1/12600
KGR指標: 7.94kgr(070524){京都 ブライトン ディナー}
分析: 用語群に難はない。ブライトンホテルは著名なので、こういう事例は多いだろう。
KGR指標が1以上、10以内なので、
妥当な用語、妥当な記事と言える。
3 20.08
利用者1:京都御所の近所に、おいしいレストランのあるホテルがあるようだ。
想定語群: {京都御所 レストラン ホテル}
Google結果: 49/244000
KGR指標: 20.08kgr(070524){京都御所 レストラン ホテル}
分析: 曖昧すぎる用語群だが、京都御所という施設名で限定できた。
KGR指標が20というのは、記事がそこそこの待遇を得たと判断できる。
ただし、Google のランキングは49位なので、実用性からは疑問が残る。
検索母数が24万というのは、ヒットが多すぎることを意味し、それは用語群が凡庸であるとも言える。
4 25.64
利用者6:京都のホテルで、オーストラリアン風の食事ができるそうだ。
想定語群: {京都 ホテル オーストラリアン}
Google結果: 3/11700
KGR指標: 25.64kgr(070524){京都 ホテル オーストラリアン}
分析: KGR指標としては3(利用者1)と似通っているが、母数が一桁異なる。
オーストラリアンという用語が記事にマッチしたのだろう。
だから記事の待遇としては、3(利用者1)よりも劣るが、Googleで3位という点では実用的である。
5 1088.92
利用者5:ブライトンのフェリエでメシ喰いたい。
想定語群: {ブライトン フェリエ}
Google結果: 6/551
KGR指標: 1088.92kgr(070524){ブライトン フェリエ}
分析: この場合、記事待遇が悪いというよりも、
マイナー世界なのだろう。
つまり「フェリエ」というレストラン名は、ブライトンというホテル名に比べると知名度が低いと推量できる。
6 1214.57
利用者2:フェリエというレストランが京都にある、そこでうまいランチかディナーがあるそうだ。
想定語群: {フェリエ 京都 ランチ ディナー}
Google結果: 3/247
KGR指標: 1214.57kgr(070524){フェリエ 京都 ランチ ディナー}
分析: さらにKGR指標は弱くなっている。
母数も少なく、マイナ世界である。
以上のまとめ
事例をみていて、検索用語群として、一番適正なのは2番目の、
7.94kgr(070524){京都 ブライトン ディナー}
と、考えた。
記事内容が妥当なのか。
(Googleなどの記事判定アルゴリズムで左右される)
検索用語が妥当なのか。
(記事判定アルゴリズムでの、用語の扱いと一般利用者の使用傾向)
双方の関係バランスで、変化する。
どうなんだろう、と今朝もKGRのことを考えこんでしまった。
| 固定リンク
「情報図書館学」カテゴリの記事
- 小説木幡記:アップル社のiBooks-Authorなどでうむふむ(2012.03.10)
- 小説木幡記:電子書籍と電子図書館はPMLで一つのものなのだ(2011.06.01)
- 小説木幡記:メディア変換の中での紙や電子書籍(2011.05.01)
- 小説木幡記:海辺の駅図書館(2011.03.01)
- 葛野司書・共同演習(2010後期)情報サービス・資料組織Ⅰ (2010.12.26)
「KGR」カテゴリの記事
- 小説木幡記:20070603(日)浄霊と除霊とGoogle革命(2007.06.03)
- KGRノート:仮想レファレンス(2007.05.25)
- 「地名 桜」でのGoogle検索記事(MuBlog)のKGR指標による分析(2007.05.11)
- 新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較(2007.05.03)
- 小説木幡記:20070501(火)長期休暇とKGRメモ(2007.05.01)
この記事へのコメントは終了しました。
コメント
MuKGRメモ(070525)
インターネット世界なのだから、発信者からの観点も考えねばならない。
これを避けてきたのは、記事を上位ランキングに入れる工夫や分析が、インターネット世界では多いからである。これは、MuBlogの基本理念からは、ずれる。
<事情>
1.人がやっている研究や調査は、その人達におまかせする→Mu流儀
2.MuBlogの最大目的は、知識の集積と、知識樹の作成、つまり、Mu自身のための巨大な外部記憶装置を作ることにある。
<さて>
しかし、なぜ最近、Mu記事のKGR値が高い(数値が低い)のかは、解かねばならない。4月ころからは、記事を出せば、利用者の目にふれないうちに、一般用語でKGR指標が1~10になる事例が多すぎる(つまり第1ページ、その近辺にランキングされる)。なぜか。
検索エンジン、Googleなどは、記事を採取した時点で、発信アドレスと、記事固有の格付けをしているのかもしれない。
Muの予想では、実績だと思う。記事総数(1000を越えたのが4月だった)、頻度(ほぼ毎日だ)、固有名詞(MuBlog記事は、芸術的なタイトルが少ない。固有名詞の並列が多い)
しかし、これらはすべて憶測にすぎない。
Googleの説明では、なんら事前操作はしていないと、書いてある。
~謎だ。
<方法>
暇にあかせて、初期からの記事を検索し、KGR指標をコメント欄に残していこう。
後日に、記事待遇の、時系列変化が掴めるかもしれない。
検索用語は?
タイトルの二語対、これをパーミュターム方式で回転させてみるのもよいが→プログラマブル。
著者Muがタイトルないし、内容から、決定的な二語対検索用語を選定し、それでやってみよう。
それにしても。
インターネット世界は、飽きさせない。
10年前に感じた、深い海だ。現代の検索エンジンは、水深下1万メートルに近い、海溝、太陽の光などどこにもない深海まで、達していそうだ。
投稿: MuKGRメモ | 2007年5月25日 (金) 10時03分