« 十三の冥府(じゅうさんのめいふ)/内田康夫 著 | トップページ | 小説木幡記:20070504(金)Googleで心の旅路 »

2007年5月 3日 (木)

新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

1 はじめに
 2007年4月29日に発表したKGR指標(インターネット上での記事の重み)について、同5月3日に3種類{Google, Yahoo, goo}の検索サイト(エンジン)で検索した結果、次のような結果を得た。用語「KGR」は意味的には新語なので、指標がどう出るか予測できなかったが、意外に上位にランキングされていた。

KGRとGoogle

新語「KGR」のGoogleでの検索結果
KGRとYahoo
新語「KGR」のYahooでの検索結果
KGRとGoo
新語「KGR」のgooによる検索結果

↑各画像をクリックすると、個別データが見られます。

2 新語「KGR」の検索結果
 検索結果は画像に記録したので、それを参考にしていただきたい。以下、その結果をまとめ、表記方法について、若干の補正を行った。
 新用語「KGR」によって検索された記事は、3者ともKGR初出の、
 KGR:blogアクセス「キーワードと記事」の記事力(利用者求心力)指標によるMuBlog記事の分析
だったが、Googleの場合のみ、第5位に次の記事が表示された。
小説木幡記:20070501(火)長期休暇とKGRメモ

・GoogleでのKGR指標
  0.38kgr(070503){KGR}
・YahooでのKGR指標
  2.59kgr-Yahoo(070503){KGR}
・gooでのKGR指標
   55.40kgr-goo(070503){KGR} →標準検索による。全言語対象では、4.29kgr-goo(070503){KGR}

 諸元は、Googlの場合、実質4位(母数:1060000記事)で、0.38というKGR指標は、10万記事あたりでは特殊扱いとなり、100万記事あたりでは、3~4位相当になる。
 Yahooの場合、実質12位(母数:463000記事)で、2.59というKGR指標は、10万記事あたりでは2~3位相当になる。
 gooの場合は、実質2位(母数:3610記事)で、55.40というKGR指標は、10万記事あたりでは55位相当になり、1万記事あたりでは5~6位相当になる。

 ここでKGRの表記について修正をしておく。4月29日付けでは、0.38kgr(070503)としていたが、末尾に検索に用いた用語群を追加する。よって、今後、0.38kgr(070503){KGR}のように、「KGR指標、日付、検索用語群」の三要素でKGR指標を構成することにする。

 なお、比較に用いたYahooやgooは、その検索サイト名を、kgr-Yahooのように付記した。
 日付や、検索用語を指標に付けたのは、インターネット世界や、検索エンジンのランキング設定アルゴリズムは、流動的で、恒常的指標が成立しないと判断したからである。

3 分析
 数日前に作った新語「KGR」が、三つの検索サイトによって、上位にランキングされた事情を考えてみた。
 ここで、各検索エンジンのランキング判定アルゴリズムは不明という前提で話をする。おそらく、各社いくつものアルゴリズム(手順とか、方法論。方程式と考えても間違いではない)を調整しながら、次々と変更していくのだろう。つまり、利用者に最適解と思われるだろう出力が出るように、調整しているわけである。その内情は、漏れ聞こえたり、研究論文レベルでかいま見えたりはするが、確証はない。一般論と、固有のエンジンの詳細は時期によって、異なるものである。

 そこで。
 「KGR」という新語が、何故各種検索エンジンで、一過的にせよ、4位、12位、2位という好待遇を得たのか、それを推測することによって、KGRの意味付けを強化した。

3.1 網羅性
 網羅性というのは、特定用語で、どれだけ余すところ無く検索したのかという意味と、検索サイトがどれだけこの世の関係データを集積したのかという、二方向から考えられる。
 3者の同一用語「KGR」によって得られた記事数(母数とする)は、1060000、463000、3610(全言語だと、69900)となり、Googleが百万レベルであるのは、異様な数値といえる。三者は概略で、KGRという用語に対して、百万、十万、万のレベルの網羅性だといえる。

 ここで前後したが、検索オプションは、Googleで100件表示を選んだ以外は、すべて各社の提供するディフォルト(標準)状態で行った。これらの一般検索条件を見た結果が上記内容である。gooの場合のみ、「日本語のみ」オプションが標準だった。ここでgooを補正すると、3位で母数が69900となり、4.29kgr-goo(070503){KGR} となり、実質3位で、10万記事あたり4位相当となる。

 しかし、網羅性は一概には言えない。gooに見られるように、標準で日本語のみを対象にしているのと同じく、ランキング判定アルゴリズムの中に一定の(利用者には見えない)フィルターをかけて絞り込みをしている場合もあるかも知れない。A社は巨大な母数を示し、それで安心感を持たせている方針をとり、B社は事前に絞り込みをして、利用者に精度を提供しようとしているのかもしれない。この間の事情は、不明とした方がよい。何故なら、識者や関係者が一定の見解を述べたとしても、その時々の一瞬の調整で、真に特定の関係者しか、いまカレントな、ランキング判定アルゴリズムを確認できない可能性もあるのだから。

3.2 適合性
 一般に情報検索の適合性とは、得られた結果がどのくらい利用者にとって、有意義であるかの判定指標である。だが、上述の網羅性に比べて「適合性」問題は、インターネット世界では、従来の考え方では役にたたなくなった。あるいは、新しい「適合性」を考えねばならない時代ともいえる。その指標の一つが、ランキングである。

 そこから「利用者は最初のページしか読まない」「最初のページに出なければ記事は無意味」「最初のページに記事が出るように画策しよう」という話が世上を騒がせる。

 しかし、ランキング判定アルゴリズムに関しては、検索サイトも努力をしている。たとえば、「SONY」という用語を入れてみれば、ほとんどの検索サイトでは、メーカーとしてのSONYの公式ページが先頭に出る。一般利用者の実用性を考えるならば、こういった仕組みは、人海戦術であれ、提携であれ(不明)、簡便なアルゴリズム、なんであれ、新しい情報検索においての、あたらしい「適合性」を創出したといえよう。

3.3 KGR指標と記事力、あるいは「記事待遇度指標」
 4月末の最初の論考では、KGR指標を「記事力」と言う風に仮に名付けた。しかし今回、一過的かもしれないが、「KGR」という新語が、数日後には突然10万記事あたりで、10位以内に入ったのを確認し、考えを少し修正することにした。何故なら、だれも知らないであろう新語「KGR」に、記事が持つ意義は、だれにも判定できないことに気付いたわけである。

 記事・情報発信者の立場に限定して、いまここで言えることは、「順位÷総件数(母数)×10万」、この単純な式によってKGR指標を出し、その指標によって現在確実にわかることは、当該記事がインターネット世界でどう待遇されているか、それが誰にでも判定できる、そういう指標であるとする。

 よって、KGR指標は、根底には記事力の判定を持っているが、客観的には「記事待遇度指標」とするのが、より正確といえる。

3.4 「KGR」が高い指標を示した推測理由
 一般論としては、タイトルに用語「KGR」があるから、などとも言えるが、おそらく別の要因だと考えている。当然だが、当MuBlogサイトはあらゆる情報関係企業や、あらゆるランキング判定アルゴリズム開発実務者とは全く無縁である。となると、推測できるのは、3年間にわたる継続蓄積と、マイナーではあるが、日々数百のアクセスが持続している事実、こういう実績度が、MuBlog発の記事を一定の条件でランキング判定アルゴリズムの要素に付加している可能性がある。

 推測、憶測をいくら重ねても無意味ではあるが、客観的に私が自然語を中心にした検索エンジンを造り、そのランキング判定アルゴリズムを作るとするなら、集積した巨大データベースから、まず記事発信サイトと、記事数と記事容量とリンクとコメントなど、表層的情報を別テーブルに蓄積し、そこを元に第一次判定を行うであろう。そのあとで、当該記事の形態素解析、意味解析などを行って、用語の頻出パターンや、文章内用語間の関係、あるいは用語専門辞書による解析など、……。そういう手法は、自然言語処理研究世界ではすでに実績があるだろうから、それほど難しい問題ではない。

 ただ、理屈だけでなく、適合度を常に計る体制によって、それらはなされていくのだろうし、現代の検索サイトが今後どんな風になるのかは、中核の関係者以外には不明というのが、客観的な答だといえる。

4 まとめ
 新語「KGR」を、記事公開数日後に検索サイトで確認したところ、KGR指標が高い結果(数値が小さい)を得た。本記事では、その記録確認と、KGR指標表記の若干の修正とを行った。また、KGR指標は最初に述べた「記事力」というよりも、「記事待遇度指標」とするのが確実であると、これも修正した。

 分析にあっては、こういった新語が高いKGR指標を持つた理由を不明としたが、一定の推測を交えた見解を表明した。すなわち、情報発信者の実績(年限や記事数、記事容量)が一つの要素ではないかという、仮説である。

 しかしなお、仮説にとどめたのは、検索サイト側の事情は常に流動的なのだから、その仕組みや考え方を追跡する前に、所与のインターネット世界で、KGR指標のような尺度が、情報発信者(PML:個人電子図書館)にとってどういう意味を持つのかを、検証することに力を注ぎたいからである。

 次回は、特定用語と検索結果について、考察したい。

|

« 十三の冥府(じゅうさんのめいふ)/内田康夫 著 | トップページ | 小説木幡記:20070504(金)Googleで心の旅路 »

情報図書館学」カテゴリの記事

Blog統計」カテゴリの記事

KGR」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較:

» 「桜 場所」でのGoogle検索記事(MuBlog)のKGR指標による分析 [MuBlog]
承前:新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較 (1)はじめに  MuBlogの記事には例年「桜」記事が多い。これは関西を中心に、各地へ観桜にでかけ記録したものである。2004、2005、そして2007年のものが多数ある。毎年春になると、桜関係記事への当MuBlogアクセ... [続きを読む]

受信: 2007年5月11日 (金) 01時41分

« 十三の冥府(じゅうさんのめいふ)/内田康夫 著 | トップページ | 小説木幡記:20070504(金)Googleで心の旅路 »