カテゴリー「KGR」の6件の記事

2007年6月 3日 (日)

小説木幡記:20070603(日)浄霊と除霊とGoogle革命

日曜はお休みだったはず
 日曜日は、就寝前に風林火山の感想文を書くので、他は書かないでおこうと思っていた。それは体力知力温存の意味があって、もともと蒲柳の質だし、弱っちい性格だから、あんまり無理な生活を送ってはならぬ、と心に決めていたことなのだが。

 さっき気晴らしに、近所のセブンイレブンへ行って、オレンジジュースを買ったら急に元気がでてきた。要するに、近頃は木幡に座臥しているか、木幡と葛野の往還しかないので、たまに外を歩くと気分が晴れるのだろう。

 今朝の極早朝は相当な難行というか、勤行をすませてほっとした。文章を書くのは一番こたえるようだ。

ゴーストハントで浄霊と除霊
 午前中はずっと小野不由美原作で、いなだ詩穂漫画の『ゴーストハント』を読んでいた。1号は文庫で、2~4は葛野の漫画友にかりたコミックス版で読んだ。5号の文庫は木幡にあるし、5~9までは葛野にあるのだが、ともかく今朝はそこまでにした。

 浄霊は、霊というか悪霊というかをなだめすかして、改心させて、無毒なものに変えるお祓いのようだ。除霊というのは悪霊を抹消するというか、殺すことのようだ。どっちにしても、生命体ではないのだから、難しい仕事に思えた(爆笑)
 「わたし、谷山麻衣、16歳」もコミックス版の4号ではそろそろ、そのカンの冴えが、「ESPとかPK能力の発露ではないか」と周り、ナルさんなんかから言われ出したようだ。多分、五巻以降はとんでもない能力を発揮するような予感にうちふるえながら、読み終えた。楽しみ。

悪霊払いの面々
 しかし当時、このころの小野不由美さんは、やることが派手というか、考えてもみよ。そこかしこの高校でポルターガイストや悪霊さわぎが起こる度に、その搬入機器は後日正確に記すにしても、現場に乗り込むのは業界を網羅したような面々。

 高野山系の真言密教で悪霊退散する、ぼーさん。霊が見えて、得意技は依り付きで霊と対話する霊媒・真砂子さん(この人、綺麗)、常に霊とはお友達状態なので浄霊を好む。真砂子さんといつも喧嘩する自称「巫女」の綾子さんは気性がはげしく、除霊派だが、あんまり効かない。どうにもわからないのは日本の悪霊に有効なのか?難波弁のエクソシスト。
 そして謎多きリンさん。最後に登場するのはSPR:渋谷サイキック・リサーチ(渋谷心霊現象調査事務所)所長で狷介極まるナル君。彼は、一度は陰陽師と思ったが、そうでもないような。

 陰陽師、真言密教、巫女、エクソシスト、霊視霊媒、謎の助手。さらに秘められた超能力保持者「私、谷山麻衣、16歳」
 これだけ派手に繰り出せば、さすがに悪霊たちもしっぽを巻いて逃げ去るだろうと、おもいきや。そうはならない。そこにこの漫画、ゴーストハントの佳さがある。
 どうにも、次巻あたりからは、余でさえも震え上がるような内容になりそうだ。すでに兆候はでている。

Google革命
 今年の正月に、話題になったNHKのGoogle革命録画を復興華南船長に貸してもらった。で、ようやく知力が回復してきたので、さっき、午後に見終わった。
 やはり、話題になるだけの内容だった。
 記事ランキングや、宣伝にリンクさせるキーワードの販売や、検閲など、沢山の問題があった。
 確かに、「会社記事上位Google掲載」コンサルタントのおじさんが、「15位以下だと、会社が存在しないのと同じ」と、脅かしていた。あれは、仕事がら、そう言わないと商売にならんからな。
 今のところは、コンサルタントも、Google画面の表層にあらわれた結果で、経験的に判断しているようだ。

 ここでは記事ランキングだけに言及しておくが、実は客がどういうキーワードを使うかという問題も、なかなかややこしい。

記事ランキングのアルゴリズム
 ランキング判定アルゴリズムは極秘のようだ。
 番組では、100前後のルールによるアルゴリズム(式)によって順位を決めているとのこと。そしてハイパーテキストのリンク間結合を調整していること。その二つが分かった。
 同一キーワードの連続連鎖はルール違反にするようだが、字句が少しづつ異なる用語の連鎖は、当時は許容しているようだ。(今現在は分からない)
 もう一つのNHK番組では、CEOが中国天安門事件の検閲に対応して、公的・情報公開の責任を匂わせ、やがて「ルール」も一部公開するようなそぶりだった。

Mu感想>
 これは、自らがGoogleと同じシステムを造る気持を持てば、その100前後のルールは自然に分かってくると思った。今日の午後、その概念図を書こうとしたが、疲れそうなので止めた(笑)。

 つまり自然言語処理の初歩を適用している。新聞記事の自動分類や、記事の重みづけや、もろもろ、すでに日本でも20年近い実績がある。だから、そのシステムを造る過程で、「よい記事」をどう評価するかの評価式を自ら考案することで、それを逆用すれば、よいだろう。

 なんとなく、日本の情報学関係の卒論や、院生レポートに課題としてありそうな気がした。
 余が情報学の専門家(笑:余は残念ながら、情報図書館学)なら、あっけなく、課題を出す。

 「
  Google近似の記事判定システムを伴った評価検索エンジンの、
  UML適用・概念図を書け。
  ただし、トイ・システム(おもちゃ)でよい。
  A4判5枚以内。
  記述言語は、概念レベルで、なんでもよろし。

 補足
  そのアルゴリズムを、自分の記事に適切に適用し、登録せよ。
  結果がGoogle上位5位以内なら、通期にわたり「優」とする。
  ただし、特殊すぎる記事は無効。KGR評価指数が、1~100の範囲とする。
 」

 Googleは、英語や日本語、多種多様な言語に適用するのだから、なかなかに、大変なんだなぁ、ピボット方式(笑)。

 ハイパーテキストのリンクについては、まだ意味付けリンクは張っていないと思った。だから、なんとなく相互に無意味なリンクやトラックバックが有効なのだろうと、想像した。

 しかし、そういうことは、すべてGoogleも分かっているはずだから、そのうち先端AIが組み込まれていくと、ランキングに関係するコンサルタント業も、先行きが難しくなるかもしれない。

 つまり、ずばり、現代のランキング・アルゴリズムはまだ言葉の表層や、記事の形式に準拠した黎明期であろう。
 世界中の優秀な研究者やその卵を集めているのだから、研究室内部では高度なものが出来上がっているだろが、アルゴリズムが高度になると、マシンパワーが問題になる。キーワードを入れて十秒かかるシステムはGoogle としては出せない。
 建設中とか番組で紹介されていた、新しい強力なマシン・システム群によって、ランキングの評価システムもがらりと変わるのかも知れない。

 まともな記事がまともに扱われるGoogleランキング判定になると、コンサルタント業は困るだろうと書いたが、よいコンテンツを造る需要が生まれる。すると、「読者にとって良い記事」とはどんなものを指すのか。おお、そうか、今度はそういうコンサルタントが生まれてくる。

 イメージをランキングするアルゴリズムは余にもようわからない。評価着目点は、イメージに付いているタイトルや発信者なのだろうか。標準イメージを決定し、それとの差分を見るのか。ただ、素人の余からするなら、イメージの判定は難しい。人手がいるような気がした。たとえばもしも公序良俗に反する動画・静止画がランキング上位に漏れ出すと、こまったことになる。

おわりに
 ああやはり、好きな世界だから、ついちょっと気を許すと書き終えてどわっと疲れがでた。そろそろ夕風呂にはいって、夕睡しよう。
 今夜は、風林火山。
 今夜は由布姫もおなかが大きくなっておだやかになり、勘助と雪斎が活躍するのだろう。そうそう、ガクトは6月の後半かららしいが、なんだか、由井正雪みたいな(往年のジュリー:魔界転生)雰囲気だな、あはは。

| | コメント (0) | トラックバック (0)

2007年5月25日 (金)

KGRノート:仮想レファレンス

KGRノート
 検索エンジンで記事がランキング付きで表示されることの、意味を再考している。
 問題を先にしるすと。
 インターネット検索エンジンでは、記事は、検索する用語によって、記事の待遇が変わる。
 これまでのIR(情報検索)とは、異なる。これまでのIRは、データ群が静的に格納されていたわけだ。だから、利用者が適切な用語(シソーラスなどの利用)を、適切にブール式で組み立てて検索すれば、適切な解が得られる。これは再現性を伴う。同じ式、同じ用語なら、データベース更新がなされない限り、なされても、大変動を来さずに、ほぼ同じヒットを得られる。追加された記録は、追加された解として得られる。

 インターネットの検索エンジンでは、解はランキングに現れる。
 利用者の用いる用語は、ほとんど一語で済ませている。
 その一語や、二語の組み合わせで、同じ記事のランキングが大きく変動する。これが奇妙な感覚をもたらす。

検索の錯覚
 それが、問題なのだ。というか、どうすっきり考えればよいのかを、四月頃から考えている。
 列車に座っていて、停車していても、となりの列車が動き出すと、まるで自分の乗っている列車がうごいているように感じる。
 たわいないことなのだろうが、どうも、Googleなどの検索をしていると、そういう錯覚、奇妙な感覚に襲われる。

仮想レファレンス・実験をしてみよう
 Googleで実験してみた。
 対象(ターゲット)記事は、2007年5月22(火)に掲載したので、今日の金曜で4日目になる。

フェリエ:京都ブライトンホテルでカジュアルなディナー」。

 ブライトンホテルは、京都御所の西に位置する瀟洒なシティーホテル。フェリエはそこのレストランの一つ。ディナーの内容はオーストラリアン(風)。カジュアルという表現は、修辞。

 この記事をGoogleで求める人は、一体どんな用語を用いるのだろうか。
 そしてこの記事は、どういう場合にKGRが変化するのか?
 司書の卵程度に、インターネットを理解している人による仮想レファレンスを想定してみる。
 
 (KGRとは、順位÷検索総数(母数)×10万 )→この意味は別記事を参照。

 仮想の利用者1は、京都にもレストランにも詳しくなく、「京都の御所のあたりのホテルで、美味しい物が食べられるようだ」程度としておく。利用者2は、フェリエというレストランを知っている程度。……。以下、なんとなく曖昧な利用者を数名想定してみる。
 Google条件は、全言語対象。表示は50件単位とし、そこにMuBlog記事がなければ「無」とする。
 事例は、Googleの検索結果から、あらかじめKGRを算出し、その順にならべた。
 分析もつけておいた。

事例とKGR指標の分析

1 3.58
 利用者4:ちょっと京都に行って、ホテルでカジュアルな食事をしたい。 
 想定語群: {京都 ホテル カジュアル レストラン}
 Google結果: 11(位)/307000(検索総数:母数)
 KGR指標: 3.58kgr(070524){京都 ホテル カジュアル レストラン}
 分析: 用語はどれも一般的で曖昧だが、KGRは一番になった。
   「カジュアル」に多少難がある。
   こういう言葉で検索するだろうか?
   しかし、KGR指標が1以上10以内なので、記事と用語群がうまくマッチし、記事の待遇も良いと考えておく。

2 7.94
 利用者3:京都のブライトンでディナーとりたい。
 想定語群: {京都 ブライトン ディナー}
 Google結果: 1/12600
 KGR指標: 7.94kgr(070524){京都 ブライトン ディナー}
 分析: 用語群に難はない。ブライトンホテルは著名なので、こういう事例は多いだろう。
   KGR指標が1以上、10以内なので、
   妥当な用語、妥当な記事と言える。

3 20.08
 利用者1:京都御所の近所に、おいしいレストランのあるホテルがあるようだ。
 想定語群: {京都御所 レストラン ホテル}
 Google結果: 49/244000
 KGR指標: 20.08kgr(070524){京都御所 レストラン ホテル}
 分析: 曖昧すぎる用語群だが、京都御所という施設名で限定できた。
   KGR指標が20というのは、記事がそこそこの待遇を得たと判断できる。
   ただし、Google のランキングは49位なので、実用性からは疑問が残る。
   検索母数が24万というのは、ヒットが多すぎることを意味し、それは用語群が凡庸であるとも言える。

4 25.64
 利用者6:京都のホテルで、オーストラリアン風の食事ができるそうだ。
 想定語群: {京都 ホテル オーストラリアン}
 Google結果: 3/11700
 KGR指標: 25.64kgr(070524){京都 ホテル オーストラリアン}
 分析: KGR指標としては3(利用者1)と似通っているが、母数が一桁異なる。
  オーストラリアンという用語が記事にマッチしたのだろう。
  だから記事の待遇としては、3(利用者1)よりも劣るが、Googleで3位という点では実用的である。

5 1088.92
 利用者5:ブライトンのフェリエでメシ喰いたい。
 想定語群: {ブライトン フェリエ}
 Google結果: 6/551
 KGR指標: 1088.92kgr(070524){ブライトン フェリエ}
 分析: この場合、記事待遇が悪いというよりも、
  マイナー世界なのだろう。
  つまり「フェリエ」というレストラン名は、ブライトンというホテル名に比べると知名度が低いと推量できる。

6 1214.57
 利用者2:フェリエというレストランが京都にある、そこでうまいランチかディナーがあるそうだ。
 想定語群: {フェリエ 京都 ランチ ディナー}
 Google結果: 3/247
 KGR指標: 1214.57kgr(070524){フェリエ 京都 ランチ ディナー}
 分析: さらにKGR指標は弱くなっている。
  母数も少なく、マイナ世界である。

以上のまとめ
 事例をみていて、検索用語群として、一番適正なのは2番目の、
 7.94kgr(070524){京都 ブライトン ディナー}
 と、考えた。

 記事内容が妥当なのか。
  (Googleなどの記事判定アルゴリズムで左右される)
 検索用語が妥当なのか。
  (記事判定アルゴリズムでの、用語の扱いと一般利用者の使用傾向)
 双方の関係バランスで、変化する。
 どうなんだろう、と今朝もKGRのことを考えこんでしまった。

| | コメント (1) | トラックバック (0)

2007年5月11日 (金)

「地名 桜」でのGoogle検索記事(MuBlog)のKGR指標による分析

承前:新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

↓初稿:2007年5月11日(金)

(1)はじめに
 MuBlogの記事には例年「桜」記事が多い。これは関西を中心に、各地へ観桜にでかけ記録したものである。2004、2005、そして2007年のものが多数ある。毎年春になると、桜関係記事への当MuBlogアクセスが高まる。

 ここでは、一般利用者に好まれる季節の「桜」記事を、一般的な用語の組み合わせによって検索したとき、MuBlogの記事がGoogleなどでどのような待遇を受けるのかを、KGR指標で確かめてみた。

 今回は、MuBlogに直接アクセスしてきた用語集からは分析せずに、人が桜をイメージしたとき、どのような用語の組み合わせが、現実の記事と相補的な関係を持つのかを確認した。よって、本論の趣旨は、検索する利用者の「用語の組み合わせ」と、実際の個々の記事とを一体化した方法の分析である。

 記事は、インターネット上に、利用者の用いる検索用語とは独立してある。だから、用語が適切で無ければ記事は無きに等しい。他方、適切な用語を用いても検索されない記事には、何かの問題がある。もちろん、これらの関係を繋ぐものは、Googleなどの検索サイトによる記事判定アルゴリズムであるが、本論ではこれを不明として扱う。

 なお、KGRとは、「キーワードのグーグルにおけるランキング・レシオ」の意味を持ち、具体的には、検索結果の記事順位を検索総数で割り、10万の係数をかけた値である。その数値は、総数を母数と言い換えると、10万母数の中での順位に相当し、インターネット上での当該記事が受ける待遇の指標となる。(参考1)

(2)対象とした桜記事と場所(地名)
 今回対象とした桜記事は、MuBlogで2004、2005、2007の3~4月を中心とした各年約1ヶ月間に掲載された季節物の記事(および写真)である。この詳細は、目次記事および2007年分については写真ファイル「2007桜」(参考2)に挙げておいた。具体的には、以下の京都を中心とした、桜名所である。

 京都の祇園界隈(京都市)
    祇園、円山公園、高台寺、辰巳、辰巳大明神
 京都の伏見界隈(京都市)
    伏見、伏見港(旧称)、長建寺
 京都の嵐山・嵯峨野界隈(京都市)
    嵐山、大沢池、広沢池、佐野藤右衛門
 京都の中心部(京都市)
    平安神宮、平安神宮神苑、二条城、天神川
 京都の山間部(京都市)
    常照皇寺
 京都府(宇治市、及び井手町)
    「木幡」、宇治川、恵心院、地蔵禅院(井手町)
 大阪府
    淀川、淀川河川公園、背割堤

 以上の地域から記事を採取し、また用語もそこから選んだ。なお、京都府宇治市の「木幡」は桜の名所ではないが、作者の近辺地域として、テスト的に挿入した。
 これら地域のMuBlog 記事を検索するために、上記にあげた場所ないし施設名(寺名、個人名など)を、「場所 桜」という二語対として、24組にまとめた。2語対については、参考3を参照されたい。

 24組の2語対リストは、表「KGR指標によるMuBlog「桜」記事の分析」の、第四項目「キーワード(群)」にあげた。

↓クリックで拡大表が見られます。
Kgrsakura20070503b

(3) 表の見方
 表は、KGRの指標順にならべてある。具体的には、KGR指標が、10万件の検索結果に相当する順位(ランキング)になる。(参考4)
 KGR指標を、正確にあらわすと、たとえばKGR順位2の場合には、

 1.34kgr(070502){木幡 桜}

となり、得られた記事は、10万件総数に換算して、ほぼ1位(1.3位)相当となる。表から、この記事はGoogle でも「ヒット順位」が1位になっている。
 指標が「観測日」と「キーワード(群)」によって修飾され制限を受けているのは、インターネット世界およびGoogleの性格から導かれたものである。インターネット世界は日々記録が更新・増加し、これによって検索サイトの1つであるGoogleの検索結果(順位や総件数)が流動的となり、さらにそれ自体の順位判定アルゴリズムも常時変化するからである。

 表の右端欄「KGR判定」は、現在は仮に付けたもので、今後ともこの欄の解釈は変更することがある。現今の解釈は以下になる。

 特殊: おおむね、KGR指標が1以下を特殊としている。これは指標に10を乗じれば、Google総数が100万台の場合の順位に相当する。すなわちKGR順位1の0.82の場合、8.2となり、おおよそ100万母数での、8位相当と読み替える。これは通常から外れた異様な順位と言える。

 現今のGoogleでの標準形式、すなわち、単語の並記をANDとし全言語対象の場合、検索結果が100万を超すのは、一般に「情報検索」の常識を越えている。もとより、それが10万であろうが、1万であろうが、旧来の情報検索からは大きく外れた様態なのだが、経験的に、現今のGoogleで100万を超えた場合は、検索用語が不適切と考えられる。
 ここではキーワード群{伏見 桜}が不適当という判定を下し、特殊とした。伏見には京都市伏見区以外にもあり、用語としての特定が弱い。

 記事力Ⅰ: ヒットした記事がインターネット世界のGoogleサイトで、高水準の待遇を受けているクラスと判定した。KGR値としては、1.00~9.99をその範囲としている。おおよそ、検索結果(母数)が10万レベルで、1~10位相当の順位を持つ。
 この数値も、MuBlogの記事内容からして、常識を外れていると言えるが、先回の表(参考1)の結果と見比べて、現在の様態からは、「記事力1」と仮に判定しておく。この範囲に収めた11記事のうち、実質的なヒット順位1~10位の記事が8件となり、これは大多数がGoogleのいわゆる第1ページに表示されるといえる。
 なおこのクラスの、Googleによるヒット順位の平均は、12.5となり、母数の平均は290309(約29万)である。

 記事力Ⅱ: 記事が順当な順位待遇を受けているクラスと判定した。KGR値としては、10.00~99.99をその範囲とした。おおよそ10万レベルで100位までの順位を持つ。記事力1からみると見劣りする待遇といえる。
 なおこのクラスの、Googleによるヒット順位の平均は、17.6となり、母数の平均は62363(約6万2千)である。

 記事力Ⅲ: KGR値がおおよそ100~400であり、上記の論述の流れでは、圏外の指標ともいえる。
 しかし、表内の全体から見てみると先頭の「特殊」判定との対比で、別の解釈もありうる。Googleによるヒット順位の平均が9.8となり、母数の平均は7043(約1万)であることから、1万レベルの母数では10位内外相当の順位となる。このことから、母数(検索総数)平均が7千程度であることに主眼をおくと、このキーワード群で表されるインターネット世界は比較的マイナーだったとも言える。

(4) 検索用語対(2語対)とKGR指標に関する分析
 従来の情報検索理論では、特定データベースの特定記事(データ)総量に対して、どのような用語の組み合わせや、どのような用語間の論理式(ブール代数)によって、適切な(ヒット)記事を得るかという考え方だった。ヒット数は場合によるが、数件から数十までが妥当であり、緩い制限のヒット記事を網羅的にリスト化する場合でも、数百件を妥当としてきた。このような世界では、ヒット数が数千、数万もある場合、それは「クズ」ばかりを意味し、別の視点から言うと何も無かったことに等しい。

 しかし現代の、インターネットにおける検索サイト(エンジン)は、結果が数千~数十万あるのが自然な姿である。もちろん、利用の殆どは一般的な利用者による簡易検索が中心で、適当な用語を1個ないし数個用い、そこに厳密なAND、OR、NOT式を使う事例は殆どない。用語の並記によって暗黙のANDを使っているのが通常の姿である。
 このような世界では、ヒットしたかどうかの判定は、検索結果の総数よりも、どのような順位で記事が表示されたかによってなされる。すなわち、第1ページに現れる10件程度の記事(記録)が、いわゆる利用者にとっての適性解と見なされるのが通常である。
 であるなら、次に、そこで用いるキーワード(群)はどのような形式が妥当なのかという問題が生まれる。

 本論では、「桜」を例にとって、「地名 桜」という2語対でのGoogle検索の妥当性を、KGR指標を軸にして確かめた。「地名 桜」によって得られた記事のKGR指標を1位~24位までに並べ替え、それを(3)で示したように、特殊、記事力Ⅰ~Ⅲと分類し、判定した。

 「特殊」としたKGR順位1は、{伏見 桜}を用語とし、母数が85万2千となり、KGR指標も1以下の高得点を示した。このことから、{伏見}という用語が、記事を特定するには弱いものと判定した。伏見は確かに、表で示した他の地域ほどには、桜に関して著名ではない。

 「記事力Ⅰ」としたKGR順位2~12は、母数の平均も29万台で記事数が多いことから、ここで用いられた地名が桜に関して高名であることが推定できる。(ただし、KGR2は特例である。)また、それに対応して、当該MuBlog記事がネット上で高い待遇を得ていると推定できる。

 「記事力Ⅱ」としたKGR順位13~20は、母数の平均も6万台で、記事力Ⅰに比較すると小さい。すなわち、ここで用いられた地名は、一応著名ではあるが、やや特殊に属する。感性的には、{常照皇寺、佐野藤右衛門、広沢池、地蔵禅院}などの地名は、桜をよく知る人だけが知る地名と推定する。その中での記事の待遇は、普通、というのが妥当であろう。いわゆるGoogle先頭ページに入るのは3つ(KGR順位13、15、17)だけで、KGR指標から見ても高待遇とは言えない。

 「記事力Ⅲ」では、感性的に、地名{辰巳大明神、恵心院、背割堤、長建寺}は、他に比較してあまり知られていない所といえる。よって、おおざっぱな判定ではあるが、この記事力Ⅲの位置づけは、マイナー世界を表しているともいえる。KGR順位21、22、24の3つに限れば、ヒット順位が1位、1位、3位となっているので、マイナー世界の中では、記事の待遇は高いが、それは10万母数を基本に考えると、インターネット全体の中では記事待遇が低いと言える。

(5) まとめ
 MuBlogが掲載した記事から、24組の{地名 桜}用語を選び、それをGoogleによって検索したところ、比較的ヒット順位の高い結果を得た。次に、これらからKGR指標を算出し、その順に並べ変え「KGR指標によるMuBlog「桜」記事の分析」表を得た。

 この表の分析によって、比較的著名な桜名所のMuBlog記事が上位を占め、これを「記事力Ⅰ」に分類した。次に著名ではあるが特殊な地名の検索結果を「記事力Ⅱ」とした。「記事力Ⅲ」には、検索母数が1000未満の、いわゆるマイナー地名の記事が集まった。

 以上の結果は、サンプルが24組と少なく、一般的な検証に耐えるものではない。しかし、次のような傾向は明確に現れた。
 1.{地名 桜}という2語対によるGoogle検索は、KGR指標の高いものが、約半数(12組)を得た。
 2.検索母数が1000を切る場合には、当然KGR指標は悪化するが、その中の3/4は実質のヒット順位が1位と3位だった。

 以上の1からは、2語対検索の妥当性、ないし、MuBlog記事の高待遇が現れている。このような場合、一般には、検索用語の組み合わせが良かったからと判定するか、あるいは記事内容が優れているからと、どちらかに論が傾く。しかし、本論では、それを次のような仮説としてまとめておく。

 仮説A: Google等の検索エンジンは、明確な名詞を含む2語対によって、KGR指標の高い記事を検索する。
 仮説B: KGR指標が高い記事とは、すなわち、明確な名詞を含む2語対によって生起する。
 補足:明確な名詞については詳細を保留する。本論実験では、「地名(施設名)」がそれにあたる。

 また以上の2からは、同上の条件下にあっては、検索母数が1000を切る場合、マイナーな世界と考えられる。そこから次の仮説をまとめておく。

 仮説C: KGR指標が100を越えて悪化した場合、記事母数を勘案すれば、場合によっては、マイナーな世界を想定できる。
 仮説D: 仮説Cにあって実質ヒット順位が高い場合(最初の一頁に現れる場合など)には、KGR指標算出に用いた係数10万を、1万に変更し、マイナー世界での記事待遇が高いと判定するのが良い。

(*) 補遺
 次回は、桜に限らず、MuBlogにアクセスされた高頻度の記事のKGRを算出し、それがどのような用語によって検索されたかの傾向を確かめてみる。

参考文献・記事
参考1: KGR指標の解説
 KGR:blogアクセス「キーワードと記事」の記事力(利用者求心力)指標によるMuBlog記事の分析 (MuBlogより)

参考2: 対象としたMuBlog記事
 050420・目次:桜狩り (MuBlogでの2004、2005年の桜記事目次)
 2007桜 (MuBlogでの2007年の桜写真)
 京桜たより:20070330 地蔵禅院・嵐山・広沢・佐野藤右衛門邸 (MuBlogでの、2007年の桜レビュー記事)

参考3: 2語対について
 研究情報ネットワーク論/長尾真、原田勝、石川徹也、谷口敏夫、久保正敏、澤田芳郎 共著. 勁草書房、1994.3(目次詳細はMuBlog当該記事参照
 上記の第9章(9.1.3 2語を対とする検索についての書誌・目次情報の性質)以下に詳述したが、情報検索にあっては、2語の組み合わせ(ANDとする)を基本とすることで、爆発的な組み合わせを招かず、妥当な検索結果が得られるという考え方による。

参考4: KGR指標の正確な記述
 新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

| | コメント (0) | トラックバック (0)

2007年5月 3日 (木)

新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

1 はじめに
 2007年4月29日に発表したKGR指標(インターネット上での記事の重み)について、同5月3日に3種類{Google, Yahoo, goo}の検索サイト(エンジン)で検索した結果、次のような結果を得た。用語「KGR」は意味的には新語なので、指標がどう出るか予測できなかったが、意外に上位にランキングされていた。

KGRとGoogle

新語「KGR」のGoogleでの検索結果
KGRとYahoo
新語「KGR」のYahooでの検索結果
KGRとGoo
新語「KGR」のgooによる検索結果

↑各画像をクリックすると、個別データが見られます。

2 新語「KGR」の検索結果
 検索結果は画像に記録したので、それを参考にしていただきたい。以下、その結果をまとめ、表記方法について、若干の補正を行った。
 新用語「KGR」によって検索された記事は、3者ともKGR初出の、
 KGR:blogアクセス「キーワードと記事」の記事力(利用者求心力)指標によるMuBlog記事の分析
だったが、Googleの場合のみ、第5位に次の記事が表示された。
小説木幡記:20070501(火)長期休暇とKGRメモ

・GoogleでのKGR指標
  0.38kgr(070503){KGR}
・YahooでのKGR指標
  2.59kgr-Yahoo(070503){KGR}
・gooでのKGR指標
   55.40kgr-goo(070503){KGR} →標準検索による。全言語対象では、4.29kgr-goo(070503){KGR}

 諸元は、Googlの場合、実質4位(母数:1060000記事)で、0.38というKGR指標は、10万記事あたりでは特殊扱いとなり、100万記事あたりでは、3~4位相当になる。
 Yahooの場合、実質12位(母数:463000記事)で、2.59というKGR指標は、10万記事あたりでは2~3位相当になる。
 gooの場合は、実質2位(母数:3610記事)で、55.40というKGR指標は、10万記事あたりでは55位相当になり、1万記事あたりでは5~6位相当になる。

 ここでKGRの表記について修正をしておく。4月29日付けでは、0.38kgr(070503)としていたが、末尾に検索に用いた用語群を追加する。よって、今後、0.38kgr(070503){KGR}のように、「KGR指標、日付、検索用語群」の三要素でKGR指標を構成することにする。

 なお、比較に用いたYahooやgooは、その検索サイト名を、kgr-Yahooのように付記した。
 日付や、検索用語を指標に付けたのは、インターネット世界や、検索エンジンのランキング設定アルゴリズムは、流動的で、恒常的指標が成立しないと判断したからである。

3 分析
 数日前に作った新語「KGR」が、三つの検索サイトによって、上位にランキングされた事情を考えてみた。
 ここで、各検索エンジンのランキング判定アルゴリズムは不明という前提で話をする。おそらく、各社いくつものアルゴリズム(手順とか、方法論。方程式と考えても間違いではない)を調整しながら、次々と変更していくのだろう。つまり、利用者に最適解と思われるだろう出力が出るように、調整しているわけである。その内情は、漏れ聞こえたり、研究論文レベルでかいま見えたりはするが、確証はない。一般論と、固有のエンジンの詳細は時期によって、異なるものである。

 そこで。
 「KGR」という新語が、何故各種検索エンジンで、一過的にせよ、4位、12位、2位という好待遇を得たのか、それを推測することによって、KGRの意味付けを強化した。

3.1 網羅性
 網羅性というのは、特定用語で、どれだけ余すところ無く検索したのかという意味と、検索サイトがどれだけこの世の関係データを集積したのかという、二方向から考えられる。
 3者の同一用語「KGR」によって得られた記事数(母数とする)は、1060000、463000、3610(全言語だと、69900)となり、Googleが百万レベルであるのは、異様な数値といえる。三者は概略で、KGRという用語に対して、百万、十万、万のレベルの網羅性だといえる。

 ここで前後したが、検索オプションは、Googleで100件表示を選んだ以外は、すべて各社の提供するディフォルト(標準)状態で行った。これらの一般検索条件を見た結果が上記内容である。gooの場合のみ、「日本語のみ」オプションが標準だった。ここでgooを補正すると、3位で母数が69900となり、4.29kgr-goo(070503){KGR} となり、実質3位で、10万記事あたり4位相当となる。

 しかし、網羅性は一概には言えない。gooに見られるように、標準で日本語のみを対象にしているのと同じく、ランキング判定アルゴリズムの中に一定の(利用者には見えない)フィルターをかけて絞り込みをしている場合もあるかも知れない。A社は巨大な母数を示し、それで安心感を持たせている方針をとり、B社は事前に絞り込みをして、利用者に精度を提供しようとしているのかもしれない。この間の事情は、不明とした方がよい。何故なら、識者や関係者が一定の見解を述べたとしても、その時々の一瞬の調整で、真に特定の関係者しか、いまカレントな、ランキング判定アルゴリズムを確認できない可能性もあるのだから。

3.2 適合性
 一般に情報検索の適合性とは、得られた結果がどのくらい利用者にとって、有意義であるかの判定指標である。だが、上述の網羅性に比べて「適合性」問題は、インターネット世界では、従来の考え方では役にたたなくなった。あるいは、新しい「適合性」を考えねばならない時代ともいえる。その指標の一つが、ランキングである。

 そこから「利用者は最初のページしか読まない」「最初のページに出なければ記事は無意味」「最初のページに記事が出るように画策しよう」という話が世上を騒がせる。

 しかし、ランキング判定アルゴリズムに関しては、検索サイトも努力をしている。たとえば、「SONY」という用語を入れてみれば、ほとんどの検索サイトでは、メーカーとしてのSONYの公式ページが先頭に出る。一般利用者の実用性を考えるならば、こういった仕組みは、人海戦術であれ、提携であれ(不明)、簡便なアルゴリズム、なんであれ、新しい情報検索においての、あたらしい「適合性」を創出したといえよう。

3.3 KGR指標と記事力、あるいは「記事待遇度指標」
 4月末の最初の論考では、KGR指標を「記事力」と言う風に仮に名付けた。しかし今回、一過的かもしれないが、「KGR」という新語が、数日後には突然10万記事あたりで、10位以内に入ったのを確認し、考えを少し修正することにした。何故なら、だれも知らないであろう新語「KGR」に、記事が持つ意義は、だれにも判定できないことに気付いたわけである。

 記事・情報発信者の立場に限定して、いまここで言えることは、「順位÷総件数(母数)×10万」、この単純な式によってKGR指標を出し、その指標によって現在確実にわかることは、当該記事がインターネット世界でどう待遇されているか、それが誰にでも判定できる、そういう指標であるとする。

 よって、KGR指標は、根底には記事力の判定を持っているが、客観的には「記事待遇度指標」とするのが、より正確といえる。

3.4 「KGR」が高い指標を示した推測理由
 一般論としては、タイトルに用語「KGR」があるから、などとも言えるが、おそらく別の要因だと考えている。当然だが、当MuBlogサイトはあらゆる情報関係企業や、あらゆるランキング判定アルゴリズム開発実務者とは全く無縁である。となると、推測できるのは、3年間にわたる継続蓄積と、マイナーではあるが、日々数百のアクセスが持続している事実、こういう実績度が、MuBlog発の記事を一定の条件でランキング判定アルゴリズムの要素に付加している可能性がある。

 推測、憶測をいくら重ねても無意味ではあるが、客観的に私が自然語を中心にした検索エンジンを造り、そのランキング判定アルゴリズムを作るとするなら、集積した巨大データベースから、まず記事発信サイトと、記事数と記事容量とリンクとコメントなど、表層的情報を別テーブルに蓄積し、そこを元に第一次判定を行うであろう。そのあとで、当該記事の形態素解析、意味解析などを行って、用語の頻出パターンや、文章内用語間の関係、あるいは用語専門辞書による解析など、……。そういう手法は、自然言語処理研究世界ではすでに実績があるだろうから、それほど難しい問題ではない。

 ただ、理屈だけでなく、適合度を常に計る体制によって、それらはなされていくのだろうし、現代の検索サイトが今後どんな風になるのかは、中核の関係者以外には不明というのが、客観的な答だといえる。

4 まとめ
 新語「KGR」を、記事公開数日後に検索サイトで確認したところ、KGR指標が高い結果(数値が小さい)を得た。本記事では、その記録確認と、KGR指標表記の若干の修正とを行った。また、KGR指標は最初に述べた「記事力」というよりも、「記事待遇度指標」とするのが確実であると、これも修正した。

 分析にあっては、こういった新語が高いKGR指標を持つた理由を不明としたが、一定の推測を交えた見解を表明した。すなわち、情報発信者の実績(年限や記事数、記事容量)が一つの要素ではないかという、仮説である。

 しかしなお、仮説にとどめたのは、検索サイト側の事情は常に流動的なのだから、その仕組みや考え方を追跡する前に、所与のインターネット世界で、KGR指標のような尺度が、情報発信者(PML:個人電子図書館)にとってどういう意味を持つのかを、検証することに力を注ぎたいからである。

 次回は、特定用語と検索結果について、考察したい。

| | コメント (0) | トラックバック (1)

2007年5月 1日 (火)

小説木幡記:20070501(火)長期休暇とKGRメモ

 最初の起床は午前三時半だった。ジュースを飲んで、さてと思ったが、もう一寝入りしたら、午前五時だった。
 塩水療法していた「グリ銀」君がみまかった。合掌。
 と、あれこれ追悼と思ったが、止めておく。思い出すと寂しい。

 『夜麻登志宇流波斯』の第70回目を書こうとしたが、これは「お知らせ」で連休中不定と書いていれておいた。あの作品は書くのも読むのむ相当に重いし、キツイので、お休みくらいは自由にしようと突然思ったわけ。日曜作家、早朝作家の気楽なところを有効利用した。

 さて。湯治にでもでかけて心身楽にしましょう。

 この四月は例年以上にしんどいことが多かった。何が原因? と分析しかかったが曖昧にしておくことにした。つまりは、虚弱体質の上に、昼の仕事の授業も会議も内容が難しかったからなのだろう。いずれも、本当は昨日今日のことじゃないのだから、軽く考えてもよいのだが、それでもちゃんといけるのだが、人の心はおかしなもので、晩節を汚してはならぬという、曖昧な気持がむくむくわいてきて、いろんなことを検証し始めたのが、しんどい原因だったのだ。

 検証というのは、自己反省とか他人批判のことじゃない。両者はペアなんだろう。自分の方法論と他人や組織の方法論はペアなんだ。作家と作品と読者の関係にも通じる。なにが最良というよりも、その仕組みをちゃんと理解しておきたいという気持が、この四月に湧いた。

 嵯峨野にうまい蕎麦をだす店がある。遠い。車で通う。美味い。若干高価だ。
 美味いと感じるには年季がいる。蕎麦をたべたこともない宇宙人には無意味な世界だ。
 しかし、美味いと思わせる蕎麦を作るにも年季がいる。味オンチの者にはどんな風に造っても無意味だろう。
 美味いと思う余がいて、美味いと思わせる蕎麦をつくって、そこに若干の高額や、若干のガソリン代を媒介にしたとき、初めて余は満願の笑みをみせ、店主も深々と「また、お越し下さい」と声をかける。

 余と蕎麦とはペア。うまくスリ合わさったとき、双方に利得がある。
 組織と余。
 余と学生(授業)

 情報検索も、そういうことなのだろうと、深々と味わった。現代は用語(自然語)による検索エンジンが普及している。昔から、精度がどうの、網羅性がどうのと、その世界ではいろいろ研究されてきた。
 数日前に、KGR指標という、実に簡便な方法論を考えてみた。
 そこで二つ気がついた。

1.用語と記事とは、ペアなんだ。
 適切な用語でGoogleなんかを使った時に、適切な記事が出たときに、KGR指標は適切になり、つまり、適切な情報検索をしたことになる。

 ああ、なんとなく禅問答じみてきた。
 つまり、適切な用語を思い浮かべない利用者にとっては、適切な記事も無意味と言える。
 さらに、適切な用語を使っても、適切な記事がでない検索エンジンは、無意味と言える。
 適切な用語を用いて、適切な記事を得られたとき、その利用者は幸せだし、記事作成者もハッピーだし、検索エンジンも上等なんだ。

 用語で検索するという現状では、{用語と記事}とは、一体のものなんだろう。両者をわけて考える「検索理論」は袋小路に入ってしまうでしょうなぁ。

2.KGR指標への利用者視点
 余がKGR指標を考えていたとき、それは情報発信者の立場として、MuBlogの個々の記事がこのインターネット世界でどのような位置を得るのかという観点だった。
 その記事を、そのスジの教授に見せて「ちょっと、どうだろうね」と聞いてみたら、すぐに返事があった。そしたら、ああ、やはりそのスジの教授だけあるよね(笑)、意外な回答が寄せられて、余は愕然とした。

 それは、こうだった。

Mu先生、面白いですね。
つまり、グーグルで検索するときは、ヒット数を1万から10万までくらいのヒット 数になるように、絞り込む(あるいは、一般的な言葉にする)、そうしたら、1~1 0番目くらいまでに、必要なサイトが出てくるということでしょうか?

 上記はもちろん、極めて、マイナーな対象を探す場合には補正しなければならないが、一般的な利用者検索として、Googleの場合には当てはまることだろう。
 カレント(今、とれとれの、新鮮な)な情報検索は別件として、
   ある程度の母数(検索総件数)がないと、安定した記事は見つからない。
   母数が50万とか100万の場合には、検索用語(群)が不適切。
   この両者の兼ね合いが、KGR指標で分かるということだ。
   余の推測では、おそらく、KGR指標が、1~100くらいの間に、良い記事がでてくるだろう。

 ただし、当たり前だが、Google以外では、KGRの係数10万は変更する必要がある。
 また、KGR指標は、検索用語群と、検索日時によって成立するもので、不変のものではない。
 (余が、しつこく、3.91kgr(070430)というように、日付を付けたのはそういう意味である)
 (KGR指標の時系列遷移なんて、おもしろいが、ちょっとシンドイ)

 さて、長い休暇。
 湯治、小説、ビデオ、散歩。いろいろある脳。

| | コメント (2) | トラックバック (0)

2007年4月29日 (日)

KGR:blogアクセス「キーワードと記事」の記事力(利用者求心力)指標によるMuBlog記事の分析

(1)はじめに
 Googleなどの検索エンジンで、キーワードによる記事検索をした結果、ヒットした記事リスト上での記事順番は「記事のランキング」として一定の意味を持つ。しかし、同じ条件でどれだけ競合する記事があったかによって、そのキーワードやヒットした当該記事の重みは変わってくる。これを比較検討するためにKGR指標を考えてみた。
 用いたキーワード(群)は、「三十四万アクセス」で得た、MuBlogへのアクセス頻度が高いものを使った。

 以下事例に示す指標は、数値が小さい方が、「キーワードと記事」との関連が深く、キーワードが妥当ならば、記事力(記事が持つMuBlog内外での利用者求心力)が強い。かつ同等条件における他記事との比較が可能となる。

(2)KGR指標の計算式
 KGR指標キーワード(群)でヒットした記事の検索エンジン内順位/ヒット記事総件数*100000

 係数10万(100000)は、指標の簡明さの為に用いた経験的数値である。実験対象blogのMuBlogでは、ヒット記事総件数が564000で、ランキングが2位の事例があったことによる。現状ではこれがMuBlog内の「キーワードと記事」の重みに関して、上限と考えられる。

(3)表記事例
 KGR指標(単位kgr、日付):小数点以下3桁で四捨五入し、小数点以下二桁表示とする。
  キーワード{京都 大型書店}
  2位/564000件 * 100000 → 0.35kgr(070428)

  表記キーワード(群)で、2007年4月28日にGoogle検索した結果、ヒットした記事の総数が564000で、当該MuBlog記事「京都の書店」の順位は2番目だった。

(4)KGR指標のサンプル
 2007年4月28日に検索エンジン・Googleから採取したサンプルデータから、blogアクセスキーワードのKGRを算出した。検索に用いたキーワードは、「三十四万アクセス:MuBlogの分析」の末尾から採った。

→下記表をクリックすると、フルサイズの表を見ることができる。
Kgr_3

(5)KGR指標(サンプル)の分析
 表から、KGR1位については、判定を特殊とした。初期の情報検索理論にもあるが、一般には一定の枠組みの中で極めて特徴的な現れ(他から外れた高頻度などを指す)を示すものは、特殊と判定するのが妥当と、経験的に言われている。その特徴の原因が有意味であることもあるが、おそらく特殊な条件の結果であろう。この場合、0.35kgr(070428)はGoogleによるヒット母数が56万となり、キーワード{京都 大型書店}は一般用語に近い。よって、情報発信をする個人の心性からみると有意義なことではあるが、KGR指標という客観的な数値判定から見るならば、ノイズと考えるのが妥当である。
 (ただし、私はこの記事「京都の書店」への好感度は高い)

 KGR2位~KGR8位までの記事がMuBlog総体の中で記事力(利用者求心力)が高いと考えられる。よってこれらの記事を、「高・記事力」を持つと判定した。4.5kgr(070428)~16.26kgr(070428)という数値は、今後の目安となる。
 いずれの記事も、記事タイトルとキーワード群とが直接マッチしている事例が殆どなので、利用者求心力は、利用者が使い易いキーワード(思い浮かべ易い固有名詞)を持った記事タイトルによって、強化されると推測できる。ただ、この点については試験に用いたGoogle等の記事判定アルゴリズムとの関係があるので、ここでは省略する。

 KGR9位以下を、「一般記事力」と判定したのは、このサンプルでは深く検証できないからである。試験的に分析するならば、次のような個別の特徴があると推測できる。

 ★KGR9位のキーワード「じょうしょうこうじ」、及びKGR10位の「うぶめのなつ」は共にひらがなでのアクセス事例である。KGR3位の「じぶり」はもともとの博物館名が「三鷹の森ジブリ美術館」だから、ひらがなないしカタカナ表記は明確な固有名詞の一部である。しかし、前2者は、こういうひらがな表記がインターネット上に普及していないのだから、該当するMuBlog記事のGoogleヒット順位が高くても(1位、2位)、MuBlog記事の真の記事力を表しているとは言えない。さらに、KGR9位以下の総てに言えるが、Googleによるヒット母数が3桁台で、上位に比較して小さく、KGR指標は大きくなる。これは比較する土俵が狭いと言えよう。

 ★KGR12位の「佐野邸」は、431.03kgr(070428)と、他の佐野藤右衛門関連記事に比べて、指標が悪化している。これはキーワードと記事とのアンマッチの好例となる。すなわち「佐野邸」という用語は、特徴的な固有名詞として特化するには至っていない。

 ★KGR13位の「リストランテ ティ・ボリオ・ベーネ」は、KGR1位「京都の書店」記事と対照的な指標数を出した。現状ではこれも判定として「一般記事力」に納めたが、2040.82kgr(070428)は特殊である。母数が98と非常に低いからそうなった。つまりそこにある総数98から、極めてマイナーな記事であることが分かる。
 これは現実の記事を参照すれば明確だが、このイタリアン・レストランの開設時期が2007年1月ころで、MuBlog 記事投稿が同年3月と、観測日の同年4月を合わせて考えると、カレントな意義は非常に高いが、一過性の可能性もある。
 インターネットメディアにおけるカレント(今、その時の、話題)な情報交換は重要なことではあるが、MuBlog自体は常に過去遡及、蓄積を目指してきたので(MuBlog:blogの情報処理ツールとしての可能性)、この場合、個人的には非常に好感度の高い記事だが、KGR指標による記事力が低い結果は、KGRの妥当性を示していると、考えている。

(6)まとめ
 MuBlog(PML:個人電子図書館と規定する:MuBlogのブロッグパーツについて)の記事にアクセスするキーワードを用いて、検索エンジンGoogleでの、同キーワード群による記事順位と、ヒット総件数を得た。
 この記事順位とヒット総件数から、KGR指標を作成し、これをMuBlog記事自体にフィードバックさせて整理した。
 この結果から、
 インターネットという客観的な「世界」の中での、個々のMuBlog記事の位置づけを見た。KGR指標の導入によって、検索エンジンでの順位のみで記事の意義を計るだけではなくて、実質的な記事力(利用者求心力)の尺度を得ることができた。

 ここに若干の想念を披瀝するなら、インターネット上の記事にあって、利用者の想定するキーワード群と個々記事とは「一体のもの」であると考えている。たとえば、「キーワード:長尾真」と「記事:長尾真のノート」は、両者が独立しているのではなくて、インターネットという仮想空間内に情報受容者と発信者の間に、ペアで「新たな生を得た」と、いえよう。

 今後は記事分析に、積極的にKGR指標を用い、その妥当性を見ていくことにする。
 なお、Googleを用いた事情は、注記に記した。

(7)注記
KGR命名由来
  KeyWord群のGoogleによるRanking(ratio)

検索エンジンGoogleを対象とした理由
 MuBlogをアクセス対象とした使用検索エンジンの統計を見た結果、下記のように過去4ヶ月の実績でGoogleがほぼ60%の使用率を得ていた。これは、MuBlogを検索する利用者の過半数がGoogleによるものと判定できる。

MuBlogを検索したサイト(検索エンジン)の統計
  解析対象期間: 2007年1月1日(月) ~ 2007年4月28日(土)
  集計対象アクセス数:36,229
  (この期間、実際のページアクセス数は88075で、訪問者総数は62798だった)
  (このことから、36229/88075*100→41%の利用者が検索エンジンを使用している)

  順位/検索/割合
  1 Google     21,410 59.1%
  2 Yahoo      9,370 25.9%
  3 goo      1,697 4.7%
  4 MSN     1,359 3.8%
  5 BIGLOBE     1,222 3.4%
  6 @nifty       575 1.6%
  7 Infoseek   321 0.9%
  8 Excite       124 0.3%
  9 NAVER       55 0.2%
 10 livedoor    51 0.1%

| | コメント (3) | トラックバック (3)