« 小説木幡記:20070510(木)身辺雑記 | トップページ | 小説木幡記:20070512(土)すがすがしい朝 »

2007年5月11日 (金)

「地名 桜」でのGoogle検索記事(MuBlog)のKGR指標による分析

承前:新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

↓初稿:2007年5月11日(金)

(1)はじめに
 MuBlogの記事には例年「桜」記事が多い。これは関西を中心に、各地へ観桜にでかけ記録したものである。2004、2005、そして2007年のものが多数ある。毎年春になると、桜関係記事への当MuBlogアクセスが高まる。

 ここでは、一般利用者に好まれる季節の「桜」記事を、一般的な用語の組み合わせによって検索したとき、MuBlogの記事がGoogleなどでどのような待遇を受けるのかを、KGR指標で確かめてみた。

 今回は、MuBlogに直接アクセスしてきた用語集からは分析せずに、人が桜をイメージしたとき、どのような用語の組み合わせが、現実の記事と相補的な関係を持つのかを確認した。よって、本論の趣旨は、検索する利用者の「用語の組み合わせ」と、実際の個々の記事とを一体化した方法の分析である。

 記事は、インターネット上に、利用者の用いる検索用語とは独立してある。だから、用語が適切で無ければ記事は無きに等しい。他方、適切な用語を用いても検索されない記事には、何かの問題がある。もちろん、これらの関係を繋ぐものは、Googleなどの検索サイトによる記事判定アルゴリズムであるが、本論ではこれを不明として扱う。

 なお、KGRとは、「キーワードのグーグルにおけるランキング・レシオ」の意味を持ち、具体的には、検索結果の記事順位を検索総数で割り、10万の係数をかけた値である。その数値は、総数を母数と言い換えると、10万母数の中での順位に相当し、インターネット上での当該記事が受ける待遇の指標となる。(参考1)

(2)対象とした桜記事と場所(地名)
 今回対象とした桜記事は、MuBlogで2004、2005、2007の3~4月を中心とした各年約1ヶ月間に掲載された季節物の記事(および写真)である。この詳細は、目次記事および2007年分については写真ファイル「2007桜」(参考2)に挙げておいた。具体的には、以下の京都を中心とした、桜名所である。

 京都の祇園界隈(京都市)
    祇園、円山公園、高台寺、辰巳、辰巳大明神
 京都の伏見界隈(京都市)
    伏見、伏見港(旧称)、長建寺
 京都の嵐山・嵯峨野界隈(京都市)
    嵐山、大沢池、広沢池、佐野藤右衛門
 京都の中心部(京都市)
    平安神宮、平安神宮神苑、二条城、天神川
 京都の山間部(京都市)
    常照皇寺
 京都府(宇治市、及び井手町)
    「木幡」、宇治川、恵心院、地蔵禅院(井手町)
 大阪府
    淀川、淀川河川公園、背割堤

 以上の地域から記事を採取し、また用語もそこから選んだ。なお、京都府宇治市の「木幡」は桜の名所ではないが、作者の近辺地域として、テスト的に挿入した。
 これら地域のMuBlog 記事を検索するために、上記にあげた場所ないし施設名(寺名、個人名など)を、「場所 桜」という二語対として、24組にまとめた。2語対については、参考3を参照されたい。

 24組の2語対リストは、表「KGR指標によるMuBlog「桜」記事の分析」の、第四項目「キーワード(群)」にあげた。

↓クリックで拡大表が見られます。
Kgrsakura20070503b

(3) 表の見方
 表は、KGRの指標順にならべてある。具体的には、KGR指標が、10万件の検索結果に相当する順位(ランキング)になる。(参考4)
 KGR指標を、正確にあらわすと、たとえばKGR順位2の場合には、

 1.34kgr(070502){木幡 桜}

となり、得られた記事は、10万件総数に換算して、ほぼ1位(1.3位)相当となる。表から、この記事はGoogle でも「ヒット順位」が1位になっている。
 指標が「観測日」と「キーワード(群)」によって修飾され制限を受けているのは、インターネット世界およびGoogleの性格から導かれたものである。インターネット世界は日々記録が更新・増加し、これによって検索サイトの1つであるGoogleの検索結果(順位や総件数)が流動的となり、さらにそれ自体の順位判定アルゴリズムも常時変化するからである。

 表の右端欄「KGR判定」は、現在は仮に付けたもので、今後ともこの欄の解釈は変更することがある。現今の解釈は以下になる。

 特殊: おおむね、KGR指標が1以下を特殊としている。これは指標に10を乗じれば、Google総数が100万台の場合の順位に相当する。すなわちKGR順位1の0.82の場合、8.2となり、おおよそ100万母数での、8位相当と読み替える。これは通常から外れた異様な順位と言える。

 現今のGoogleでの標準形式、すなわち、単語の並記をANDとし全言語対象の場合、検索結果が100万を超すのは、一般に「情報検索」の常識を越えている。もとより、それが10万であろうが、1万であろうが、旧来の情報検索からは大きく外れた様態なのだが、経験的に、現今のGoogleで100万を超えた場合は、検索用語が不適切と考えられる。
 ここではキーワード群{伏見 桜}が不適当という判定を下し、特殊とした。伏見には京都市伏見区以外にもあり、用語としての特定が弱い。

 記事力Ⅰ: ヒットした記事がインターネット世界のGoogleサイトで、高水準の待遇を受けているクラスと判定した。KGR値としては、1.00~9.99をその範囲としている。おおよそ、検索結果(母数)が10万レベルで、1~10位相当の順位を持つ。
 この数値も、MuBlogの記事内容からして、常識を外れていると言えるが、先回の表(参考1)の結果と見比べて、現在の様態からは、「記事力1」と仮に判定しておく。この範囲に収めた11記事のうち、実質的なヒット順位1~10位の記事が8件となり、これは大多数がGoogleのいわゆる第1ページに表示されるといえる。
 なおこのクラスの、Googleによるヒット順位の平均は、12.5となり、母数の平均は290309(約29万)である。

 記事力Ⅱ: 記事が順当な順位待遇を受けているクラスと判定した。KGR値としては、10.00~99.99をその範囲とした。おおよそ10万レベルで100位までの順位を持つ。記事力1からみると見劣りする待遇といえる。
 なおこのクラスの、Googleによるヒット順位の平均は、17.6となり、母数の平均は62363(約6万2千)である。

 記事力Ⅲ: KGR値がおおよそ100~400であり、上記の論述の流れでは、圏外の指標ともいえる。
 しかし、表内の全体から見てみると先頭の「特殊」判定との対比で、別の解釈もありうる。Googleによるヒット順位の平均が9.8となり、母数の平均は7043(約1万)であることから、1万レベルの母数では10位内外相当の順位となる。このことから、母数(検索総数)平均が7千程度であることに主眼をおくと、このキーワード群で表されるインターネット世界は比較的マイナーだったとも言える。

(4) 検索用語対(2語対)とKGR指標に関する分析
 従来の情報検索理論では、特定データベースの特定記事(データ)総量に対して、どのような用語の組み合わせや、どのような用語間の論理式(ブール代数)によって、適切な(ヒット)記事を得るかという考え方だった。ヒット数は場合によるが、数件から数十までが妥当であり、緩い制限のヒット記事を網羅的にリスト化する場合でも、数百件を妥当としてきた。このような世界では、ヒット数が数千、数万もある場合、それは「クズ」ばかりを意味し、別の視点から言うと何も無かったことに等しい。

 しかし現代の、インターネットにおける検索サイト(エンジン)は、結果が数千~数十万あるのが自然な姿である。もちろん、利用の殆どは一般的な利用者による簡易検索が中心で、適当な用語を1個ないし数個用い、そこに厳密なAND、OR、NOT式を使う事例は殆どない。用語の並記によって暗黙のANDを使っているのが通常の姿である。
 このような世界では、ヒットしたかどうかの判定は、検索結果の総数よりも、どのような順位で記事が表示されたかによってなされる。すなわち、第1ページに現れる10件程度の記事(記録)が、いわゆる利用者にとっての適性解と見なされるのが通常である。
 であるなら、次に、そこで用いるキーワード(群)はどのような形式が妥当なのかという問題が生まれる。

 本論では、「桜」を例にとって、「地名 桜」という2語対でのGoogle検索の妥当性を、KGR指標を軸にして確かめた。「地名 桜」によって得られた記事のKGR指標を1位~24位までに並べ替え、それを(3)で示したように、特殊、記事力Ⅰ~Ⅲと分類し、判定した。

 「特殊」としたKGR順位1は、{伏見 桜}を用語とし、母数が85万2千となり、KGR指標も1以下の高得点を示した。このことから、{伏見}という用語が、記事を特定するには弱いものと判定した。伏見は確かに、表で示した他の地域ほどには、桜に関して著名ではない。

 「記事力Ⅰ」としたKGR順位2~12は、母数の平均も29万台で記事数が多いことから、ここで用いられた地名が桜に関して高名であることが推定できる。(ただし、KGR2は特例である。)また、それに対応して、当該MuBlog記事がネット上で高い待遇を得ていると推定できる。

 「記事力Ⅱ」としたKGR順位13~20は、母数の平均も6万台で、記事力Ⅰに比較すると小さい。すなわち、ここで用いられた地名は、一応著名ではあるが、やや特殊に属する。感性的には、{常照皇寺、佐野藤右衛門、広沢池、地蔵禅院}などの地名は、桜をよく知る人だけが知る地名と推定する。その中での記事の待遇は、普通、というのが妥当であろう。いわゆるGoogle先頭ページに入るのは3つ(KGR順位13、15、17)だけで、KGR指標から見ても高待遇とは言えない。

 「記事力Ⅲ」では、感性的に、地名{辰巳大明神、恵心院、背割堤、長建寺}は、他に比較してあまり知られていない所といえる。よって、おおざっぱな判定ではあるが、この記事力Ⅲの位置づけは、マイナー世界を表しているともいえる。KGR順位21、22、24の3つに限れば、ヒット順位が1位、1位、3位となっているので、マイナー世界の中では、記事の待遇は高いが、それは10万母数を基本に考えると、インターネット全体の中では記事待遇が低いと言える。

(5) まとめ
 MuBlogが掲載した記事から、24組の{地名 桜}用語を選び、それをGoogleによって検索したところ、比較的ヒット順位の高い結果を得た。次に、これらからKGR指標を算出し、その順に並べ変え「KGR指標によるMuBlog「桜」記事の分析」表を得た。

 この表の分析によって、比較的著名な桜名所のMuBlog記事が上位を占め、これを「記事力Ⅰ」に分類した。次に著名ではあるが特殊な地名の検索結果を「記事力Ⅱ」とした。「記事力Ⅲ」には、検索母数が1000未満の、いわゆるマイナー地名の記事が集まった。

 以上の結果は、サンプルが24組と少なく、一般的な検証に耐えるものではない。しかし、次のような傾向は明確に現れた。
 1.{地名 桜}という2語対によるGoogle検索は、KGR指標の高いものが、約半数(12組)を得た。
 2.検索母数が1000を切る場合には、当然KGR指標は悪化するが、その中の3/4は実質のヒット順位が1位と3位だった。

 以上の1からは、2語対検索の妥当性、ないし、MuBlog記事の高待遇が現れている。このような場合、一般には、検索用語の組み合わせが良かったからと判定するか、あるいは記事内容が優れているからと、どちらかに論が傾く。しかし、本論では、それを次のような仮説としてまとめておく。

 仮説A: Google等の検索エンジンは、明確な名詞を含む2語対によって、KGR指標の高い記事を検索する。
 仮説B: KGR指標が高い記事とは、すなわち、明確な名詞を含む2語対によって生起する。
 補足:明確な名詞については詳細を保留する。本論実験では、「地名(施設名)」がそれにあたる。

 また以上の2からは、同上の条件下にあっては、検索母数が1000を切る場合、マイナーな世界と考えられる。そこから次の仮説をまとめておく。

 仮説C: KGR指標が100を越えて悪化した場合、記事母数を勘案すれば、場合によっては、マイナーな世界を想定できる。
 仮説D: 仮説Cにあって実質ヒット順位が高い場合(最初の一頁に現れる場合など)には、KGR指標算出に用いた係数10万を、1万に変更し、マイナー世界での記事待遇が高いと判定するのが良い。

(*) 補遺
 次回は、桜に限らず、MuBlogにアクセスされた高頻度の記事のKGRを算出し、それがどのような用語によって検索されたかの傾向を確かめてみる。

参考文献・記事
参考1: KGR指標の解説
 KGR:blogアクセス「キーワードと記事」の記事力(利用者求心力)指標によるMuBlog記事の分析 (MuBlogより)

参考2: 対象としたMuBlog記事
 050420・目次:桜狩り (MuBlogでの2004、2005年の桜記事目次)
 2007桜 (MuBlogでの2007年の桜写真)
 京桜たより:20070330 地蔵禅院・嵐山・広沢・佐野藤右衛門邸 (MuBlogでの、2007年の桜レビュー記事)

参考3: 2語対について
 研究情報ネットワーク論/長尾真、原田勝、石川徹也、谷口敏夫、久保正敏、澤田芳郎 共著. 勁草書房、1994.3(目次詳細はMuBlog当該記事参照
 上記の第9章(9.1.3 2語を対とする検索についての書誌・目次情報の性質)以下に詳述したが、情報検索にあっては、2語の組み合わせ(ANDとする)を基本とすることで、爆発的な組み合わせを招かず、妥当な検索結果が得られるという考え方による。

参考4: KGR指標の正確な記述
 新語「KGR」(指標)の、検索サイト{Google, Yahoo, goo}での出現比較

|

« 小説木幡記:20070510(木)身辺雑記 | トップページ | 小説木幡記:20070512(土)すがすがしい朝 »

情報図書館学」カテゴリの記事

Blog統計」カテゴリの記事

KGR」カテゴリの記事

コメント

この記事へのコメントは終了しました。

トラックバック


この記事へのトラックバック一覧です: 「地名 桜」でのGoogle検索記事(MuBlog)のKGR指標による分析:

« 小説木幡記:20070510(木)身辺雑記 | トップページ | 小説木幡記:20070512(土)すがすがしい朝 »