« 葛野司書・共同演習(2010前期)情報図書館学・資料組織Ⅱ  | トップページ | 木幡研:2010/08/19(木)夏やせ待望・夏ばて困る »

2010年8月18日 (水)

小説木幡記:2010/08/18(水)もう盆も終わった:古典の品詞分析

 昨日は、古い知友が入院するというので見舞いを兼ねて4人で昼食をとった。若い若いとおもっているまに、30代とイメージしていた者は還暦に近く、いまだに20代半ばと思っていた2人は、すでに40代も後半と聞き、唖然とした。しかしそういう長い長い知り合い達がまだ活躍していることにほっとした。
 さて。
 そのあと知友の家により仕事の話もすませ、さっそく余1人葛野に向かった。今年は葛野の学園の工事停電も続き、まるまる一週間研究室を訪れなかったので、EH500金太郎機関車がネズミにひかれてはおらぬかと心配になって、夕方着いた。機関車や客車やPCや図書達は元気だったので、ほっとした。

 さっそく主PCを点火起動し、古いシステムを表すキーワードをいれて、それがどこに潜んでいるかを探してみた。話というのは10年も昔に動かしていた古典文法の形態素解析システムで、共著論文も著していた。探している間に10年前の論文を読み返したが、難しくて、一体何をしているのかとんと思い出せなかった(笑)。~ようやくそれらしいシステムの入ったフォルダーが見つかったので、ともかくそこにある、源ファイル、加工1ファイル、加工2ファイル、~結論ファイル、らしき諸ファイルを知友達におくり、「このシステムでよいのか」と言い添えた。

 木幡に帰ってさらに見てみると、2004年頃には、方法を改良してより大規模にしたシステムも見つかったが、一つの源ファイルに対して、関係データファイルだけで7つ8つあって、本当に「一体、何をしているのか?」わからなかった。またしても、第二陣を送ったら、「今回は別のシステムが必要なので、また別のも作ってください」と返事があって、がっくりした。

 ~
 というわけで、盆がおわったとたんに、夏期論文の継続はあるし、古いシステムの再起動はあるしで、またまた汗が出てきた。いつまでも忙しい。

 ところで。
 関係諸ファイルが7つ8つもあるのは、余が相当に手堅い方法をとったせいだと、徐々に思い出してきた。複雑怪奇な処理を必要とする場合、一挙にかたづけようとするとうまくいかない。あるいは脳がついていかない。一つ一つの山を越えるたびに、その結果を一旦はき出して(ダンプ)、それをじっくり眺めて次に対処するという、つまり次の工程に必要なアルゴリズムを沈思黙考し、次のステージのためのプログラミングをするという、実に単純だが失敗の少ない方法をとったわけだ。
 だから途中結果の7つもあるファイルの意味を今更思い出そうとしても、それは無理だ。最初の源ファイルと、最終らしい完成ファイルだけを使えばよいのじゃろう(笑)。これぞ、中抜け、つまりキセルじゃのう。

 ~
 というわけで、知友達と食事して、10年前のシステムが再起動することになった、というのが昨日の結論。そこで、今日はもういちど古い論文を読み返してみるつもりだ。今日は、理解できそうだ。基本はこれまた単純で、源氏物語の全単語を古典研究者達が分析し品詞を付与したデータがあって、これを辞書として、すなわち源氏物語を教師として、別のテキストを自動的に品詞分解していくシステムなのだ。その古典研究者達とは、昨日あった3人だから、まあ、すべては自家薬籠中のものと、言える。

 いろいろあるのう~。

|

« 葛野司書・共同演習(2010前期)情報図書館学・資料組織Ⅱ  | トップページ | 木幡研:2010/08/19(木)夏やせ待望・夏ばて困る »

NDK:日本文学データベース研究会」カテゴリの記事

小説木幡記」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/22035/49176050

この記事へのトラックバック一覧です: 小説木幡記:2010/08/18(水)もう盆も終わった:古典の品詞分析:

« 葛野司書・共同演習(2010前期)情報図書館学・資料組織Ⅱ  | トップページ | 木幡研:2010/08/19(木)夏やせ待望・夏ばて困る »