地球物理辞書詳細

目次


部内版の頃

1993年晩秋

それは地球物理辞書がカゲも形もなかった頃。東京大学理学部地球惑星物理学 科の学部学生用計算機室でのお話。

よちよち歩きながら、ようやく UN*X 環境 (SunOS 4.1.3 on SparcStarion2 だったかな) でのレポート作成をするには困らない程度には UN*X コマンドや ら LaTeX をはじめとする文書作成ソフト群の使い方やらを身につけた学生た ちがたむろしていた。当時の環境では、日本語入力可能なエディターは NEmacs+EggV3 しか準備されていなかった。もちろん、辞書は pubdic のみで ある。しかし、pubdic では、実際のレポートを書く段になると、語彙が不足 する。「真鍮」とか。「超電導」はあるのになんで「伝導」がないんだろうと か。「磁場」って入ってないんだとか。このままでは不便なので、ユーザ辞書 に単語登録をして対応するわけで。M-x touroku-region を何回使ったかわか らないほどに。


pubdic っていえば、間違った漢字が辞書登録されてて困った記憶が。「候爵」 とか。このおかげで、かな漢字変換が変換したからといって(同音異義とか文 節区切りとかでなくても)誤変換している可能性があるという認識ができた。

この 3 年ほど後、ある学生(地球物理辞書編纂グループのメンバーではない) が地球磁場を扱う研究室に配属された。その研究室のサーバの辞書は pubdic のみだったので、「磁場」が変換できない。しかも、研究室の人たち はそのことに何の疑問も持たずに平然と日本語入力をしていたという。この状 況を評して彼は「くるってるよ」という名言を残している。


同じことをみんなでやるのは無駄だろうということで、みんなのユーザ辞書か ら関連する語を集めて辞書にできないのだろうかということが話題になるのは 時間の問題だった。

とはいえ、ようやく NEmacs+Egg の扱いに慣れてきたという程度の面子が考え ること。たまたま綾しい方面から atod を使えばしかるべき形式のテキストファ イルを辞書に変換できるという情報が舞い込むまでは、ろくに形にもならなかっ た。

1994年春

学科全体のサーバマシンに居候してた学部学生のために専用のマシン (SunOS 4.1.3 on SparcStation10)が導入され、root 権限でコマンド実行する ときにも手が震えなくなってきた頃。少しは Wnn を動かすための環境設定の 知識もついて、ユーザ辞書として地球物理辞書(前身)を使い始めるものも出て きた。

i-dic という、アイドルの名前を収録した辞書(2001年現在、正式な入手先は 不明)が、ある管理者によりシステム辞書として登録された。人名(特に女の子 の名前)の辞書としては有用だった。「茶々」と入力したいときに 「cha−cha」とか変換されるのはちょっとアレでナニだったけど。

1994年夏

i-dic の Makefile などを参考にして、地球物理辞書をシステム辞書に組み込 む試験。7月31日、正式に利用者にアナウンス。以後、学部学生のみ恩恵を受 けられるようになる。当時の辞書には、学科内でのみ通じる隠語の類いも収録 されていた。「へに」→「変位」「たに」→「単位」「ふぉとまる」→「光電 子増倍管」など。全体で200語程度の小さな辞書だった。残念ながら、当時の 辞書は残っていない。

1994年秋

地震研究所の纐纈先生の勧めもあって、インストールのための解説などを加え、 若干語彙を増やしてひとまとめにした。11 月の末に地震研究所の anonymous ftp サーバに置いて頂いたのだけど、持っていった人がいたのかどうかはわか らない。とりあえず、地震研のサーバにはシステム辞書として登録してもらえ たらしい。メンバーが直接手を下さない場所に辞書として登録された最初であ る。

このあとも気が向くと語彙を増やしており、収録語数が 259 語になった、 1995 年 4 月のものが残っていた。どうしても見てみたいという向きは、 下記連絡先 までご連絡頂きたい。 見てもそんなにおもしろいものでもないが。

1996年夏

メンバーの1人に自由になるマシンができたため、anonymous ftp で公開した。 内容は変更なし。


公開後の履歴

七夕バージョン(1997/07/07)

取りまとめ役をしていた関根、杉浦らが所属する庵出版で、この辞書をさらに 発展させる計画が 1996 年末に始動。この計画では、とにかく語彙を充実させ ることを目標とした。


杉浦が「ヤマモト・ヨーコ辞書よりもサイズが小さいようでは恥ずかしい」と 言ったという記録が残っている。ヤマモト・ヨーコ辞書とは、 それゆけ!宇宙戦艦ヤマモト・ヨーコML で作成している「それゆけ!宇宙戦艦ヤマモト・ヨーコ」に出てくる言葉の Wnn 用の辞書。1995年12月時点で、561語収録で 24KB。今は、非公開なのか、 Web からの入手はできないようだ。


日常よく使う語を集めるだけでは限界があるため、pubdic の時代から使われ ている手法、適当な本を持ってきてそれに含まれる語を抽出するという方法を とった。さらにこのとき、もう1つの計画があったのだが、これは現在(2001年 夏)に至っても実現していない。地球物理辞書の将来 でこれに関しては述べることにする。

参考にした本は、誰でも持っていた『地球物理概論』(小嶋稔編、東京大学出 版会)と、その頃ちょうど刊行が始まっていた『岩波講座 地球惑星科学』 シリーズのうち、既刊の1,2,3,4,5,11巻。

庵出版社員のうち手の空いているもので1冊ずつ分担し、索引を参考にしつつ 適当な語を抽出していく作業を行ない、収録語数は 3358 語となった。このと きの作業で収録された語は、品質にばらつきが多く、これ以降の作業で削除さ れた語がかなりの数にのぼる。ある意味、資料的価値のみが大きな版がここに できあがった。

1997年7月7日、地球物理辞書の最初の公開版として fj.sources に投稿した。 このとき、それまで Wnn+NEmacs 用のみだったインストール解説に Wnn+Mule 用の解説も付け加えた。このときの紹介文句が「一般の辞書に入っていない、 または実用にならないくらい頻度が低くなっていて不便な地球物理に関連する 用語や重要な人名などをサポート」だったが、今思えば、もうちょっとかっこ いい言い回しにしておけばよかったと思う。現在(2001年夏)に至ってもこの言 い回しで地球物理辞書を紹介してくださっているサイトが複数あるし。

この版には、インストールの解説通りにやるとうまく行かないとか、収録され ている語に変な物があるとか、さまざまな反響があって、意外に関心を持って いる人が多いものだと感心したものである。

このときの版はバックアップテープにしかないかも……と思っていたら、 フリーのかな漢字変換辞書たち から入手できた。大感謝。

NetNews で公開はしたものの、オリジナルの配布サイトと言える場所がなく、 入手できないという噂が立ったとか立たなかったとか。

この、公開版からバージョン名を付けることになった。基本的に、その版を特 徴づける日が「○○の日」であれば、「○○の日バージョン」という名称にな る。公開した日、作業の終了日、中心的作業を行なった日など、必ずしも公開 した日であるとは限らない。幸い、日本には「○○の日」となっていない日は ほとんどないので、これで当面は問題ないはずである。この版は、公開日が7 月7日であることから七夕バージョンと呼んでいる。

四月ばかバージョン(1998/04/01)

七夕バージョンに寄せられた、インストール時の不具合や明白な誤りを修正 し、4 月 4 日に、fj.sci.geo と fj.sources.d で告知するとともに、はじめ て Web で公開した。収録語の質の問題に関してはすでに着手していたものの、 終了の見込みが立たなかったことから、刊行の進んでいる『岩波講座 地 球惑星科学』の残りの部分(6,7,8,10,12)の収録作業と平行して行ない、この 版ではこれを修正しないことにした。

バージョン名は、単にキリのいい日(4 月 1 日)を選んだだけだったか、本当 に 4 月 1 日から Web でアクセス可能にしたかは記録が残っていない。

このときの配布サイトは、すでに存在しないサブドメインの www.geoph.s.u-tokyo.ac.jp というところであったが、ここや、別の実体である vsiron.geoph.s.u-tokyo.ac.jp に向けてリンクしているページが、2001年夏現 在でもちらほらと残っているようで。

終戦の日バージョン(1998/08/15)

四月ばかバージョンで先送りされた語彙の品質問題の解決と、収録語の少ない 気象分野の増強を行なうとともに、Wnn 以外のかな漢字変換システムへの対応 を目指した。また、コミックマーケットで、メンバーの 1 人が所属するサー クルに委託して販売してもらうことにした。複数システムに対応したのも、販 売する以上、対応は Wnn だけですというわけにはいかないというのも動機の うちではあったのだけれど。

語彙の増強のために参考にした本は、『岩波講座 地球惑星科学』の残り の分(6,7,8,10,12)と、『気象力学』である。

対応したかな漢字変換システムは、UN*X 系では Wnn のみ、Windows 系では MS-IME と ATOK、Macintosh ではことえりである。このときの主担当が Macintosh の扱いに詳しかったこと、ATOK の複数のバージョンにたまたま触 れたことなどから、このような布陣が実現した。これらをすべて 1 枚のフロッ ピーディスクに収録し、1枚100円で販売した気がする。

委託販売が行なわれたのが 8 月 15 日だったことから、終戦の日バージョン と呼んでいる。

収録語数 4113 語。

そろばんの日バージョン(1999/08/08)

終戦の日バージョンが、コミックマーケットでそれなりに関心をもってもらえ たことに味をしめて、1999 年も委託販売することにした。目標があればやる 気も出るということで。

この版では、一部から要望があった、品詞の見直し作業を行なった。終戦の日 バージョンまでは、品詞として「名詞」「固有名詞」の2つのみを採用してき たが、「する」を伴い動詞化する名詞や、「な」を伴い形容動詞化する名詞、 単位になる語、などを考慮するとともに、固有名詞を、人名、地名、その他の 固有名詞などに分類した。同時に、終戦の日バージョンで作業の候補になりな がら作業が終了しなかった本に含まれる語を収録した。

収録対象とした本は、『岩波講座 地球惑星科学』(9,13,14すべて終了) と『最新 天気予報の技術』(新田尚他、東京堂出版)である。

各収録語の品詞の確定作業や語彙の選定作業が終わった日が 8 月 8 日だった ことから、そろばんの日バージョンと呼んでいる。

収録語数 5407 語。

TAXiの日バージョン(2000/08/06)

年1度更新とコミックマーケットでの販売が定着。ちなみに価格は 50円/枚。

複数のかな漢字変換システム用のテキスト辞書を作成することと、複数の品詞 を取り扱うことには、少なからず問題が生じる。主にシステム毎に品詞名が異 なることに原因がある。そろばんの日バージョンまで、すべてのおおもととな るファイルは Wnn4 形式のテキストファイルだったが、Wnn4 の品詞名を他の システムの品詞に変換するときに、1対1では対応できず、変換先のシステムの 方がより細かく品詞を分類している場合もあった。

この問題を解決するために、複数のシステムの品詞名を調査し、可能な限り細 かく品詞を分割することにした、「メタ形式」を作ることにした。メタ形式の 品詞名(メタ品詞)が必ず一番細かい分類になるようにメンテナンスし、メタ品 詞と実際のシステムの品詞名の対応テーブルを作ることで、変換を容易にした。 あとは、Perl か何かを使って、品詞名や書式の変換を行なえばよい。

原本ファイルの形式変更作業のほかに、海洋関連の語彙の増強を行なった。参 考にした本は『海洋の波と流れの科学』(宇野木早苗、久保田雅久著、東海大 学出版会)と『大気・海洋の相互作用』(鳥羽良明編、東京大学出版会)である。

バージョン名は、原本ファイルの変更作業を行なった 8 月 5 日が「タクシー の日」であることに由来するが、「TAXi」という表記は、メンバーに映画 「TAXi 2」の先行オールナイト上映を見に行った者がいたことによる。

収録語数 6130 語。

橋の日バージョン(2001/08/06)

収録語の中に「コロンビアリバー洪水玄武岩」のような長くて、めったに入力 されないような複合語が少なからず含まれており、これによりいたずらに語数 が増えているのではないか、という疑念から、このような複合語をなるべく排 除し、収録されている語が複数集まればその複合語になるように適当に分割す る作業を行なった。新しい語の登録は行なわなかったが、不適切と思われる 100 以上の語を辞書から削除した。一方で、複合語の分割により生じた語も存 在するため、メタ辞書に含まれる語数は 6483 語と逆に増加した。

また、「圧縮」のように、他のかな漢字変換システムのシステム辞書に含まれ ているような語も収録されているが、これも無駄になるので、このような語を 取り除くためのフラグも設定した。対象となるかな漢字変換システムにより、 システムに収録されている語が異なることを考慮するためである。

作業の詳細については、 橋の日バージョンによる変更点 を参照されたい。

バージョン名は、複合語の選定と分割方法の検討を行なった 8 月 4 日が「橋 の日」であることによる。

収録語数は、品質管理作業後、最も少なくなった MS-IME 用辞書で 4731 語で ある。


地球物理辞書の将来

今の地球物理辞書に足らない語彙は、地質学関連の語と、超高層、惑星分野の 語。これらを増強したい。古生物学や地理学あたりを含めるのもおもしろそう。

略語のための辞書にも魅力がある。「ふぉとまる」→「光電子増倍管」 「びふ」→「縞状鉄鉱床」のような変換をするもの。ただし、これらは、 「地球物理辞書アネックス」のような名前で呼ばれるべきもので、この辞書本 体とは別のものになるだろう。

専門用語の日英辞典構想というものあった。「あるふぇんは」→「alfven wave」 みたいな。

もっと冗句系の辞書として、「ちょうちょうきせんかんしょうけい」→「VLBI」 「せいしきしょうえいせい」→「GMS」系の、入力した文字数に対して報われ ないような変換をしてくれる辞書とか。

英字の取り扱いも問題。今のところ、なるべく英字が入らないように収録語を 選んでいるが、入れる場合には、いわゆる全角英数字を使って収録している。 半角にすべきかもしれないという疑問もある。標準をどこに置くかというのは 別として、メタ形式を導入した現在、フラグで切り替えるのは容易。

メタ辞書(現在は非公開)と変換ツールを公開して、好きに変換してもらう方が いいだろうか。


このページに関するお問い合わせは e-mail address of AICまでお気軽にどうぞ。
最終更新: Wed Aug 8 22:05:13 2001