Public Computing: Reconnecting People to Science (in Japanese)

以下は下記原文 2003/11/29(JST)時点の検証無し翻訳です。原文は University of California より GFDL で配付されており、
この翻訳も GFDL に従います。
原文: Public Computing: Reconnecting People to Science

最終更新時刻 2005/11/06 20時32分 JST

以下の内容の講演は、2003年11月17～19日にスペインはマドリッドの Residencia de Estudiantesで開催された、Shared Knowledge and the Web というコンファレンスで行われました。

パブリック・コンピューティング：一般人を科学へ再び結びつけるもの

Dr. David P. Anderson
Space Sciences Laboratory
University of California - Berkeley

概要

世界中の計算能力の大半は、もはや、スーパー・コンピュータ・センタや、組織に属しているマシンルームの中にはありません。どこにあるかといえば、世界中に何百万台もあるパソコンの中に、今では散らばって存在しています。もう何年かすれば、全計算能力の少なからぬ部分が、ゲーム機本体やテレビ用セットトップボックスといった、もっと別種の機械の中にあるということになるでしょう。

この変化は、極限の計算能力を必要とするような研究をしている科学者にとって、決定的な事件です。 SETI@home や Folding@homeのようなプロジェクトでは、何百万もの参加者が、家にあるPCの計算時間を、科学的貢献のために寄付してくれました。同様のプロジェクトを他の研究領域でも起こし、かっては無理であった科学探究を可能にしようと、努力が進行中です。

この「パブリック・コンピューティング」というパラダイムの意味は、社会的でもあり、科学的でもあります。まず、共通の興味と目的を中心にした地球規模のコミュニティ群の基礎を産み出したこと。次に、一般市民が現在の科学研究の内容について学ぼうとする、インセンティブを作り出したこと。そして、最後は、科学の進歩に対して、一般市民がより直接的なコントロール能力をもつようになるだろう、ということです。

1) はじめに

コンピュータ技術は、革命的な科学です。科学者は、物理的な宇宙の正確な数学的モデルを開発してきました。そして、そのモデルにそってプログラムされたコンピュータは、現実をいくつものスケールで近似することができます。つまり、原子核のスケール、蛋白質分子のスケール、地球の生物圏、さらには、全宇宙といったスケールで。このようなプログラムを使い、将来を予測することができますし、理論を検証したり反証したり、試験管を使わずに化学反応を研究する「仮想実験室」を運用することもできます。

一般的に言えば、より大きな計算能力があれば、より正確に現実を近似できます。このため、できるだけ高速な計算機の開発に拍車がかかってきました。計算速度を上げる一つの方法は、計算を「並列化」することです。つまり、計算を、同時に別々のプロセッサが取り組むことのできる小さい計算のかたまりへと分割する、ということです。現代のスーパーコンピュータは、ほとんどこのやり方を取っており、一つの筐体の中に組み込まれた、たくさんのプロセッサを使っています。

技術の形を決める経済の力という面から見ると、スケールが大きいと都合がよいものです。何百万個も売れるはずのCPUチップだったら、会社としてはより多くの投資をして、開発に取り組むことができます。そういうわけで、ホームコンピュータで使われるチップ(インテルのPentiumやモトローラのPowerPCのようなチップ) が、迅速に開発されたのです。実際、18ヶ月でそれらの速度は2倍になるという勢いです。この速度上昇の勢いは「ムーア則」と呼ばれています。

1990年代に、2つの重要な事柄がおきています。まず、ムーア則により、PCがとても速くなり、ほんの数年前のスーパコンピュータ並みになっていること。次に、インターネットが消費者マーケットにまで拡大したこと、この2つです。突然、ネットワークで接続された高速のコンピュータが、何百万台も存在する状況になりました。これらのコンピュータを、並列スーパーコンピュータとして使うという着想が、多くの人々の間から独立にでてきました。この種のプロジェクトは、1997年に2つでてきていました：ひとつはGIMPSで、巨大な素数を探索するもの、もう一つは Distributed.netで、暗号化されたメッセージを解読しようとするものでした。これら2つのプロジェクトは、何千もの参加者を魅了しました。

1999年になって、3つ目のプロジェクト、SETI@home が始まりました。地球の外の知的文明から送られてくるかもしれない信号を検出する、という目標をもったプロジェクト[1]です。 SETI@homeは、「スクリーンセイバー」として動作するようにできていて、 PCがひまなときだけ走り、やっている仕事をグラフィカルに見せます。 SETI@homeの訴求力は、趣味人の範囲を超えて広がりました。つまり、全世界から何百万もの参加者を集めたのです。これがきっかけとなり、その他の多くの学術的なプロジェクトが鼓舞されましたし、もちろん、パブリック・コンピューティングのパラダイムを商用化しようとする企業もいくつか現れました。

2) パブリック・コンピューティングの威力

パブリック・コンピューティングは、どんなスーパコンピュータや、クラスタ、あるいはグリッドと比べても、より多くの計算能力を供給することができます。その格差は、時間がたつにつれ広がっていきます。 SETI@homeは、現在、百万台ほどのコンピュータの上で走っています。これがもたらす計算能力は、60テラFLOPsです。 (テラFLOPs=TFLOPs は、浮動小数点演算を、 1秒あたり10の12乗回できるという意味です。 ) これに対して、従来の最大のスーパコンピュータであった、 IBMの ASCI Whiteの処理能力は、12テラFLOPsです。 (- 訳注：2003/11/29現在の TOP500 SUPERCOMPUTER SITES の記録だと、日本にある地球シミュレータのほうが、実はもっと能力が高くて、 35.9テラFLOPs, ASCI Qは現在、13.9テラFLOPsとのことです。 - ) 全世界で数えると、インターネットにつながっているPCは、約 1億5千万台もあり、SETI@homeの百万台のコンピュータは、そのほんの一部でしかありません。インターネットにつながっているPCの台数は、2015年までに10億台に達すると予想されています。ですから、パブリック・コンピューティングには、数ぺタFLOPsにも達しうる計算能力の可能性があるのです。 (訳注：ぺタFLOPs=PetaFLOPsは、テラFLOPsの1000倍)

ムーア則の内容は、CPUチップの速度は18ヶ月ごとに2倍になる、というものです。 PCやゲーム機本体に入っている3Dグラフィクスを処理するチップ、すなわち「グラフィクス・プロセサ」については、この速度向上の具合は、さらに急激です。それらの性能が2倍になるのに 8ヶ月しかかかっておらず、最新のグラフィクス・プロセサは、単純に比較すれば、それを司るはずのCPUチップの何倍もの浮動小数点演算能力をもつに至っています。このグラフィクス・チップは、プログラム可能な能力を広げ、より柔軟になってきているので、研究者たちはこれを科学技術計算にうまく使えないものかと盛んに研究しています。グラフィクス・チップは最近のPCには組み込まれているものなので、ほかのパラダイムにとってよりも、パブリック・コンピューティングにとって、上記の傾向は追い風になっています。

計算能力そのものに加え、ほとんどの計算には、記憶領域(ディスク領域)も必要です。ここでもまた、パブリックな資源が、いまだかってない能力を供給できます。現在の標準的なPCには、80ギガバイトぐらいのディスクがついていますが、多くの場合、PCの持ち主が使う量以上の大きさがあります。もし1億台のコンピュータユーザが、それぞれ10ギガバイトの記憶領域を提供してくれたとしたら、合計は、1エクサバイト(エクサ(E)は10の18乗)となり、どんな、集中型の記憶システムの容量をも、上まわる量になります。

3) パブリック・コンピューティングの社会的側面

パブリック・コンピューティングは、多数の一般参加者がいてこそ有効です。 SETI@homeは、この点ではとても成功してきており、460万人の参加者を得て、そのうち、約60万人がSETI@homeを動かしつづけています。

SETI@homeを人々に知らせる方法には、いくつかの種類がありました。 Slashdot[2]のようなインターネットのニュースフォーラムが報道してくれたように、マスメディアがSETI@homeを扱うことがあります。 SETI@homeのスクリーンセイバーの画像も、強力なプロモーションの仕組みの一つです。オフィスや学校など、コンピュータが人の目に触れる場所で SETI@homeを走らせれば、視覚的に効果のある宣伝になります。

誰がSETI@homeに参加してくれるのでしょうか、そして、それはどんな理由からでしょうか。これを研究するためオンラインの世論調査をして、13万人の参加者が答えました。私たちのウェブサイトでは、参加者は、他の参加者に見せることのできる、自分の「プロフィール」をオンラインで作ることができるようになっています。約5万人がすでに自分のプロフィールを書き込んでいます。オンラインの掲示板も作り、何千もの参加者が使っています。そして、何千もの参加者とEメイルのやりとりを行って、検証無し的な調査情報を得ました。

前記の世論調査では、SETI@home参加者の92%が男性でした。そして、参加者ほとんどが参加の動機の第一番に挙げたものは、背景となっている科学への興味、すなわち、地球の外に知的生命が存在するのかどうか知りたい、ということでした。その他の大きな動機は、その人の貢献が広く認知されることでした。 SETI@homeは、参加者それぞれの貢献量を追跡して (つまり、計算した量がどれだけかを数えて) おり、貢献度順に参加者を並べた、たくさんの「リーダーボード」をウェブで公開しているのです。さらに、参加者は「チーム」を組むことができ、それぞれのチーム内にも「リーダボード」があります。このチームのしくみは、新しい参加者を募るのにとても有効であるとわかりました。

参加者の何人かは、「いんちき」をしようとしました。つまり、計算の貢献量に対するクレジットを、計算してもいないのに得ようとしたのです。さらに問題だったのは、意図的に間違った計算結果を返す人たちがいたことです。これは、やろうとしている計算を本質的にだめにしてしまいます。これらの問題は、計算を冗長に行って、結果を比較することによって、解決されました。

参加者は、CPU時間以上の貢献をしています。有志の人たちは、 SETI@homeのWebサイトを30種の言語へと翻訳してくれましたし、多種のアドオンソフトと補助的なWebサイトを開発してくれました。私たちは、この種の貢献に対するチャネルを提供することが、重要であると信じています。

SETI@homeのまわりに、いろいろな種類の「コミュニティ」が出来上がりました。まず、 SETI@home ウェブサイトを通じて交流する、世界規模の単一コミュニティがあります。さらに、国別または言語別のコミュニティもあり、それぞれがウェブサイトと掲示板システムを持っています。ドイツのSETI@homeユーザグループはこの数年、代表者会議を開いてきました。 SETI@homeのコミュニティを通じて出会って、結婚したカップルが少なくとも3組います。

4) パブリック・コンピューティングの技術的側面

パブリック・コンピューティングのプロジェクトを進めるために必要なことはたくさんあって、ここに全部は書き切れません。たとえば、アプリケーションプログラムを種々のプラットフォームに適合させること、サーバシステムとデータベースを実装すること、参加者のアカウントとクレジットを管理・追跡すること、冗長性と異常状況を取り扱うこと、その他、たくさんあります。

私たちは、現在、BOINC(ネットワークコンピューティングのための、バークレー・オープン・インフラストラクチャー)と呼ばれるソフトウェアを開発中です。このソフトは、上記のような問題を解決するか、あるいは、解決を助ける役目をもっています。 BOINCは、既存のアプリケーションを、パブリック・コンピューティング・プロジェクト向けに仕立て直す仕事が、かなり簡単かつ安価になるようにしてくれます。 BOINCで動作するプロジェクトは自律的です。つまり、各プロジェクトは、自分のサーバとデータベースを維持し、他のプロジェクトには依存しません。参加者は、複数のプロジェクトに登録することができ、自分の資源を、どのようにプロジェクト間で共用させるか、を決めることができます。 (たとえば、CPU時間の60%を地球温暖化の研究プロジェクトへ、残りの 40%をSETIに供するといった具合です。 )

いくつかのBOINCベースのプロジェクトが進行中です。その中には、SETI@homeと、生化学プロジェクトであるFolding@home [4] があります。さらに、気候の研究プロジェクトである Climateprediction.net [3]もそうです。 BOINCは、グリッド・システムを補完します。グリッドは、研究機関の中および研究機関の間での資源共有を支援しますが、パブリック・コンピューティングまでは支援しない[5]ものですから。

5) パブリック・コンピューティングのアプリケーション

計算しようとしている仕事が、パブリック・コンピューティングに適していると言えるためには、まず、計算を独立したかたまりに分割できなければなりません。さらに、それぞれのかたまりについて、計算とデータ量を比べると、計算のほうの比率が高くなければなりません。 (そうでないと、インターネットを通じたデータ転送のコストのほうが、計算を集中実行した場合のコストを上まわりかねません。 ) 多くのタイプの計算がこの特徴をもっています：

複雑な物理システムは、無作為で混沌とした要素を持ちます。でてくる結果は、確率論的であって、きっちりとしたものにはなりません。この結果を統計的に研究するには、多数回のシミュレーションを異なるランダムな初期条件や境界条件のもとで実施する必要があります。このようなシミュレーションは、並列に実行できます。
決定性をもつ問題(訳注: exact problemの訳, 自信なし)に対して、近似的な解を与える「ランダムアルゴリズム(random algorithms)」 [6]と呼ぶ分野が、現在、進化しつつあるあります。これらのアルゴリズムはしばしば、並列に走らせることのできるランダムな試行を含んでいます。
「遺伝的アルゴリズム」は、多くの領域に適用可能です。このアプローチでは、特定の問題に対して数多くの近似解を作り、自然選択の仕組みを使って、最適解に近づこうとします。
物理システムのモデルは、最適値が未知のパラメタをしばしば同時に多数含んでいて、しかも、パラメタ同士が非線形的に影響しあっています。このようなパラメタ空間を探索するには、多数回にわたる独立なシミュレーションの実行が必要です。より一般性をもっていえば、「モンテカルロ」アルゴリズムは、高次空間の中での各サンプルに対応する独立な計算を、多数回含むということです。
大量のデータ解析を含むアプリケーション、たとえば電波望遠鏡からのデータ(つまりは、SETI@homeが例)や、粒子加速器からのデータの場合です。これらは、生来的に並列性をもっています。制約となる因子は、この場合、計算／データ量の比率です。
いくつかの医療プロジェクトは、百万あるいは10億のオーダの数の分子を調べる処理を含んでいます。 (たとえば、可能性のある医薬を探すプロジェクトです。 ) これらの仕事は、並列化が容易です。同様に、いくつかの遺伝学プロジェクトでは、蛋白質の集合を、 DNAの並びと突き合わせる処理を含んでいます。ここでも同様に、並列化が容易にできます。

6) 結論

Carl Sagan は一般市民の科学への態度が、だんだんと疎遠になり、敵対的にさえなりつつあると観察していました[7]。パブリック・コンピューティングは、この傾向を逆転できるかもしれません。もし、コンピュータをもっている人たちが、自分の資源を、広い範囲のプロジェクトのどれかに供することができるとしたらどうでしょう。人々は、それらプロジェクトの目標と手法、そして成功のチャンスがどれほどかを学んで、各プロジェクトを評価するでしょう。この過程は、「決断の市場(decision markets)」とでもいうべきものを作れば、より鼓舞されるかもしれません。つまり、科学プロジェクトの成果に基づいて、一般市民が仮想的な賭けあるいは投資をすることのできる「決断の市場」を、政治的な「決断の市場」[8]の相似形として作るという方法です。

コンピュータを持っている人たちは、どのプロジェクトでも好きに選べます。すると、資源の割り当てをコントロールする力は、政府基金の機関(と、その機関のポリシを左右する無数の要因)から離れ、一般市民へと移っていきます。そうなることにリスクもあります。一般市民は、領域ごとの専門家からなる委員会よりも、たぶんだまされやすいでしょう。しかし、このやり方は、研究についての政策を決定する上で、とても直接的で民主的な仕組みです。

ある科学者が、ある計算を着想したけれど、何百万年もの計算機時間が必要とわかったら、ふつうはそのアイデアはゴミ箱行きです。しかし、パブリック・コンピューティングはそのようなアイデアを実行可能にします。そう、SETI@homeではすでに、のべ150万年のCPU時間を使いました。科学者たちは、捨ててしまったそんなアイデアを、いまや復活させて再考することができるのです。

参照文献

[1] D. P. Anderson, J. Cobb, E. Korpela, M. Lebofsky, and D. Werthimer. SETI@home: An experiment in public-resource computing. Communications of the ACM, Nov. 2002, Vol. 45 No. 11, pp. 56-61. See also http://setiathome.berkeley.edu
日本語訳は、http://www.planetary.or.jp/setiathome/cacm/cacm.html

[2] http://www.slashdot.org

[3] http://climateprediction.net

[4] http://folding.stanford.edu

[5] http://www.globalgridforum.com/

[6] R. Motwani and P. Raghavan. Randomized Algorithms. Cambridge University Press, 1995.

[7] C. Sagan. The Demon-Haunted World: Science As a Candle in the Dark. Random House, 1996.

[8] R. Forsythe, T. A. Rietz, and T. W. Ross. Wishes, expectations, and actions: A survey on price formation in election stock markets. Journal of Economic Behavior and Organization, 39:83- -110, 1999.

パブリック・コンピューティング： 一般人を科学へ再び結びつけるもの

概要