まあ、世間様ではフェルミ推定なんていうちょっとすごそうな、よくわからなそうな名前付いているもんがあるわけよ。
最近見たのだと、
「スクールバスにゴルフボールは何個入るか?」
なんてやつね。
問題そのものには大した意味なんてなくて、その解を出すためのプロセスに意味があるってもんなんだけど。。まあ、あれだな、想像するにも多少科学的にやれってことだ。
んで、問題なんだけど、、、
「Wikipedia日本語版(テキストのみ)を全てダウンロードし、辞書ファイルに変換すると何ギガになるか?」
ってのはどーよww
職場の人に聞いて、からかってみたら、出てきたのは30GBとか、そんな数字。根拠となる数字はないようです。まあ、うち、文系カイシャだし。。
んで、俺の読みでは5GBくらいかなと思ってた。持っている百科事典のファイル、いくら大きくても800MBくらいしかないのよね。画像、動画を入れまくるなら別なんだけど。Wikipediaって、たぶん、既存の百科事典の分類体系をベースに土台を構築しているだろうから、それよりは無駄に増えるだろうってことで。
んでだ・・・・
ここで現物をダウンロード。実は、アーカイブがあるんだよね。
もう、超定量的で誰も文句いえないww
http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
bz2(667MB)を圧縮展開して、xml形式にした後、それをEPWING(日本でよく使われている辞書ファイルの標準形式)に変換しました。
変換には、仕事場に置いた、あまり使われていないLinuxPCを使用。約5時間かかりました。
結果は、、 1,687,258KB
むーー、意外と小さいのね。期待外れ〜。
でも、5GBってのは、雰囲気としては正しかったな。一応、桁はあってたし。
・・・・現在、懲りずにWikipedia英語版をダウンロード中。こちらはbz2の状態で3.6GBもあるので手強そうです。