kmatsuの日記

Wikipediaのデータサイズは?編集する全体に公開
2008年03月07日00:16
まあ、世間様ではフェルミ推定なんていうちょっとすごそうな、よくわからなそうな名前付いているもんがあるわけよ。

最近見たのだと、
「スクールバスにゴルフボールは何個入るか?」
なんてやつね。

問題そのものには大した意味なんてなくて、その解を出すためのプロセスに意味があるってもんなんだけど。。まあ、あれだな、想像するにも多少科学的にやれってことだ。

んで、問題なんだけど、、、

「Wikipedia日本語版(テキストのみ)を全てダウンロードし、辞書ファイルに変換すると何ギガになるか?」

ってのはどーよww






職場の人に聞いて、からかってみたら、出てきたのは30GBとか、そんな数字。根拠となる数字はないようです。まあ、うち、文系カイシャだし。。

んで、俺の読みでは5GBくらいかなと思ってた。持っている百科事典のファイル、いくら大きくても800MBくらいしかないのよね。画像、動画を入れまくるなら別なんだけど。Wikipediaって、たぶん、既存の百科事典の分類体系をベースに土台を構築しているだろうから、それよりは無駄に増えるだろうってことで。

んでだ・・・・

ここで現物をダウンロード。実は、アーカイブがあるんだよね。

もう、超定量的で誰も文句いえないww

http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

bz2(667MB)を圧縮展開して、xml形式にした後、それをEPWING(日本でよく使われている辞書ファイルの標準形式)に変換しました。
変換には、仕事場に置いた、あまり使われていないLinuxPCを使用。約5時間かかりました。

結果は、、 1,687,258KB

むーー、意外と小さいのね。期待外れ〜。

でも、5GBってのは、雰囲気としては正しかったな。一応、桁はあってたし。



・・・・現在、懲りずにWikipedia英語版をダウンロード中。こちらはbz2の状態で3.6GBもあるので手強そうです。
コメントを書く
絵文字
close

(全角2000文字以内)

利用規約の禁止事項や免責事項および個人情報の取り扱いについてをご確認、同意のうえ投稿してください。

おすすめ情報

kmatsuさんの近況