■ - ymlabのブログ

今日は、学校Weblogシステムのデータ形式にXMLを採用した動機について書こうと思った。
そこで、XML形式にすることによって、如何に生産性があがるかを示そうと思った。

で、こんなデータを用意。
この例は、

　この例では，学生の試験の得点情報を示しており，現在2人の学生が登録されている．
学生の名前はOsaka Taro，及びNeyagawa Hanakoである．
Taroは，素粒子実験物理学を専攻しており，Hanakoはプラズマ物理学を専攻している．

　また，Taroは線形代数学(100点)，相対性理論(95点)，力学(75点)である．
一方Hanakoは，線形代数学(95点)，物性理論(60点)である．

ということを示している。

This is Students-Point Information.

　Osaka
　Taro
　particle-physics
　
　　100
　　95
　　75
　

　Neyagawa
　Hanako
　plasma-physics
　
　　95
　　60
　

これをCSVにすると、

#This is Students-Point Information.
#familyname,firstname,major,linear_algebra,theory_of_relativity,machanics,solid_state_physics
Osaka,Taro,particle-physics,100,95,75,0
Neyagawa,Hanako,plasma-physics,95,0,0,60

圧倒的にデータ量が小さくてすむし、アクセス速度も恐らく100倍以上違うと思うが、
この場合、取得単位が増えた場合csvでは、非常にプログラム側で大きな変更を迫られる。
このデータを扱うファイル全部に影響するのである。

ところがXMLだと、あまり影響しない。そういう利便性が、アクセス速度に勝る。
ということを示したい。

でも、アクセス速度はどれくらい違うのだろう。
というわけで、XML形式とCSV形式でデータをアクセスする際の
応答速度を取得することにした。

とりあえずXMLで、が80点以上の人を出力するのにかかる時間を、
10000回取得した。

とりあえず、軽くグラフにしてみようと思い、M井君にどつかれそうな気もするが、
PAWやROOTを使わずに、エクセルを使うことに。全く持って、データとして
信頼できないものだが、あきらかにありえないピークを発見！

悲しすぎる。恐らく、DDNSの更新プログラムと、温度計測プログラムの両方が悪い影響を与えたのだろう。
今回は、マシンに依存しない、プログラムの話なので、クリーンインストールしたばかりの、
昔の計算機を使おう。K6-2 400MHz にこの前 vine linux 3.0を3.2にした状態に、
Apacheを1.3から2.0にアップグレードしただけの状態。

しかしショック・・・。

そういえば、隠蔽君は、googleのキャッシュデータの削除をしたことが、２回目の隠蔽工作だった。
こういうのも、全部キャッシュクリアするんですかね。

こういうキャッシュが1000件位ありますが・・・。
http://72.14.235.104/search?q=cache:vdpDobjFGgsJ:hiro-h.cocolog-nifty.com/hori/2005/11/20051114.html+%E3%81%BB%E3%82%8A%E3%81%8F%E3%82%93%E3%81%AE%E3%83%9D%E3%83%BC%E3%83%88%E3%80%80cocolog&hl=ja&gl=jp&ct=clnk&cd=100