wget

(2001年3月27日更新)

wgetは便利です。Webサイトはいつ無くなるのかわからないので、どうしてもローカルなディスクに保存したいという衝動にかられます。しかし相手のことを考えないと迷惑なプログラムでもあるので、利用は慎重に...。

例えばhttp://www.maid.org/tech/以下のすべてのリソースをDownloadするときには下記のようにしました。


wget -l 0 -np -r -N http://www.maid.org/tech/

これで無事にミラーできました。まだ試していないのですが、既に取得済みのサイトの更新されたファイルだけをDownloadするときにも上記のようにするのだと思います。

しかし正しい更新日時が取得できないWebサーバもあるようです。それらに対してはまず初めにHTMLドキュメントだけをすべて無条件に取得して、それからローカルにファイルが存在しない場合に限ってファイルを取得する処理をすれば少しは効率が良いかと思っています。(本当に良いのか...?)


wget -l 0 -np -r -A .htm,.html http://www.maid.org/tech/
wget -l 0 -np -r -NC http://www.maid.org/tech/

この方法の弱点は同じファイル名で画像ファイルなどが更新されたときか。

問題なのが複数のサーバでサイトが構成されている、画像だけ別のサーバだったりあるいは複数のサーバに複雑にコンテンツがわかれている場合です。このときの上手な方法を考えたいと思います。


戻る