タグ: wget

wgetコマンドにてBASIC認証

投稿者:isc_blog

Linuxなんかのwgetコマンド

BASIC認証しているサイトの場合・・・どうすんだっけ?

また、調べちゃいまして備忘録的に残しておきます。

wget –http-user={username} –http-passwd={password} {host}

引用元: Basic認証でwget – cloned.log.

なるほどなるほど。

2011年12月14日

CMSで作ったサイトをまるごと静的にバックアップする方法

投稿者:isc_blog

CMS(WordPress)で作ったサイト(このブログ)を静的HTMLでバックアップしようとして
WebBoxなどのツールを使ったんですがなんだか取得しきれていなかったのでいろいろ調べました。

で、ツールを使って取得する方法を調べたら
FireFoxでアドインツールを使って出来るらしい・・・
参考サイト:firefoxのプラグインScrapBookを使ってブログサイトなどをまるごと保存する|ろばのみみ
ここで使用しているFireFoxのプラグインがこちら → ScrapBook ADD-ON

おぉ!どんどん取れました!
ただし、ディレクトリ構成などが平たくなってしまい
ちょっとこのままでは・・・という感じだったので他の方法をさがすことに・・・

で、次の方法がLinuxのwgetコマンドを使用剃る方法・・・

参考サイト:CMSのサイトを静的ファイルにバックアップする方法
参考サイト:stn8:wgetで動的ページを静的ページに変換してダウンロード

こちらに載っていた方法でコマンドを叩いてみる・・・
※Windows環境でCygwinにてコマンド叩きました。(Cygwinにはあらかじめwgetをインストールしておきました。)

[html]

wget –mirror –convert-links –restrict-file-names=windows –html-extension http://blog.iscw.jp

[/html]
うーん、なんだかindex.htmlで止まっちゃう・・・

[html]

wget –mirror –convert-links –backup-converted –restrict-file-names=windows –html-extension http://blog.iscw.jp

[/html]
こちらも・・・・index.htmlから動かず・・・

最終的にWindows環境でCygwinを使用して出来た・・・のがこの方法でした。
参考サイト:サイトリッパーの提案?

[html]

wget -erobots=off –no-parent –wait=3 –limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://blog.iscw.jp

[/html]

-U オプションが効いたのか、こちらのユーザーエージェントを示すことでどんどん取得できちゃいました!

この方法使えそうだな~

ただし、取得したファイルの中身の「http://blog.iscw.jp」というURLの記述部分は移設する場合など時によっては文字列置換しないといけません。

まぁ、まるごと取得出来ただけヨシとしましょう!

2011年6月14日