Skip to content

wgetのオプション

公式のマニュアルはこれ。

再帰的にダウンロードするかどうかのフラグ。再起する場合、—level= オプションでサブディレクトリの深さを指定できる。—level=0 または —level=inf で無制限。デフォルトは —level=5 らしい。

4xx5xx エラーが発生してもエラーのページを保存する。

これはエラーを無視するオプションではないので、なんらかのエラーが発生している場合は —content-on-error の有無に関わらず wget がゼロ以外の値で終了する。

条件にマッチしたディレクトリをダウンロード対象とする。カンマで区切って記述するが、直下までしか対象としない。例えば -I /files/repo@* とした場合、/files/repo@a/files/repo@b にはマッチするが、/files/repo@a/x にはマッチしない。

ワイルドカードは *, ?, [] が使える。

—include= の逆でマッチしたディレクトリを対象としない。同時に指定すると、おそらく —exclude= の方が強い。

ファイル名と拡張子を対象とするフィルタ。対象が異なるだけで動作は —include= 等と同じ。

URL全体を正規表現でマッチする。だいたい —include=—accept= 等と同じ。

対象がドメインになるだけ。

リンク先のURLをダウンロードしたファイルに書き換える。ただしこのとき、リンク先が —exclude= 等でダウンロード対象外となったファイルへのリンクは変換しない。

例えば a.html は対象のファイルで、ファイル中に x/file.html へのリンクが存在している場合、a.html 自体はダウンロードするが x/file.html へのリンクはそのままの状態で残る。

ホスト名を付けない。

調査しているファイルより上の階層にあるファイルはダウンロードしない。—include= よりも強力なので、/files/a.html を処理している際に /static/a.png への参照があっても(上の階層にあるので)無視する。

これは —no-parent よりも優先されている気がする。調べてない。