Blogger:バックアップ(6)Web巡回ソフトGetHTMLW:フィルタ設定

2013-05-04

旧ブログ

t f B! P L

前の関連記事:Blogger:バックアップ(5)PDFに変換サービス(日本語未対応)

Web巡回ソフトGetHTMLWで画像を含めた全投稿をダウンロード


Web巡回ソフトGetHTMLWで画像も含めてBloggerをきれいにダウンロードできました。

再びBloggerにインポートできないという意味ではバックアップとは言えないかもしれません。

しかし誤って削除してしまった時に備えて写しをとっておくという意味では重宝します。


管理者権限で起動しない場合はWindowsフォルダにプロキシ設定ファイルが書き込めないため、ダウンロードした画像へのリンクをブラウザでみる設定ができないようです。

GeTHTMLWのzipファイルを適当なフォルダに解凍してGETHTMLW.EXEをダブルクリック。


メニューから取得→WebPage取得


ここに取得したいサイトのアドレスを入力して「実行」ボタンをクリックすればダウンロードされます。

過去に入力したデータはプルダウンメニューから選択できます。

フィルタを設定してダウンロード時間を節約する


デフォルトのままダウンロードするとリンク切れチェック(3)Website Explorer:フィルタを設定と同じようにsearch?のページが大量にダウンロードされてきます。

時間も無駄に長くかかってしまいます。

そのために取得条件の設定をします。


Bloggerのフォルダ構造は単純です。

ルートフォルダに年(2013)のフォルダがありその中に月(03、04、05など)のフォルダがありその中に各投稿がhtmlファイルとして入っています。

このhtmlファイルとそこに載っている画像ファイルだけダウンロードしてくるようにすれば投稿内容のバックアップとしては十分です。

メニューから設定→取得条件設定


フィルタ編集をクリック。ここにフィルタ設定を入力して取得ファイルを制限します。

デフォルトのフィルタは以下のように設定されています。

0:.(arc|gz|exe|lzh|zip|zoo|hqx|cab)$ .z$
0:.(aif|au$|ra|wav|mp|mov|avi$|pdf$)
#0:.(mid|jp[eg]|gif$|bmp$|[px]bm$)

フィルタ設定の説明


#がある行はコメント行として無視されます。

行頭の数字は0からFの十六進法で表せる取得レベルの設定です。

まず二進法の4桁で設定を決めます。

1bit目が1桁目になります。

 1bit目:"1"=フィルタに該当すれば許容URL階層範囲で取得。
 2bit目:"1"=フィルタに該当すれば許容URL階層範囲外でも取得。
 3bit目:"1"= 取得時旧データがあれば旧データを別名で保存。
 4bit目:"1"=フィルタに該当したら取得階層深度指定を超えても取得。

解凍したときにでてくるgethtmlw.txtファイルにたくさんの例とともにもっと詳しい解説があります。

許容URL設定をしていなければ取得指定階層より上の階層のリンクが許容URL階層範囲外となります。

許容URL設定と取得階層深度指定は、メニューから設定→取得条件設定、で出てくるパネルで設定します。

クリックしなくても見えている画像はそのページと同階層と判断されます。

Bloggerに適したフィルタ設定を決める


クリックしなくても見えている画像はそのページと同階層と判断されますので画像ファイルの階層は考えなくて大丈夫です。
ダウンロードしたいhtmlファイルは全てこの最下層の月フォルダの中に入っています。

年フォルダも今後増えるはずなので取得指定階層はp--q.blogspot.jpにします。


ダウンロードするファイルの拡張子を決めます。

html jpg png gif bmp ico にします。

取得指定階層に2013_03_01_archive.htmlなどのhtmlファイルがあるためこれらもダウンロードされてしまいます。

そのため_archiveを含むhtmlファイルを除外するフィルタをつくります。

以下のようになります。→の次の数字は二進法で表した取得レベルです。

拡張子htmlで_archiveをURLに含むファイルは取得しない→0000
残ったファイルのうち拡張子html jpg png gif bmp icoのファイルを許容URL階層範囲で取得→0001
残ったファイルは全て取得しない→0000

このフィルタ設定をGetHTMLWの規則で書くと以下のようになります。

0:.html$/_archive
1:.(html|jpg|png|gif|bmp|ico)$
0:\.*

(¥は\と見えています。)

行頭の取得設定は4桁の二進法を十六進法に変換したものですが単純に0が取得しない、1が取得する、と理解しておけばよいでしょう。

拡張子はドットと$ではさみます。同時に単語の制限をする場合は拡張子の次に/で区切って続けます。

並列する複数の条件は半角スペースで区切りますが( | )でまとめることができます。

\.*はすべてのURLを指します。

フィルタは上行から順に実行されます。


「OK」ボタンをクリックします。

「記憶」ボタンで取得条件保存ファイルに書き込む



次の取得条件設定のパネルでは「記憶」ボタンをクリックしてデータディレクトリにある取得条件保存ファイル(gethtmlw.cf)への書込みます。

「OK」ボタンだとGetHTMLWを再起動すると取得条件がクリアされてしまいます。

参考にしたサイト


GetHTMLWの詳細情報 : Vector ソフトを探す!
Web自動巡回ソフト

ブログやHPを丸ごと保存するフリーソフト:GetHTMLW(プロキシ設定解説あり)
紹介ページ

次の関連記事:Blogger:バックアップ(7)GetHTMLW:その他の取得設定

ブログ検索 by Blogger

Translate

最近のコメント

Created by Calendar Gadget

QooQ