前の関連記事:Blogger:リンク切れチェック(2)Website Explorer:リンクエラー元ファイルを見つける
自分が作ったのでないページがいっぱい
前記事にでてきた~search?~のページが何かを調べてみました。
サイトリポートの右のタブ「サイト内データ」をみるとタイトルのないページがいっぱいでてきます。
これらは選択して右クリック→開く、で内容を見れます。
日付ごとやテーマ別にシステムがまとめてくれたページのようです。
これらはリンク切れチェックする必要がないので除外することにします。
これらのページのアドレスに共通にある単語を見つけます。
私の場合は「?updated-max=」です。
「?」はワイルドカードになるかもしれないので「updated-max=」をアドレスに含むページを除外することにします。
除外する単語をフィルタに設定
Website Explorerのメニューからアクション→詳細設定→フィルタ、を開きます。
サイト内データのページの「次の後をファイル名に含むページを解析しない」を選び先ほど決めた単語「updated-max=」を設定します。
これで再探査してみます。
「updated-max=」をアドレスに含むページが消えていますね。
「?」のあるリンクは最初の設定で除外できた
「?updated-max=」を含むリンクを除外しようと思いましたが「?」のあるリンクを除外する設定がありました。
詳細設定→ミッション
「?に続くクエリーを取得」のチェックボックスをチェックすると「?」を含むリンクを除外できました。
ということで「updated-max=」をフィルタに設定する必要はなくなりました。
複数の単語をフィルタに設定する
「_archive」を含むページもリンク切れチェックは不要そうです。
複数を設定するときは半角スペースを空ければよいとヘルプに書いてあります。
これで再探査します。
この画像は実は全角スペースになっていてうまくフィルタがかかりませんでした。
半角スペースに直すとちゃんとフィルタされました。
大文字小文字は区別されません。
フォルダ名をフィルタする
/search/label/を含むページも不要そうです。
これはフォルダフィルタ機能を使います。
結局こうなりました。
/search/label/ではちゃんと動かなかったのでsearch/labelとしました。
フィルタはなるべく記事のファイル名と重ならないようにしたいので_archiveは_archive.htmlに変更しました。
フィルタ設定前の検出したファイル数が141から86へ減少しました。
0 件のコメント:
コメントを投稿