SeeSaaブログのURL一覧取得【備忘録】

スポンサーリンク

力技感がありますが…自分がやった方法メモ。

まず、「自分のブログURL/sitemap.wml」にアクセス。
中を見てみると<loc>自分のブログURL/sitemap.xml?page=1</loc>があったので、「自分のサイトURL/sitemap.xml?page=1」にアクセス。
すると

「<url>
<loc>
自分のブログURL/article/381424234.html
</loc>
<lastmod>投稿日時</lastmod>
</url>」

といった具合にずら~っと自分のブログ記事のURL一覧が現れるので、それをコピー。

このままだと一覧にならないので…正規表現が使えるテキストエディタに、コピーしたものを貼りつけ…たかったのですが、そんなテキストエディタがなかったのでExcelで。

Excel 2010の場合はホームタブの一番右に「検索と置換」があるのでそれをクリック。

<lastmod>投稿日時</lastmod>を先に一括置換で消しちゃいます。
「検索する文字列」に

<lastmod>*</lastmod>

と入力。
「置換後の文字列」は空白に。そして「次を検索」をクリックした後で「すべて置換」します。

次に「検索する文字列」に<*>と入力します。
そして「次を検索」をクリックした後に「すべて置換」。

*(アスタリスク)を入れると、間の文字列が違っていても置換してくれるんですね…便利!

参考 正規表現を使用して文字列を検索および置換する (高度)

Wordの検索/置換の話ですが、Excelでも使用できました。

あ、一番上の行にある<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>と一番最後の行にある</urlset>も削除。

空白行を消す

このままだと空白行がたくさんあるので、「空白行を削除する」を参考にして、削除しちゃいます。
ブログURLを書き出した列を全て選択して、ホームタブの「並び替えとフィルター」→「フィルター」をクリック。
フィルターの▼をクリックして、(空白セル)のみをチェックします。(「全て選択」を外した後で一番下にドロップダウンすれば空白セルの項目が見つかるかと思います)
で、「OK」をクリックして並び替えると、空白セルのみがずらーっと並ぶと思うので、空白
セルを全て選択して「行の削除」。その後「並び替えとフィルター」→「フィルター」を再度クリックすると空白行が削除されています。

…って感じでURL一覧を取得してみましたが、もっと効率のいいやり方あるんだろうなー。

 

スポンサーリンク
SeeSaa
このブログをフォローする

コメント

タイトルとURLをコピーしました