今日は So-net ブログに投稿した自分の記事を他のサイトに転載するための処理を書いていた。意外だったのが投稿時刻で、ページを保存した HTML を分析した結果、秒まで含む情報は RDF の中にしか出てこない。RDF は HTML 的にはコメントの中に書かれているので、普通に HTML を parse しても取り出せないので少し困った。
もう一つ悩んだのが、前後の記事へのリンクである。元のページと同じ名前にすれば簡単なのだが、ちょっと余計なことをしてしまったのだ。
今日は So-net ブログに投稿した自分の記事を他のサイトに転載するための処理を書いていた。意外だったのが投稿時刻で、ページを保存した HTML を分析した結果、秒まで含む情報は RDF の中にしか出てこない。RDF は HTML 的にはコメントの中に書かれているので、普通に HTML を parse しても取り出せないので少し困った。
もう一つ悩んだのが、前後の記事へのリンクである。元のページと同じ名前にすれば簡単なのだが、ちょっと余計なことをしてしまったのだ。