自分のサイトをスクレイピングした
自分が運営しているサイトである個人撮影 ライブチャット コレクターをスクレイピングした。
まずトップページから最後のページ番号を取得
↓
while文をぶん回して1ページずつ記事URLを取得
↓
記事URLを使って記事の中身を取得
記事の中にあるaタグのリンクを全て取得
タイトル、サムネURL、投稿日取得
全タグ(カテゴリ含む)取得
iframeの埋め込みリンクを取得
↓
取得した全aリンクから動画URLのみをマッチングさせ配列に入れる
↓
タグの中に「!動画は削除されました」タグがある場合、変数に1を代入
↓
DBに格納
ちなみにDBのテーブルは2つ作った。
エロタレスト先生の仕様として動画は6つまでカウントされるっていうのがあったので、当初mv_01~mv06+henkan01~06、umekomi…(ryとバカみたいにカラムを増やして入れようとしてたけど、テーブルを2つ作ることでスッキリと管理できるようになった。気づいてよかった。
▼DBの正規化を参照
www.atmarkit.co.jp
これからやること
・sharevideos apiを使って全動画URLの変換前 or 変換後のURLを取得
・sharevideos apiを使って動画の長さを取得
・各動画共有サイトをスクレイピングして動画の生き死に判定ができるか調べる
・各動画共有サイトをスクレイピングして動画の長さを取得できるか調べる
ちなみにまだ触ってないけどREDTUBEにはAPIがあるらしい。
今後できるようになること
・記事ネタを探す際、過去に記事にしたことのある動画かどうかを判定できる
→動画の上げ直しが多いので「動画の長さ」も参考にして候補一覧として出す
・一日一回、全記事中の全動画の生き死に判定ができる
→現在はsharevideosの動画が削除されにくいことに甘えている仕様
余談
話はガラっと変わるけど、まとめサイトのカイカイ反応通信がスゴイ。
韓国の2ちゃんねる的な掲示板を翻訳してまとめているサイトなんだけど翻訳量がスゴすぎる。
▼個人的にすごく面白かった記事
韓国人「日本のラーメン屋でバイトしてた時、一緒に働く日本人を怒らせた5つのエピソードを紹介する」 : カイカイ反応通信
自分も中国語や韓国語の翻訳できるようになりたいなぁ。
それができればユーザービリティだけじゃなく、サイトコンテンツの独自性という面でも他にはない優良なサイトに!
語学の勉強も頑張らないと≡≡≡ヘ( ^^)ノ