アダルト動画ブログ管理人のブログ

アダルト動画ブログ4つ始めました。おまけでアイドルブログも1つ始めました。

AV女優の新人情報をチェックできるサイトを作った。

アフィ始める前からずっと思ってた。
AV女優の新人情報を大きな画像の一覧でチェックできるサイトはないかと。
小さい画像の一覧でいちいちクリックしてチェックしなきゃいけないサイトばっかりで、本家DMMですら小さい。
ということで自分で作ってみた。

最初スクレイピングで作ろうとしたけどDMMはAPIが使えることを知ってAPIを使って作ってみた。

こんな感じ。
f:id:kosatsu:20160804155845j:plain

しんじん速報
http://avlabo.net/newface/

http://kawaiine-sokuhou.com/shinjin/
(追記:引っ越しました)

問題点
・デビュー作じゃないのにデビュー作と偽る糞メーカー
・グロ(オカマ・四十路・五十路・還暦等)が弾いてても混じる
・配信開始日でしか取得できない

そんなわけでアーカイブが現時点で2014年までしかない。
作業が遅々として進まない。
特に3つ目の配信開始日でしか取得できないっていう問題が大きい。
例えば昔の90年台の作品が2000年台に混じってきたりする。
昔のVHS(ビデオテープ)の作品をデジタルデータに変換して配信って感じのやつ。

DMMには配信開始日と商品発売日という2つの項目があるけど、そのうちの配信開始日しかAPIで取得できないっていうのが辛い。
ちなみに商品発売日はDVDやBlu-rayとか現物の発売日で配信開始日はストリーミング&ダウンロード販売の開始日のこと。
これがDVD全盛時代には現物販売のみで配信されてなかったやつが後から配信されるパティーンが多すぎて涙目なのだ。
しかもさらに最悪なのはメーカーによって遅れ方がバラバラということ。
しかもしかもさらに最悪なのは商品発売日がちゃんと書いてあるのとないのがあるってこと。
いや全部ちゃんと書けよ!と。
そのことで私がどれだけ不利益を受けていることか。
具体的な流れを示すと、

「このパッケージちょっと古そうだな」クリック
→商品発売日が書いてない
Googleで調べる
→汗かく
→ジュース飲む
→太る

こういうことである。
最近はぐぐらずにArzonで調べている。
Arzonの中の人は頑張って調べてちゃんと書いてある。
それに比べてDMMはなんというていたらくだ!
俺にデータ入力のバイトさせろ!

ふぅ。
ジュース飲もう。

ShareVideos APIで確認くん機能拡張

追記:現在はサービス停止しています!
http://spochann.com/svindex.phpspochann.com

機能拡張しないって言ってたけど、あまりにもお粗末で自分的にも利便性が悪かったので前言撤回して拡張した。
基本的には自分が使うためのページを、隠すこともないかなと思って公開している感じなので他ユーザーの利便性は考えていない。

追加機能
・ShareVideosのURLでも動画情報を確認できるようにした
(今まではyoutubeやxvideos等の元動画URLのみでsharevideosのURLを入力した場合エラーだった。)
・動画のタイトルを取得
・動画生成日を取得
・サムネイル一覧を取得
・動画リンクを設置

諦めたこと
・埋め込み動画のURLを取得

いらない
・レスポンシブデザイン


埋め込みは諦めた。
動画URLの数字の部分だけ取ってembedのURL形式に当てはめればいいと思ってたけど
URLのid的な部分が数字じゃなくアルファベットの文字列だったりすることもあって「めんどくせー、やーめたっ」てなった。
それに自分ブログで埋め込み使わないし。

それとレスポンシブデザインはめんどくさい。
まさかスマホでエロ動画ブログを運営してアフィやってる人なんていないだろう?
まさかね?って感じだし、PCで見れればいいよねってことでCSSいじってない。
ただSEO個人撮影 ライブチャット コレクターまで悪い影響を受けないか心配。

ShareVideos API使ってみた!

追記:現在はサービス停止しています!

ShareVideosのAPIが公開されていたのでそれを使った簡素なページを作ってみた。
http://spochann.com/svindex.php

f:id:kosatsu:20160707140054j:plain

わぁほんとに簡素~!

元動画のURLを入力すると~

f:id:kosatsu:20160707140205j:plain

こういう感じで変換前のURLと変換後(ShareVideosのサーバー上にある動画)のURLが表示されます。

掲載状況を確認するをクリックすると~

f:id:kosatsu:20160707140453j:plain

動画エロタレストさんの管理画面で掲載状況が確認できます。
タレストさんに登録しているwebmasterにはお馴染みの画面ですね。
いちいち入力するのが面倒なのでクリック一発で飛べるようにしています。
なぜこの画面を見る必要があるかというとタレストさんのルールで記事の動画がかぶっている場合に遅い方の掲載が約1週間遅れるという表示遅延ルールがあるからです。

追記:基本的に自分が使うために作ったのでこれ以上の機能充実は考えていません。(他のアンテナサイトの追加など)

アンテナサイトの画像直リンクをブロックする

画像を直リンクで貼って動画リンクまで設置して自己完結しているアンテナサイトがあったのでブロックした。

画像直リンクを許可するサイトを登録するというホワイトリスト方式でnginxのdefault.confに書いた。
ブラックリスト方式だとできなかった。
1時間くらい頑張ってみたけど自分のサイト含む全サイトで画像が403になってしまう事態が発生した。
そして調べてみてもほとんど出てくるのがホワイトリスト方式でブラックリスト方式に関しては情報少なすぎた。
ホワイトリスト方式はgoogleとかyahooとか検索エンジンも登録しなきゃいけなくて、なんかちょっと引っかかった。
これから来たかもしれないアンテナサイトや検索エンジンの新規参入の門戸を閉ざしてしまうようで引っかかった。
ほんとはブラックリスト方式でやりたかった。
まぁでも画像って普通自前で用意するもんだしね。
そこをクリアできるアンテナサイトが新規参入してくれればいいよね。

ブラックリスト方式

<?php
location ~* ^.+(\.jpg|\.jpeg|\.gif|\.png|\.ico)$ {
    if ($http_referer ~* (www.example.com|hogehoge.jp) ){
        return 403;
        break;
    }
}
?>

こんな感じでやったけどダメだった。

owatablog.hatenablog.com
このサイトの方法も試してみたけどダメだった。

could not build map_hash, you should increase map_hash_bucket_size: 32

こういうエラーでた。
そしてめんどくなってホワイトリスト方式で妥協した。

動画エロタレスト先生がGoogle先生と仲良すぎて検索結果を全部吸っちゃう件

記事が1記事しかタレストさんに収集されなくなった。
2件更新すると最新の1件しか収集されない。
6時間に1回1件しか収集されない。

なんか嫌われてるのかなと思ってしまうけど、IN OUTのアクセスを見ると4206送ってもらって49しか送り返せていない日とか2347送ってもらって8しか送り返せていない日とかそんなんばっかりだったのでこれはしょうがないなと思った。
自分が登録する前の過去のおしらせを見たら「INアクセス数に対してOUTアクセスが過大に出ているサイト様の記事収集数を調整しました」っていうのがあったからたぶんこれだ。
現時点で労力に対して割にあわない収入しか稼げてないんだけど(コンビニでアルバイトした方が5倍くらいマシ)、タレストさんからの流入まで制限かかっちゃったらもうノーフューチャーだ。
Googleさんからのアクセスが爆発するようなことでも起きればいいんだけどその可能性も期待できない。
というのもタレストさんが検索結果を吸ってしまうからだ。

具体例として最近あった話をしよう。
現在、「個人撮影 ライブチャット」の2つの単語でgoogle検索すると自サイトである個人撮影 ライブチャット コレクターが一番上に来る。
でも、これはgoogleさんがユーザーに最適化された検索結果を出すためである。(何度も訪れているサイトは検索上位に来る)
そこで友達のPC+自サイトに来たことがないブラウザでぐぐったところ3位だった。
1位はタレストさん。
記事名の単語を使ってぐぐった場合も、タレストさんに掲載されている自分の記事が上位表示され、オリジナルコンテンツである自分のサイトの記事は下位表示されるということが起きる。
これはタレストさんに登録しているほとんど全てのサイトに当てはまると思う。
検索結果全部吸っちゃう。

ということは自分のコンテンツが原因でアクセス流入があるのに検索で上位表示されるのはタレストさんだから、直で自分のサイトに訪れる人より一度タレストさんを通してくる人が多くなるってことだ。
つまりINアクセス数に対してOUTアクセスが過大に出ている状態をますます促進してしまうってこと。
その検索流入分は自分のサイト側の功績なので自分のサイトが送り返した分として集計して欲しいくらいなんだけど。
これはタレストさん的にも盲点かもしれない。

動画エロタレスト先生のサイトランクシステム崩壊に関して思うこと

エロハムスターさんが見つけやすさランク2に低下してた。
見つけやすさランクは0~4で4が一番見つけやすくて優遇されるって仕組み。

この前、グラドルの仲村みうがソープデビューしてた記事を書いたらクリック数1万超えでランキングにも入ったので、手間かかるけどこの路線で行こうと思って、AV界の話題のニュースを文章や画像、ソースリンク等つけて手間ひまかけて、精魂込めて、真心と愛情たっぷりの記事として投稿してたらサイトランク2段下がって2になった。
記事が充実すればするほど動画は見つけにくくなり評価が下がるという悲しいシステム。

やっぱりあれか。
「動画なし」という理由で除外されてた記事を「なぜですか?教えて下さいペコペコ」メールしたら、スラッシュ本来1つのところを2つ重ねてたことが原因だったっていう(でも見れる)、しょうもないことでメール送ってしまったことが原因か。
あのときにサイトの記事の形式が変わってることに気づいたのか。
でもさすがに2はひどい。
最初の画像をタレストリンクにした以外は騙しとか全くないのに。
神経衰弱タイプの動画1動画2動画3とかもないんだぜ。
DMMのリンクにはちゃんと「▶作品詳細」、動画リンクには「▶動画を見る」ってわかりやすくしているのに。
でも最近、違う案件で2度メール送ってるからこれ以上送ったら「おまえめんどくせーな BAN!」されちゃう可能性があるからこれ以上めんどくさいこと言えない。

あ、本題に入りますけど、タレストさん最近アレなんですよ、アレになったんですよ。
生理じゃないよ。
いままでGoogle Analyticsを使ってIN アクセスの集計してたんだけど無料で大量のアクセスを捌けないらしくて、プレミアムは月130万円らしくて、加えてアダルトサイトはダメ。

ってことでサイトランクシステムが崩壊したんだよ!

あ、ちなみにさっき言った見つけやすさランクとサイトランク(アクセス送り返した数で評価)の2つの評価値で記事がどれくらい優遇されるか変わってくるという仕組みね。
自分はずっとサイトランク0だったのでこれは嬉しい。
これは下克上のチャンス!
でも、今までgoogleさんが無視してたアクセスもタレストさんの自前カウンターだと集計してしまうのでこれからアレになると思う。
いや、googleさんすぐ送り返すやつとか集計しなかったのよ。
行ってすぐ戻る系のやつ。
例えばタレストさんからエロい記事を見つけてハァハァしながらそのサイトに飛ぶ→騙しリンクにかかってすぐタレストさんに飛ばされる
これが集計されづらかった。
厳密にどういう仕組みになっているかはブラックボックスgoogleの闇でわからないから、集計"されなかった"と明言できないけど"されづらかった"のは確か。
ということはアレですよ。
これからはめちゃめちゃ騙しリンクが捗るってことですよ!
いやぁ~そんな詐欺師が横行する世紀末的社会に善人の俺は生き残れないよ!
うわーん。
やっぱダメじゃん。

追記:偽装アクセスもanalyticsの導入によって弾いていたみたい。どうするんだろ。

スクレイピングでヘッダーにDMMのランキング配置<静的なページ>

いままでアクセスがあるたびにDBから呼び出しててちょっと重かったので静的なページに変換するってことをやってみた。
性的なページを静的なページに変換
結果、$wpdbの宣言とか必要なかった。

cron走らせてスクレイピング&DBにデータ格納
→selectで表示
→表示された結果をファイルとして書き出す
→書きだされたファイル(静的なページ)をrequire_onceで持ってくる

という流れなのでwordpress関係なし。
故に$wpdb必要なし。

使った関数はコチラ → file_put_contents

ちょっとつまづいたところは2点。

1つはデータ格納と表示を1つのファイルでやろうとして変数がかぶってエラーがでたっていうやつ。
$sqlと$stmtを違う名前にして解決できた。

もう1つはfile_put_contents($filename, 'ほげ')ってやる部分のほげの部分に書き出す内容を指定するんだけど、そこに長いselect文から始まるやつが入るので困った。
そして展開されないで文字列がそのまま書きだされてしまって困った。
でもob_get_contentsを使うことで解決。
なんかバッファするらしい。
たぶんだけど牛みたいな生物とは関係ない。
そんで長い記述も次のようにすれば解決。
file_put_contents($filename, ob_get_contents());
めんどいから詳しく書かないけど。
最近技術的なことばかりやってて記事を2日間も更新してない。
いまから5ブログ3,4記事更新することを考えると憂鬱だ。

追記:バッファする必要なかった。ほげの部分は変数にしてecho部分をほげに入れていく方法が一番良さげ。