プロクラシスト

今日の寄り道 明日の近道

【https化に向けて】混在コンテンツのhttpを自動で抽出するアレを作った


スポンサーリンク

こんにちは!ほけきよです。

はてなSSL化、ようやく来ましたね。

staff.hatenablog.com

はてなから移行するのめんどそうだし、はてな嫌いじゃないし、移行とかあんまり考えてません。 なのでよかったです!

けど、記事の最後に気になる文がありましたね。

HTTPSのページを閲覧するときに、HTTPの画像やJavaScriptがあると、Webブラウザが混在コンテンツ(Mixed Content)としてブロックし、表示されません。このときブラウザの「開発者ツール」を利用すると、次のように「Mixed Content」エラーが確認できます。

https://cdn-ak.f.st-hatena.com/images/fotolife/h/hatenablog/20170925/20170925141303.png

ほえぇ、なるほろ。画像とjjavascriptのタグ内httpは自分で変えなければならないのね。

でもいちいち調べるの面倒。ムリ。

なので、画像とjavascript内のhttpを自動で抽出するアレを作りました。

※今回もpythonです

Requirement

Python3系環境と、以下のモジュールが必要です。

  • BeautifulSoup
  • jupyter

ちなみに、私の記事で環境を入れている人は問題なく動くはずです。

ダウンロード法

githubにて保管しています。

gitが使える方

git clone https://github.com/hokekiyoo/get_http.git

gitを知らない方

これで、zipファイルが解凍されるはずです。解凍して中身を好きな場所に移してください (よくわからない人は、デスクトップ上に直置きでOKです。これからその体で話します。)

使い方

※ 初心者向けに書いています。jupyter使ったことのある人は適当に使ってください。

起動

これで、jupyterの画面が開くはずです!

あとは、画面上にあるget_http.ipynb を押してください。

実行

区切られた各セルをクリックして、再生ボタン(またはshift+enter)を押すと実行されます

notebookにかかれてあるとおりに進めてくれるとOKです。 変えるところは、

  • url : 自分のurlを入れましょう
  • i : (一記事だけ見たい人は)記事番号を入れましょう

下記のように進めてください。

f:id:imslotter:20170925214243g:plain

すると、画像とスクリプトのhttpの部分だけ抽出されます

まとめ

やはり、退屈なことはpythonにやらせるのが吉ですね。

https化、大変だけどがんばりましょうね。

ちなみに、環境がんばったけど入らないという人とか、そんなこと関係なくやって!というひとはURLを添えてご連絡ください。 気が向き次第対応します!気が向き次第ね!ではではっ

関連

Pythonによる自動化、他にもいろいろと作ってますので、興味があれば是非是非お試しください!

PROCRASIST