【https化に向けて】混在コンテンツのhttpを自動で抽出するアレを作った

こんにちは！ほけきよです。

はてなのSSL化、ようやく来ましたね。

staff.hatenablog.com

はてなから移行するのめんどそうだし、はてな嫌いじゃないし、移行とかあんまり考えてません。なのでよかったです！

けど、記事の最後に気になる文がありましたね。

HTTPSのページを閲覧するときに、HTTPの画像やJavaScriptがあると、Webブラウザが混在コンテンツ（Mixed Content）としてブロックし、表示されません。このときブラウザの「開発者ツール」を利用すると、次のように「Mixed Content」エラーが確認できます。

ほえぇ、なるほろ。画像とjjavascriptのタグ内httpは自分で変えなければならないのね。

でもいちいち調べるの面倒。ムリ。

なので、画像とjavascript内のhttpを自動で抽出するアレを作りました。

※今回もpythonです

Requirement
ダウンロード法
- gitが使える方
- gitを知らない方
使い方
- 起動
- 実行
まとめ
- 関連

Requirement

Python3系環境と、以下のモジュールが必要です。

BeautifulSoup
jupyter

ちなみに、私の記事で環境を入れている人は問題なく動くはずです。

www.procrasist.com

ダウンロード法

githubにて保管しています。

gitが使える方

git clone https://github.com/hokekiyoo/get_http.git

gitを知らない方

下記ページに飛ぶ
GitHub - hokekiyoo/get_http: はてなHTTPS化用
画像のClone and Downloadを押す
Download ZIPを押す

これで、zipファイルが解凍されるはずです。解凍して中身を好きな場所に移してください (よくわからない人は、デスクトップ上に直置きでOKです。これからその体で話します。)

使い方

※ 初心者向けに書いています。jupyter使ったことのある人は適当に使ってください。

起動

コマンドプロンプトを開く Windowsボタン + cmdと打つ + Enter
cd Desktop と打つ
jupyter notebookと打つ

これで、jupyterの画面が開くはずです！

あとは、画面上にあるget_http.ipynb を押してください。

実行

区切られた各セルをクリックして、再生ボタン(またはshift+enter)を押すと実行されます

notebookにかかれてあるとおりに進めてくれるとOKです。変えるところは、

url : 自分のurlを入れましょう
i : (一記事だけ見たい人は)記事番号を入れましょう

下記のように進めてください。

f:id:imslotter:20170925214243g:plain

すると、画像とスクリプトのhttpの部分だけ抽出されます

まとめ

やはり、退屈なことはpythonにやらせるのが吉ですね。

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

作者: Al Sweigart,相川愛三
出版社/メーカー: オライリージャパン
発売日: 2017/06/03
メディア: 単行本（ソフトカバー）
この商品を含むブログ (5件) を見る

https化、大変だけどがんばりましょうね。

ちなみに、環境がんばったけど入らないという人とか、そんなこと関係なくやって！というひとはURLを添えてご連絡ください。気が向き次第対応します！気が向き次第ね！ではではっ

プロクラシスト

今日の寄り道明日の近道

PROCRASIST

Profile

ほけきよ

Search

Categories