こんにちは!ほけきよです。
はてなから移行するのめんどそうだし、はてな嫌いじゃないし、移行とかあんまり考えてません。 なのでよかったです!
けど、記事の最後に気になる文がありましたね。
HTTPSのページを閲覧するときに、HTTPの画像やJavaScriptがあると、Webブラウザが混在コンテンツ(Mixed Content)としてブロックし、表示されません。このときブラウザの「開発者ツール」を利用すると、次のように「Mixed Content」エラーが確認できます。
ほえぇ、なるほろ。画像とjjavascriptのタグ内httpは自分で変えなければならないのね。
でもいちいち調べるの面倒。ムリ。
なので、画像とjavascript内のhttpを自動で抽出するアレを作りました。
※今回もpythonです
Requirement
Python3系環境と、以下のモジュールが必要です。
BeautifulSoup
jupyter
ちなみに、私の記事で環境を入れている人は問題なく動くはずです。
ダウンロード法
githubにて保管しています。
gitが使える方
git clone https://github.com/hokekiyoo/get_http.git
gitを知らない方
- 下記ページに飛ぶ
GitHub - hokekiyoo/get_http: はてなHTTPS化用 - 画像の
Clone and Download
を押す
Download ZIP
を押す
これで、zipファイルが解凍されるはずです。解凍して中身を好きな場所に移してください (よくわからない人は、デスクトップ上に直置きでOKです。これからその体で話します。)
使い方
※ 初心者向けに書いています。jupyter使ったことのある人は適当に使ってください。
起動
これで、jupyterの画面が開くはずです!
あとは、画面上にあるget_http.ipynb
を押してください。
実行
区切られた各セルをクリックして、再生ボタン(またはshift+enter
)を押すと実行されます
notebookにかかれてあるとおりに進めてくれるとOKです。 変えるところは、
- url : 自分のurlを入れましょう
- i : (一記事だけ見たい人は)記事番号を入れましょう
下記のように進めてください。
すると、画像とスクリプトのhttpの部分だけ抽出されます
まとめ
やはり、退屈なことはpythonにやらせるのが吉ですね。
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング
- 作者: Al Sweigart,相川愛三
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/06/03
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (5件) を見る
https化、大変だけどがんばりましょうね。
ちなみに、環境がんばったけど入らないという人とか、そんなこと関係なくやって!というひとはURLを添えてご連絡ください。 気が向き次第対応します!気が向き次第ね!ではではっ
関連
Pythonによる自動化、他にもいろいろと作ってますので、興味があれば是非是非お試しください!