パニック速報

The next stage is paradise…

社内環境でwebスクレイピング入門

備忘録

☣前提条件☣

そこそこ大きめの企業特有のガチガチ環境

一人につき仮想PC環境が1つ与えられる

認証プロキシ突破しないとwebアクセスできない。

OS:Windows 10

Python実行環境:Anaconda3

バージョン:python3.7.4

☣やりたいこと☣

qiita.com

☣ライブラリインストールの課題

会社の認証プロキシを突破しないとpipやcondaでライブラリを入れられなくて困った。 ↓で解決(urllib3を入れた) tech-diary.net

☣urllib3でurlopenメソッドが使えない。

見出しの通り。

↓urllib3は2で使えた関数を持っていないらしい。てかAnacondaにデフォで入ってるrequestsライブラリ使った方が楽だわw teratail.com

☣とりあえずコピペで走らせたけどライブラリがエラーあほ程吐く

エラー内容的にプロキシでブロックされてるっぽい・・・詰んだ

↓で解決

blackwhitebear.hateblo.jp

☣エラーは減ったけどなんか TypeError: object of type 'Response' has no len()って出る

なんかよくわからんけど.contentつけたら行けたわ teratail.com

☣結果☣

f:id:vip-de-marika:20200310153913p:plain

やったぜ

Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!

Python2年生 スクレイピングのしくみ 体験してわかる!会話でまなべる!

  • 作者:森 巧尚
  • 発売日: 2019/10/04
  • メディア: 単行本(ソフトカバー)

スクレイピングのTips漁ってると良く出てくるWiki、コロナ対応の台湾と日本を比較してみると日本終わってるのがよくわかる。隣の芝は青い

岡崎市立中央図書館事件 - Wikipedia