クローリングハック あらゆるWebサイトをクロールするための実践テクニック
竹添直樹(著)
,島本多可子(著)
,田所駿佑(著)
,萩野貴拓(著)
,川上桃子(著)
/翔泳社
作品情報
Webアプリケーション、Webサービスを開発・運用するエンジニアは、HTML/HTTPやWebサーバなどWeb技術の仕組みや基礎的な知識をおさえておかなければなりません。本書では、実サービスでの大規模なWebクローラーの開発・運用経験をもとに、クローラーを支える、HTTP、文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアがおさえておくべきポイントやテクニックを学びます。クローラーから見たWebサイトの仕組みとその実情に加えて、現実に即した実践的かつ効率的なクローリングの方法論についても解説します。○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる○大規模なクローラーの開発・運用ノウハウを知ることができる○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる【対象読者】本書はWebクローラーを題材としていますが、クローリングのために必要なWeb技術の解説に重点を置いており、主に次のような方々に読んでいただけるよう執筆しました。● 正しい知識を身につけたいWeb開発者● クローラビリティの高いWebサイトを作成したいWebサイト運営者また、HTMLやCSSなど、Webサイトの作成に関わる最低限の知識、およびサンプルコードを読解するためのプログラミングに関する基礎知識を前提としています。サンプルコードはJavaで記述していますが、Java固有のセマンティクスやプログラミングテクニックは可能な限り避けていますので、Javaに対する深い理解は必要ありません。※本電子書籍は同名出版物を底本として作成しました。記載内容は印刷出版当時のものです。※印刷出版再現のため電子書籍としては不要な情報を含んでいる場合があります。※印刷出版とは異なる表記・表現の場合があります。予めご了承ください。※プレビューにてお手持ちの電子端末での表示状態をご確認の上、商品をお買い求めください。
もっとみる
商品情報
以下の製品には非対応です
この作品のレビュー
平均 4.0 (2件のレビュー)
-
主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。
クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあ…ったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいいかもしれない。
サイトの文字コードについて判断するには、Content-TypeヘッダとHTML内のmetaタグの二種類があるそうだけど、どちらも記載があったらContent-Typeのほうを優先するらしい。仕組み考えたらそりゃそうかと思うけど、どっちかというと書かれてる文字コードが違う場合は、metaタグのほうが正しいことのほうが多いような気がする。特に静的なHTMLページの場合。
後、Javaのライブラリだけど、Normalizerという文字をうまい具合に正規化してくれるAPIがあるのがいいなと思った。他の言語にもあるんだろうか。Javaで標準になってるぐらいだからありそうだけど。ちょっと探してみようと思う。
それと、MySQLは文字コードの対応がいろいろ必要になってくるんだなと思った。Charsetが4バイト文字の場合、区別しなくなるらしい。それを、「寿司ビール問題」と呼ぶのだとか。こういう問題があるというのはどこか頭の片隅にでもおいておきたい。
後、Google検索で表示されるファクトチェックという機能をはじめて知った。コンテンツの情報が正しいかどうかチェックした結果を表示してくれるらしい。何をもって正しいと判断してるかは気になるけど、日本でも普及してもらえないだろうか(人力だろうから大変だろうけど)。
後、Chromeにヘッドレスモードが追加されてるというのも初めて知った。それを受けて、WebDriverで使われていたヘッドレスブラウザのPhantomJSがメンテナンスを終了したらしい。それなら、Chromeの利用例を書いてくれよと思った(利用例はPhantomJSで書かれている)。
クローリングについては前からいろいろ興味はあって調べたりすることはあるけど、活用したことはないので、何か作ってみたいと思う。もちろん、迷惑がかからない程度に。続きを読む投稿日:2017.10.01
クローリングだけでなく、Webサイトを作るのに役立つ深い内容になっている。
文字化けの説明は特に。投稿日:2018.10.19
新刊自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。
- ・発売と同時にすぐにお手元のデバイスに追加!
- ・買い逃すことがありません!
- ・いつでも解約ができるから安心!
※新刊自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新号を含め、既刊の号は含まれません。ご契約はページ右の「新刊自動購入を始める」からお手続きください。
※ご契約をいただくと、このシリーズのコンテンツを配信する都度、毎回決済となります。配信されるコンテンツによって発売日・金額が異なる場合があります。ご契約中は自動的に販売を継続します。
不定期に刊行される「増刊号」「特別号」等も、自動購入の対象に含まれますのでご了承ください。(シリーズ名が異なるものは対象となりません)
※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。
※My Sony IDを削除すると新刊自動購入は解約となります。
お支払方法:クレジットカードのみ
解約方法:マイページの「予約・新刊自動購入設定」より、随時解約可能です続巻自動購入は、今後配信となるシリーズの最新刊を毎号自動的にお届けするサービスです。
- ・発売と同時にすぐにお手元のデバイスに追加!
- ・買い逃すことがありません!
- ・いつでも解約ができるから安心!
- ・優待ポイントが2倍になるおトクなキャンペーン実施中!
※続巻自動購入の対象となるコンテンツは、次回配信分からとなります。現在発売中の最新巻を含め、既刊の巻は含まれません。ご契約はページ右の「続巻自動購入を始める」からお手続きください。
※ご契約をいただくと、このシリーズのコンテンツを配信する都度、毎回決済となります。配信されるコンテンツによって発売日・金額が異なる場合があります。ご契約中は自動的に販売を継続します。
不定期に刊行される特別号等も自動購入の対象に含まれる場合がありますのでご了承ください。(シリーズ名が異なるものは対象となりません)
※再開の見込みの立たない休刊、廃刊、出版社やReader Store側の事由で契約を終了させていただくことがあります。
※My Sony IDを削除すると続巻自動購入は解約となります。
お支払方法:クレジットカードのみ
解約方法:マイページの「予約自動購入設定」より、随時解約可能ですReader Store BOOK GIFT とは
ご家族、ご友人などに電子書籍をギフトとしてプレゼントすることができる機能です。
贈りたい本を「プレゼントする」のボタンからご購入頂き、お受け取り用のリンクをメールなどでお知らせするだけでOK!
ぜひお誕生日のお祝いや、おすすめしたい本をプレゼントしてみてください。※ギフトのお受け取り期限はご購入後6ヶ月となります。お受け取りされないまま期限を過ぎた場合、お受け取りや払い戻しはできませんのでご注意ください。
※お受け取りになる方がすでに同じ本をお持ちの場合でも払い戻しはできません。
※ギフトのお受け取りにはサインアップ(無料)が必要です。
※ご自身の本棚の本を贈ることはできません。
※ポイント、クーポンの利用はできません。クーポンコード登録
Reader Storeをご利用のお客様へ
ご利用ありがとうございます!
エラー(エラーコード: )
ご協力ありがとうございました
参考にさせていただきます。