クローリングハック あらゆるWebサイトをクロールするための実践テクニック

竹添直樹, 島本多可子, 田所駿佑, 萩野貴拓, 川上桃子 / 翔泳社
(2件のレビュー)

総合評価:

平均 4.0
0
1
0
0
0

ブクログレビュー

"powered by"

  • toozeki

    toozeki

    クローリングだけでなく、Webサイトを作るのに役立つ深い内容になっている。
    文字化けの説明は特に。

    投稿日:2018.10.19

  • amano225

    amano225

    主に、Javaを使ったクローリングとスクレイピングについての本。クローリングに関するテクニック等がまとまっていたように思う。
    クローリングする側ではなく、Webサイト制作者向きにかかれてそうな記述もあったけど、それはそれで勉強になった。SEOとか考えてサイト制作している人にもいいかもしれない。
    サイトの文字コードについて判断するには、Content-TypeヘッダとHTML内のmetaタグの二種類があるそうだけど、どちらも記載があったらContent-Typeのほうを優先するらしい。仕組み考えたらそりゃそうかと思うけど、どっちかというと書かれてる文字コードが違う場合は、metaタグのほうが正しいことのほうが多いような気がする。特に静的なHTMLページの場合。
    後、Javaのライブラリだけど、Normalizerという文字をうまい具合に正規化してくれるAPIがあるのがいいなと思った。他の言語にもあるんだろうか。Javaで標準になってるぐらいだからありそうだけど。ちょっと探してみようと思う。
    それと、MySQLは文字コードの対応がいろいろ必要になってくるんだなと思った。Charsetが4バイト文字の場合、区別しなくなるらしい。それを、「寿司ビール問題」と呼ぶのだとか。こういう問題があるというのはどこか頭の片隅にでもおいておきたい。
    後、Google検索で表示されるファクトチェックという機能をはじめて知った。コンテンツの情報が正しいかどうかチェックした結果を表示してくれるらしい。何をもって正しいと判断してるかは気になるけど、日本でも普及してもらえないだろうか(人力だろうから大変だろうけど)。
    後、Chromeにヘッドレスモードが追加されてるというのも初めて知った。それを受けて、WebDriverで使われていたヘッドレスブラウザのPhantomJSがメンテナンスを終了したらしい。それなら、Chromeの利用例を書いてくれよと思った(利用例はPhantomJSで書かれている)。
    クローリングについては前からいろいろ興味はあって調べたりすることはあるけど、活用したことはないので、何か作ってみたいと思う。もちろん、迷惑がかからない程度に。
    続きを読む

    投稿日:2017.10.01

クーポンコード登録

登録

Reader Storeをご利用のお客様へ

ご利用ありがとうございます!

エラー(エラーコード: )

本棚に以下の作品が追加されました

本棚の開き方(スマートフォン表示の場合)

画面左上にある「三」ボタンをクリック

サイドメニューが開いたら「(本棚アイコンの絵)」ボタンをクリック

このレビューを不適切なレビューとして報告します。よろしいですか?

ご協力ありがとうございました
参考にさせていただきます。

レビューを削除してもよろしいですか?
削除すると元に戻すことはできません。