はじめに
Webでの情報をスクレイピングするツールであるOctoparseについて紹介します。
この記事を読むと次の疑問について分かるようになります。
★Octoparseの評判、危険性(安全性)はどうなの?
★Octoparseの無料版と有料版の違いとは?
★Octoparseのダウンロード、インストールはどうするの?
・アカウントの取得
・Octoparseのダウンロードとインストール
★Octoparseの使い方はどうするの?
・テンプレートモード
・カスタマイズモード
スクレイピングするURLの調査
新規カスタマイズタスクとスクレイピングするURLの記入
Webページの自動識別(ラクマのカメラ)とページネーション
ワークフローの生成と保存して実行
データのエクスポート
パソコンOS : Windows10 Pro
Windowsバージョン : 21H1
Octoparseとは?
Webにある色々な情報を抜き出してくることを「スクレイピング」と言います。
通常、Webスクレイピングをするには、Python、Google Apps Scriptなど高度なプログラミングの知識がないとできませんが、Octoparseは、そのようなプログラミングの知識をほとんど持たなくとも色々なWebスプレイピングができるツールです。
このツールの特徴を次に載せておきます。
Octoparseの評判、危険性(安全性)
Octoparseは、日本でリリースしてから約3年ほどであり、スマホ用のアプリはなく、対応するOSはWindows、Macのようです。
Twitterで「Octoparse」で検索しても、Octoparseのアカウントを持った方のしか見あたらず、しかも英語のみでした。
そこで、Octoparseを作成販売している「 Octopus Data Inc.」について調べてみました。
Octoparseは、国防科学技術大学を卒業した劉宝強(Liu Baoqiang Keven Liu)によって、2012年12月に設立され、海外版のOctoparseは2016年3月に発売され、 2018年から日本へ進出し、日本語サービスを提供開始したようです。
iTreiviewでの評価を見ると、3人のレビューがあり、
でした。したがって、現在では、日本で利用されている方は少ないと思われます。
ゆえに、今回のアプリである「Octoparse」を利用するにあたっていは、あなた自身が判断して利用するしかないでしょう。
Octoparseの日本語のホームページを次に載せておきます。
Octoparseの無料版と有料版の違い
Octoparseの無料版でも十分に利用できますが、有料版にすることによりさらに便利な機能を使えるようになります。
これらの違いについて「エンタープライズ版」を除いて、表にまとめました。(Octoparseのページから抜粋)
項目 | 無料版 | スタンダード | プロフェッショナル |
対象 | 試してみたい方に向け | 個人で活用したい方に向け | 小規模の企業や組織向け |
月額価格(年契約時に月額) | 0円 | 89ドル (75ドル) |
249ドル (209ドル) |
取得ページ数無制限 | ○ | ○ | ○ |
インストール台数無制限 | ○ | ○ | ○ |
データエクスポートのレコード/回 | 10,000 | 無制限 | 無制限 |
並行ローカルタスク数 | 2 | 無制限 | 無制限 |
作成可能タスク数 | 10 | 100 | 250 |
クラウドサーバー数 | なし | 6 | 20 |
定期実行 | × | ○ | ○ |
自動IPローテーション
|
☓ | ○ | ○ |
タスクテンプレート | ☓ | ○ | ○ |
APIアクセス
|
☓ | ○ | Advanced APIアクセス |
タスクチェック無料、1対1トレーニング
|
☓ | × | ○ |
Octoparseのダウンロード、インストール
アカウントの取得
Octoparseを利用するには、アカウントを取る必要がありますので、Octoparseのホームページに移り、「無料トライアル」をクリックします。
新規登録画面が表示されますので、メールアドレス、ユーザー名、パスワード、業種の選択をして「登録する」をクリックします。
「登録したメールアドレスに認証メールを送りました。登録手続きを完了してください。」と表示れます。
あなたが利用しているメーラーを空け、あなた宛てに届いているメール内の「メールアドレスを認証する」をクリックします。
「登録が完了しました!」と表示されますので、「フリープランのお試し」をクリックします。
Octoparseのダウンロードとインストール
Windows版のアプリダウンロード画面が表示されますので、「8.2 Beta」をクリックします。
すると、ダウンロードホルダーに「Octoparse Setup 8.2.4.exe」がダウンロードされいますので、このファイルをダブルクリックして起動すると、Octoparseののセットアップが開始します。
インストール先フォルダ―を変更する場合は、右の参照をクリックしてあなたが選んだフォルダーを選択して下さい。
このままで進めても良いので、「インストール」をクリックします。
インストールが終了し、「Octoparse セットアップウィザードは完了しました。」と表示されますので、直ぐ起動する場合は、Octoparseを実行にチェックを入れ、「完了」をクリックします。
ログイン画面が表示されますので、ユーザー名又はメールアドレス、パスワードを記入して「ログイン」をクリックすれば、Octoparseのホームの初期画面が表示されます。
Octoparseの使い方
それでは早速使ってみましょう。
テンプレートモード
最初は、テンプレートモードで「楽天」を選んで、楽天の商品のスクレイピングをしてみたいと思います。
ホーム画面で、楽天をクリックします。
さらに、表示される楽天のテンプレート2つありますが、左のテンプレートを選択してクリックします。
テンプレートタスクが表示され、テンプレートの紹介、データプレビュー、パラメータープレビュー、サンプルデータが見れますので、一応目を通して、「今すぐ使う」をクリックします。
あなた自身が調べたい商品を楽天であらかじめ調べて置き、そのURLをコピーしておきます。
ここでは、スマートウォッチについて調べてみたいと思いますので、次のアドレスをURL記入欄にペーストして、「保存して実行」をクリックします。
https://search.rakuten.co.jp/search/mall/%E3%82%B9%E3%83%9E%E3%83%BC%E3%83%88%E3%82%A6%E3%82%A9%E3%83%83%E3%83%81/?l-id=pc_header_search_suggest
タスク実行画面がでますので、内容を読んで「ローカル抽出」をクリックします。
データの抽出を開始し続けますので、十分と思ったところで「停止」をクリックします。
「ご確認ください。実行を停止てもよろしいですか?」と表示されますので、「はい」をクリックします。
「実行が停止しました。」と表示されますので、「今はしない」をクリックします。
有料版であれば「データをエクスポート」ができますが、残念ながらテンプレートを用いてのデータ抽出は無料版ではできないのでした。
しかし、数分で約190件分のデータが抽出できていましたので、必要な方であれば、非常に便利であろうと思います。
カスタマイズモード
それでは、今度はカスタマイズモードについて実際に試してみたいと思います。
スクレイピングするURLの調査
今回は、ラクマのカメラのアドレス(URL)を調べておき、それを用いてラクマのカメラのスクレイピングをしたいと思います。
ラクマのカメラのURLを次に示します。
https://fril.jp/category/682
新規カスタマイズタスクとスクレイピングするURLの記入
Octoparseのホーム画面から、左上にある「+新規追加」⇒「カスタマイズタスク」を選択クリックします。
新規タスクが立ち上がりますので、その中の「URLプレビュー」に上述で示したラクマのカメラのURLを記入し、「保存」をクリックします。
Webページの自動識別(ラクマのカメラ)とページネーション
「+操作ヒント」のウインドウが立ち上がりますので、「Webページを自動識別する」を選択します。
すると、自動でデータを抽出してくれ、下の方に抽出したデータが表示されますので、間違いがないかを確認後、今度は「ページネーションを設定する」の「編集」をクリックします。
上のラクマのビューを下にページを変更する所までスクロールしてて、「≫」をクリックし、「保存」をクリックします。
これをすることにより、次ページのデータも同様に抽出してもらえるようになります。
ワークフローの生成と保存して実行
「+操作ヒント」で「識別が完了しました。推薦される設定は次の通りです:」と表示されるので、「ワークフローを作成」をクリックします。
「+操作ヒント」で「ワークフローが生成されました。」と表示されるので、「保存して実行する」をクリックします。
タスク実行画面がでますので、内容を読んで「ローカル抽出」をクリックします。
データのエクスポート
データの抽出を開始し続けますので、十分と思ったところで「停止」をクリックすると、最終的に「実行が完了しました」と表示されますので、「データをエクスポート」をクリックします。
エクスポートするデータ形式を聞いてくるので、「Excel形式」にチェックを入れ、「はい」をクリックします。
保存場所を聞いてくるので、あなたの好きなパソコン内に保存して下さい。
楽天ラクマからカメラに関するデータをスクレイピングしたデータは1分足らずで約80件を抽出していました。
それらデータの一部画面をお見せすると次の通りです。
おわりに
如何だったでしょうか?
Octoparseとは?、Octoparseの評判、危険性(安全性)はどうなの?、Octoparseの無料版と有料版の違いとは?、Octoparseのダウンロード、インストールはどうするの?、アカウントの取得、Octoparseのダウンロードとインストール、Octoparseの使い方はどうするの?、テンプレートモード、カスタマイズモード、スクレイピングするURLの調査、新規カスタマイズタスクとスクレイピングするURLの記入、Webページの自動識別(ラクマのカメラ)とページネーション、ワークフローの生成と保存して実行などについて解説してきました。
この記事が少しでも皆様のお役に立てればこれほど嬉しいことはありません。
以上です。
コメント
よろしくお願いいたします。ノンコードでスクレイピングができるので興味を持ちました。ただ、あまり高度な機能は必要としないので最初から無料版を使うつもりです。
下記がダウンロードするURLだと思うのですが、いきなりダウンロードをクリックしていいのでしょうか
https://gyazo.com/f528aa9f6abb8615e14a9e9a25b6fb27
はな 様
初めまして、エイじーと申します。
お問い合わせの件ですが、私の具ログ記事の「Octoparseのダウンロード、インストール」の部分を参考に無料版をお試しください。
提示のURLはどこのものか不明ですので、ダウンロードをしない方がよいと思います。
以上よろしくお願いします。
エイじーより
エイジー様
返答ありがとうございます。
https://gyazo.com/f528aa9f6abb8615e14a9e9a25b6fb27
下記の8.5.8をクリックすればいいのです。アカウントはどこでも使えることができるGoogleアカウントを利用します。
そのまま使えば無料版になるのですね。