Octoparseの使い方、無料版、ダウンロード、ページネーション、複数ページ、Excelへのエクスポート、評判などについても解説

情報収集
この記事は約10分で読めます。

はじめに

 Webでの情報をスクレイピングするツールであるOctoparseについて紹介します

 この記事を読むと次の疑問について分かるようになります。

★Octoparseとは?
★Octoparseの評判、危険性(安全性)はどうなの?
★Octoparseの無料版と有料版の違いとは?
★Octoparseのダウンロード、インストールはどうするの?
・アカウントの取得
・Octoparseのダウンロードとインストール
★Octoparseの使い方はどうするの?
・テンプレートモード
・カスタマイズモード
 スクレイピングするURLの調査
 新規カスタマイズタスクとスクレイピングするURLの記入
 Webページの自動識別(ラクマのカメラ)とページネーション
 ワークフローの生成と保存して実行
 データのエクスポート
と言うことで、Octoparseについて、もう少し深堀して紹介しようと思います。
 
 なお、OS、機種などで説明の仕方が変わってくることがありますので、私の使用しているパソコン環境について載せておきます。
 

パソコンOS : Windows10 Pro
Windowsバージョン : 21H1

Octoparseとは?

 Webにある色々な情報を抜き出してくることを「スクレイピング」と言います。

 通常、Webスクレイピングをするには、Python、Google Apps Scriptなど高度なプログラミングの知識がないとできませんが、Octoparseは、そのようなプログラミングの知識をほとんど持たなくとも色々なWebスプレイピングができるツールです。

 このツールの特徴を次に載せておきます。

  1. 難しいプログラミングの知識がなくとも誰でも簡単に利用が可能
  2. 無限スクロール、ログイン、ドロップダウン、AJAXなどの複雑なWebサイトのスクレイピングについても利用が可能
  3. スプレイピングしたデータの出力形式がCSV、Excel、データベースなど豊富に存在
  4. クラウドサービスを利用すると、休みなく年中自動収集が可能
  5. 毎日、毎週など指定したスケジュールを設定して自動収集が可能
  6. IPが自動的に巡回できるので、アクセス拒否を避けることが可能
  7. マニュアル類、Q&Aが充実しており、分からないことを直ぐに調べることが可能
  8. 無料でも利用が可能

Octoparseの評判、危険性(安全性)

 Octoparseは、日本でリリースしてから約3年ほどであり、スマホ用のアプリはなく、対応するOSはWindows、Macのようです。

 Twitterで「Octoparse」で検索しても、Octoparseのアカウントを持った方のしか見あたらず、しかも英語のみでした。

 そこで、Octoparseを作成販売している「 Octopus Data Inc.」について調べてみました。

 Octoparseは、国防科学技術大学を卒業した劉宝強(Liu Baoqiang Keven Liu)によって、2012年12月に設立され、海外版のOctoparseは2016年3月に発売され、 2018年から日本へ進出し、日本語サービスを提供開始したようです。

 iTreiviewでの評価を見ると、3人のレビューがあり、 2.9 でした。

 したがって、現在では、日本で利用されている方は少ないと思われます。

 ゆえに、今回のアプリである「Octoparse」を利用するにあたっていは、あなた自身が判断して利用するしかないでしょう。

 Octoparseの日本語のホームページを次に載せておきます。

Octoparseの無料版と有料版の違い

 Octoparseの無料版でも十分に利用できますが、有料版にすることによりさらに便利な機能を使えるようになります。

 これらの違いについて「エンタープライズ版」を除いて、表にまとめました。(Octoparseのページから抜粋

項目無料版スタンダードプロフェッショナル
対象試してみたい方に向け個人で活用したい方に向け小規模の企業や組織向け
月額価格(年契約時に月額)0円89ドル
(75ドル)
249ドル
(209ドル)
取得ページ数無制限
インストール台数無制限 ○
データエクスポートのレコード/回10,000無制限無制限
並行ローカルタスク数2無制限無制限
作成可能タスク数10100250
クラウドサーバー数なし620
定期実行×
自動IPローテーション
タスクテンプレート
APIアクセス
Advanced APIアクセス
タスクチェック無料、1対1トレーニング
×

Octoparseのダウンロード、インストール

アカウントの取得

 Octoparseを利用するには、アカウントを取る必要がありますので、Octoparseのホームページに移り、「無料トライアル」をクリックします。

 

 新規登録画面が表示されますので、メールアドレス、ユーザー名、パスワード、業種の選択をして「登録する」をクリックします。

 「登録したメールアドレスに認証メールを送りました。登録手続きを完了してください。」と表示れます。

 

 あなたが利用しているメーラーを空け、あなた宛てに届いているメール内の「メールアドレスを認証する」をクリックします。

 

 

 「登録が完了しました!」と表示されますので、「フリープランのお試し」をクリックします。

 

Octoparseのダウンロードとインストール

 Windows版のアプリダウンロード画面が表示されますので、「8.2 Beta」をクリックします。

 

 すると、ダウンロードホルダーに「Octoparse Setup 8.2.4.exe」がダウンロードされいますので、このファイルをダブルクリックして起動すると、Octoparseののセットアップが開始します。

 

 インストール先フォルダ―を変更する場合は、右の参照をクリックしてあなたが選んだフォルダーを選択して下さい。

 このままで進めても良いので、「インストール」をクリックします。

 インストールが終了し、「Octoparse セットアップウィザードは完了しました。」と表示されますので、直ぐ起動する場合は、Octoparseを実行にチェックを入れ、「完了」をクリックします。

 ログイン画面が表示されますので、ユーザー名又はメールアドレス、パスワードを記入して「ログイン」をクリックすれば、Octoparseのホームの初期画面が表示されます。

Octoparseの使い方

 それでは早速使ってみましょう。

テンプレートモード

 最初は、テンプレートモードで「楽天」を選んで、楽天の商品のスクレイピングをしてみたいと思います。

 ホーム画面で、楽天をクリックします。

 さらに、表示される楽天のテンプレート2つありますが、左のテンプレートを選択してクリックします。

 

 テンプレートタスクが表示され、テンプレートの紹介、データプレビュー、パラメータープレビュー、サンプルデータが見れますので、一応目を通して、「今すぐ使う」をクリックします。

  あなた自身が調べたい商品を楽天であらかじめ調べて置き、そのURLをコピーしておきます。

 ここでは、スマートウォッチについて調べてみたいと思いますので、次のアドレスをURL記入欄にペーストして、「保存して実行」をクリックします。

https://search.rakuten.co.jp/search/mall/%E3%82%B9%E3%83%9E%E3%83%BC%E3%83%88%E3%82%A6%E3%82%A9%E3%83%83%E3%83%81/?l-id=pc_header_search_suggest

 タスク実行画面がでますので、内容を読んで「ローカル抽出」をクリックします。

 データの抽出を開始し続けますので、十分と思ったところで「停止」をクリックします。

  「ご確認ください。実行を停止てもよろしいですか?」と表示されますので、「はい」をクリックします。

 「実行が停止しました。」と表示されますので、「今はしない」をクリックします。

 

 有料版であれば「データをエクスポート」ができますが、残念ながらテンプレートを用いてのデータ抽出は無料版ではできないのでした。

 しかし、数分で約190件分のデータが抽出できていましたので、必要な方であれば、非常に便利であろうと思います。

カスタマイズモード

 それでは、今度はカスタマイズモードについて実際に試してみたいと思います。

スクレイピングするURLの調査

 今回は、ラクマのカメラのアドレス(URL)を調べておき、それを用いてラクマのカメラのスクレイピングをしたいと思います。

 ラクマのカメラのURLを次に示します。

https://fril.jp/category/682

新規カスタマイズタスクとスクレイピングするURLの記入

 Octoparseのホーム画面から、左上にある「+新規追加」⇒「カスタマイズタスク」を選択クリックします。

 新規タスクが立ち上がりますので、その中の「URLプレビュー」に上述で示したラクマのカメラのURLを記入し、「保存」をクリックします。

Webページの自動識別(ラクマのカメラ)とページネーション

 「+操作ヒント」のウインドウが立ち上がりますので、「Webページを自動識別する」を選択します。

 すると、自動でデータを抽出してくれ、下の方に抽出したデータが表示されますので、間違いがないかを確認後、今度は「ページネーションを設定する」の「編集」をクリックします。

 上のラクマのビューを下にページを変更する所までスクロールしてて、「≫」をクリックし、「保存」をクリックします。

 これをすることにより、次ページのデータも同様に抽出してもらえるようになります。

ワークフローの生成と保存して実行

 「+操作ヒント」で「識別が完了しました。推薦される設定は次の通りです:」と表示されるので、「ワークフローを作成」をクリックします。

  「+操作ヒント」で「ワークフローが生成されました。」と表示されるので、「保存して実行する」をクリックします。

  タスク実行画面がでますので、内容を読んで「ローカル抽出」をクリックします。

データのエクスポート

 データの抽出を開始し続けますので、十分と思ったところで「停止」をクリックすると、最終的に「実行が完了しました」と表示されますので、「データをエクスポート」をクリックします。

 エクスポートするデータ形式を聞いてくるので、「Excel形式」にチェックを入れ、「はい」をクリックします。

 保存場所を聞いてくるので、あなたの好きなパソコン内に保存して下さい。

 楽天ラクマからカメラに関するデータをスクレイピングしたデータは1分足らずで約80件を抽出していました。

 それらデータの一部画面をお見せすると次の通りです。

おわりに

 如何だったでしょうか?

 Octoparseとは?、Octoparseの評判、危険性(安全性)はどうなの?、Octoparseの無料版と有料版の違いとは?、Octoparseのダウンロード、インストールはどうするの?、アカウントの取得、Octoparseのダウンロードとインストール、Octoparseの使い方はどうするの?、テンプレートモード、カスタマイズモード、スクレイピングするURLの調査、新規カスタマイズタスクとスクレイピングするURLの記入、Webページの自動識別(ラクマのカメラ)とページネーション、ワークフローの生成と保存して実行などについて解説してきました。

 この記事が少しでも皆様のお役に立てればこれほど嬉しいことはありません。

以上です。

 

 

コメント

タイトルとURLをコピーしました