テキストやデータを自動的に抽出する「Amazon Textract」について

Amazon Textractとは、スキャンした文書からテキストやデータを自動的に抽出するフルホスト型の機械学習サービスです。手作業やカスタムコードを使わずに、あらゆる種類の文書をその場で読み込んで処理することができ、テキストやフォームなどのデータを高い精度で抽出することができます。

YouTube動画をチェック

目次

説明

現在、多くの企業ではPDFなどのドキュメンタリーや表などスキャンした文書からデータを抽出していますが、手入力が必要だったり、簡易OCRソフトを使用しているにもかかわらず、帳票を変更するたびに手動で設定を更新していたりしていました。

しかし、これらの手作業を排除するために、Textractは機械学習を利用しています。手作業やカスタムコードを使わずに、あらゆる種類の文書をその場で読み込んで処理することができ、テキストやフォームなどのデータを高い精度で抽出することができます。

抽出されたデータはすべて、バウンディングボックスの座標とともに返されます。これにより、単語や数字がソース文書からどこに抽出されているかを監査できるようになります。

また、文書検索システムが検索結果として元の文書のスキャン画像を返すことも有用です。

例えば、詳細な患者の病歴情報を求めて医療記録を検索する際に、簡単に元の文書を記録したり、将来の検索のために簡単にメモを取っておくことができます。フラクション・リターン。

これにより、抽出した結果をどのように使用するかについて、十分な情報に基づいた決定を下すことができます。

例えば、税務文書から情報を抽出する場合で、高い精度が必要な場合は、抽出された情報に95%未満の自信があると手動検証のためにフラグを立てるビジネスロジックを作成することができます。

ただし、履歴書の処理やアーカイブされた文書のデジタル化など、負のエラー結果がほとんどない、または全くない他のタイプの文書については、より低いしきい値を選択することもできます。

仕様

  • 無料トライアル:あり
  • 無料プラン:最初から12か月間無料で利用可能
  • モバイルアプリ:あり
  • 日本語対応:可能
  • 連携サービス:Change Healthcare、ワシントンポス、ロシュなど

金額・価格

Detect Document Text API(OCR)

1か月あたり ページあたりの料金 1,000ページあたりの実質料金
最初の100 万ページ 0.0015USD 1.50USD
100万ページ超 0.0006USD 0.60USD

表を含むページに対するAnalyze Document API

1か月あたり OCR ページあたりの料金 1,000ページあたりの実質料金
最初の1,000,000 ページ 利用料に含まれる 0.015USD 15.00USD
100万ページ超 利用料に含まれる 0.01USD 10.00USD

フォームを含むページに対するAnalyze Document API

1か月あたり OCR ページあたりの料金 1,000ページあたりの実質料金
最初の1,000,000 ページ 利用料に含まれる 0.05USD 50.00USD
100万ページ超 利用料に含まれる 0.04USD 40.00USD

表とフォームを含むページに対するAnalyze Document API

1か月あたり OCR ページあたりの料金 1,000ページあたりの実質料金
最初の1,000,000 ページ 利用料に含まれる 0.015USD+0.05USD 15.00USD+50.00USD
100万ページ超 利用料に含まれる 0.01USD+0.04USD 10.00USD+40.00USD

Amazon Textractでは、使用した分のみ料金が発生します。最低料金や前払いの義務はありません。Analyze Document APIを使用する場合、OCRは Detect Document Text APIを使用して無料で実施されます。

よくある質問

Q.Amazon Textractで検出して抽出できるのは、どのタイプのテキストですか?

Amazon Textractは、標準的な英語のアルファベットと ASCII 記号からラテン文字を検出できます。

Q.Amazon Textractが提供する信頼性スコアはどのように使用しますか?

信頼スコアは0から100までの数字で、特定の予測がどの程度正確であるかを示します。Amazon Textractでは、抽出されたすべてのテキストと構造化されたデータが、境界ボックスの座標、つまり識別されたデータの各要素を完全に囲む四角いフレームと共に返されます。

これにより、抽出されたエンティティごとのスコアを識別できるため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。

会社情報

  • 法人名:Amazon
  • 会社所在地:米国
  • 設立:2000年
ゼロワンメディアロゴ

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
目次