PDFの表データを自動抽出するツールをClaude Codeで作る手順

PDFの表データを読み取ってExcelやCSVに変換するツールのイメージイラスト

取引先から届く請求書、納品書、月次の帳票——多くがPDFで届き、中身は表になっているのに、そのままでは集計に使えません。結局、人がPDFを開いて数字を1セルずつExcelに打ち直す。この「PDFを見ながら手で転記する」作業が、地味に時間を奪っています。結論から言うと、PDFの表を読み取ってExcelやCSVのデータに変換するツールは、Claude Codeで作れます。しかもプログラミング経験のない非エンジニアが、自分の手で。この記事は「便利なツールの使い方」ではなく、自分で作って内製するための手順書です。ツールが何をするのかを整理したうえで、作り方のステップ、指示の具体例、そして実務で使う際の注意点までを解説します。

読み取り→表データ化→確認・出力の3ステップ
図:読み取り→表データ化→確認・出力の3ステップ

PDF転記のどこが大変か

PDFからのデータ抽出は、一見すると「見て写すだけ」の単純作業です。しかし実務では、次のような事情が重なって手間がかかります。

  • そのままでは編集できない:PDFは見た目を固定する形式なので、表に見えていてもExcelのようにセル単位でコピーできるとは限りません。
  • レイアウトがばらばら:取引先ごとに帳票の体裁が違い、品名や数量、金額の位置も一定しません。一つの型では拾いきれません。
  • 量が多く、転記ミスが起きる:1枚あたりは数分でも、毎月何十枚と続くと負担は大きく、打ち間違いや桁ずれも紛れ込みます。

つまり、判断そのものは難しくないのに、量と細かさで消耗する作業です。こうした「やることは決まっているが手作業が多い」業務は、Claude Codeでの自動化がよく効く領域です。日々の定型作業をどう自動化していくかは定型業務をAIで自動化する考え方の記事でも整理しています。

作るツールの全体像

今回作るのは、次の3つを順番に行うツールです。

  • ① 読み取り:フォルダに置いたPDFから、表の各行と各列(品名・数量・単価・金額など)を抜き出します。文字情報を持たない画像PDFの場合は、画像化された文字をデータとして読み取るOCRの技術を併用します。
  • ② 表データ化:読み取った内容を、列がそろったExcelやCSVの表に整えます。集計や検索にそのまま使える形にするのが目的です。
  • ③ 確認・出力:読み取りに自信が持てなかったセルには印を付け、人が確認できる状態でファイルに出します。

ポイントは、ツールに「これで完成」と思い込ませないことです。ツールの役割は、転記を肩代わりして、確認すべき箇所を絞り込むところまで。最後に内容を保証するのは担当者です。この線引きが、安心して使える自動化の鍵になります。同じ発想で、Excel上の繰り返し作業をAIに任せる例はExcelをAIで自動化する実例でも紹介しています。

作り方:5つのステップ

Claude Codeは、やりたいことを日本語で伝えると、プログラムの作成から実行までを対話で進めてくれるAIです。非エンジニアが自分で作る場合も、難しいコードを書く必要はありません。実際の流れは次のようになります。

ステップ1:欲しい表の形を決める。まず「最終的にどんな列のExcelが欲しいか」を決めます。たとえば取引先名・日付・品名・数量・単価・金額の6列。ここが設計のいちばん大事な部分で、プログラミングの知識ではなく、自分たちが何のデータを使いたいかを言葉にする力が問われます。

ステップ2:ダミーのPDFで始める。本物の取引先情報はいきなり使わず、まずは中身を架空にしたダミーのPDFを数枚用意します。レイアウトの違う帳票を2〜3種類混ぜておくと、対応力を試せます。社外秘の情報をいきなり扱わないのが鉄則です。

ステップ3:Claude Codeに作りたいものを伝える。次の章のような指示を出し、読み取り→表データ化→出力を行うツールを作らせます。一度で完璧を狙わず、動かしながら直していきます。

ステップ4:試して、ずれを言葉で直す。ダミーで動かし、「この列がずれている」「数量と単価が入れ替わっている」と日本語で伝えて調整します。Claude Codeとのやり取りを繰り返し、自社の帳票に合わせていきます。コードを直接いじる必要はありません。

ステップ5:本番データは権限を確認してから。実データを扱う前に、会社の情報の取り扱いルール(クラウドに何を送ってよいか)を必ず確認します。最初の1本を組み立てる全体の進め方はClaude Codeで業務ツールを作る5ステップで詳しく解説しています。なお、社員がこうしたツールを5日間の研修で自分の業務課題に合わせて作り上げる、というのがAI CODEMYの実践研修の中身です。短時間で動くものを1本完成させる体験が、内製の入口になります。

指示の具体例

ステップ3で出す指示は、たとえば次のようなものです。

「このフォルダにあるPDFを読み取って、表の中身をExcelにまとめてほしい。1行が1明細になるように、取引先名・日付・品名・数量・単価・金額の6列に整理して。文字が画像になっていて読み取れない場合はOCRを使って。読み取りに自信がないセルは空欄にせず『要確認』と入れて、どのPDFの何行目かが分かるようにして。複数のPDFは1つのExcelにまとめて出力して」

このように、「何を読み取り」「どんな列に整理し」「自信のないところをどう扱うか」を具体的に書くのがコツです。あいまいな指示ほど結果がぶれます。逆に、ここを丁寧に言葉にできれば、自分の頭の中にある「欲しい表」をそのままツールに落とし込めます。指示の組み立て方そのものは業務で使えるプロンプトの書き方も参考になります。

このPDFデータ化は、いろいろな業務の起点になる汎用の仕組みです。たとえば抜き出したデータを発注一覧と突き合わせれば、請求書のOCR照合ツールになりますし、領収書を読み取って社内規程と照らせば経費精算のAIチェックツールにつながります。まず「PDFをデータにする」一本を作っておくと、その先の自動化に広げやすくなります。

精度と運用の注意点

実務で使ううえで、押さえておきたい注意点が3つあります。

第一に、読み取り結果は人が確認する。OCRや表の読み取りは万能ではなく、かすれた文字や複雑なレイアウト、結合されたセルでは誤読や行ずれが起こり得ます。ツールが出した数字をうのみにせず、特に金額など重要な値は人が最終確認する運用にします。ツールはあくまで、転記の手間と確認すべき件数を大きく減らす道具です。

第二に、扱う情報の範囲を決める。請求書や帳票には取引先名や口座情報など、慎重に扱うべき情報が含まれます。何をクラウドのAIに送ってよいかは会社のルールに従い、判断に迷う情報は入力しないのが安全です。AIに入れてはいけない情報の考え方は生成AIに入力してはいけない情報リストにまとめています。

第三に、まず小さく始める。いきなり全種類の帳票を対象にせず、枚数の多い1種類や、レイアウトの素直なものから試すと、効果と注意点の両方が早くつかめます。うまくいけば対象を広げ、毎月のデータ化作業に組み込んでいきます。

こうした内製の取り組みは、研修や教育という形で進めると、人材育成を支援する公的な助成金制度の対象になる場合があります。利用できる制度や条件はAI研修に使える助成金の記事でまとめていますが、助成率や金額などの制度の数値は変わることがあるため、最新の内容は厚生労働省の公表資料を要確認のうえご判断ください。

まとめ:転記をツールに任せ、確認と活用に集中する

本記事の要点を整理します。

  • PDFからの転記は、判断は難しくないが量と細かさで消耗する作業で、自動化が効きやすい
  • 作るのは「PDF読み取り→列のそろった表データ化→確認・出力」の3ステップのツール
  • 欲しい表の形を言葉にし、ダミーのPDFで作り、動かしながら日本語で直していく
  • 読み取り結果は人が確認し、扱う情報の範囲を決め、小さく始める
  • 使い方を覚えるのではなく、非エンジニアが自分で作って内製するのが本質

PDFのデータ化は、多くの部署が毎月確実に消費している転記時間を取り戻す、効果の見えやすい一本です。しかも一度作れば、照合や精算など別の自動化への土台にもなります。ツールに「転記」を任せ、人は確認とデータの活用に集中する——それが、無理のないAI活用の形です。

PDFのデータ化を自分たちで内製したい方へ

AI CODEMY は、5日間で社員が自分の業務課題を解決するツールを完成させる法人向け実践研修です。PDFのデータ抽出や帳票処理など、自部門の実務を題材にした研修も可能です。まずは無料相談でお気軽にご相談ください。

無料相談(30分)
執筆:AI CODEMY 編集部 / 最終更新:2026年6月24日