「AIをたくさん使った」は成果ではない——Amazonが社内ランキングを廃止して気づいたこと、中小企業が今すぐ設定すべきAI評価の3つの軸

2026-06-02 2026-06-02

phenogen

公開日： 2026年06月02日
カテゴリ： AI導入・活用

この記事の要点

Amazonは「AIをどれだけ使ったか」を競わせるランキングを廃止した。「使う量」は成果の指標にならないと判断したからだ。
AIの利用量を増やすことに注力した結果、業務価値につながらない「見せかけの活用」が社内に広がっていた。
中小企業も同じ落とし穴にはまりやすい。「社員がAIを使い始めた」だけでは何も変わっていない。
AI評価の軸は「どれだけ使ったか」ではなく「何が変わったか」に設定し直す必要がある。
今回紹介する「フィノジェン式AI成果チェック3つの問い」を使えば、自社の評価軸を今日から設定し直せる。

あなたの会社でAIを導入したとき、「成果が出た」と判断する基準は何ですか？

この問いに即答できる経営者・推進担当者は、まだ多くない。「社員が使い始めた」「月に何十回か利用している」という報告で満足してしまうケースが実際には多い。しかし、Amazonが2026年に下した判断は、その評価のあり方に正面から疑問を投げかけている。同社は社員のAIトークン利用量（AIへの入力・出力の総量）を競わせる非公式ランキングを廃止した。理由は明快だ。使用量が増えるほど業務改善につながるとは限らないと気づいたからだ。大企業ですら陥るこの落とし穴は、中小企業にとっても他人事ではない。

この記事を書いた背景

「うちの会社、生成AIを導入してもう半年経つんですが、正直変化がわからなくて」——こうした声を、生成AI導入の相談を受ける場面でよく聞く。ツールは入れた。社員も使い始めた。でも、何をもって「うまくいっている」と言えるのかがわからない。この曖昧さが、AI推進の歩留まりになる最大の原因のひとつになっている。

フィノジェン現場から
「生成AIツールにどれくらいログインしたか」を報告させている会社は多い。しかし「それで何が変わったか」まで追いかけている会社はぐっと少なくなる。ログインカウントができても、業務への影響はカウントしにくいからだ。

誤解①：「AIの利用回数が増えれば、活用が進んでいる」

なぜそう思われているか

「導入したツールを社員がどれだけ使っているか」は、確かに見えやすい指標だ。ログを取れば回数はわかる。担当者が「先月は全社で500回使いました」と報告すれば、何となく前進している気がする。Amazonの事例でも、社員がAIのトークン消費量を競い合う非公式ランキングが自然発生したのは、「たくさん使うほど良い」という暗黙の空気があったからだ。

正しくはこうだ

利用回数は「AIに触れた回数」であって「AIで改善した回数」ではない。Amazonの反省はまさにここにある。Amazonが"AIトークン消費ランキング"を廃止した背景には、トークンを大量消費しながらも業務成果に結びつかない使い方が増えていた、という事実がある。「AIで何かを試してみた」という行為は、業務の無駄を減らしたり、売上を増やしたりすることとは別の話だ。評価すべきは「使った量」ではなく「変わったこと」だ。

中小企業への影響

利用回数だけを指標にし続けると、社員は「使っている感」を演出するようになる。本当に効果のある使い方への改善が止まり、AI導入のコストだけが積み上がっていく。

誤解②：「AI活用の評価は、導入後しばらく経ってから考えればいい」

なぜそう思われているか

「まずは使ってみること」が大事、という考え方は正しい面もある。ただ、その延長線上で「評価の仕組みは後回し」になっているケースが多い。導入直後は覚えることが多く、「成果の測り方」を設計する余裕がないのも理解できる。

正しくはこうだ

評価の軸は、導入前か導入直後に決める必要がある。なぜなら、比較の起点が必要だからだ。「AIを使う前は、この作業に週何時間かかっていたか」を記録していなければ、使った後の改善量を測れない。Amazonが気づいたように、指標が曖昧なままツールを使い続けると、「使うこと自体が目的」という状態が組織全体に定着してしまう。導入前に「何が変わったら成功と言えるか」を1つ決めておくだけで、評価の精度は大きく変わる。

中小企業への影響

評価の設計が後回しになると、「なんとなく使っているが、やめてもいいかな」という雰囲気が半年〜1年後に生まれやすい。AI活用が定着しないまま終わる会社の多くが、このパターンをたどっている。

フィノジェン現場から
「導入から半年でそこまで使われてない」という話を聞くとき、たいてい「何を評価するか」を最初に決めていない。成果が見えないから続ける動機が持てず、優先度が下がっていく。

誤解③：「AIの成果は数字で測れないから、感覚でいい」

なぜそう思われているか

AIの効果には「アイデアが出やすくなった」「資料を作る気が楽になった」など、数値化しにくいものが確かにある。だから「感覚的に便利になっているならOK」という判断で済ませてしまう経営者・担当者は少なくない。

正しくはこうだ

感覚を否定する必要はない。ただ、感覚だけでは社内への説明ができないし、改善のヒントも得にくい。成果の測り方には、大げさなシステムは必要ない。たとえば「毎週の議事録作成にかかる時間」「月次報告書の初稿を仕上げるまでの日数」など、業務の中にある身近な時間・手順を観察するだけでいい。AIを使う前と使った後で何分変わったか。それだけを記録する習慣が、評価の土台になる。

なお、AIツールのコスト管理という視点では、「月額固定で使い放題」が終わる——AIツールの従量課金化が進む今、中小企業が運用コストを管理するために整えるべき3つの習慣も参考になる。費用対効果を測るためにも、成果の把握は欠かせない。

中小企業への影響

感覚だけで評価していると、ツールの継続・廃止・切り替えの判断が感情で決まるようになる。「なんとなく合わない気がする」でやめてしまうケースも、「なんとなく続けている」ケースも、どちらも同じ問題の裏表だ。

まとめ：3つの誤解を超えた先に

「使う量」から「変わったこと」へ。この評価軸の転換は、Amazonのような大企業だけの話ではない。むしろ、限られたリソースで動いている中小企業こそ、早い段階で評価の軸を設計しておく価値がある。AIを「なんとなく使い続けている」状態から抜け出し、「何が変わったか」を言えるようになったとき、AI活用は本当の意味で自社の武器になる。

読む前に確認しておきたい言葉

言葉	一言で言うと	身近な例え
トークン	AIへの入出力の単位	電話の通話時間のようなもの
AI評価指標	成果を測るものさし	売上目標や残業時間の管理表
トークンマキシング	意図的に利用量を増やす行為	歩数計のために歩くだけで体が変わらないのに似ている

▶ ChatGPTに広告が入り始めた——「AI検索時代」に中小企業の情報発信は何を変えるべきかもあわせてご覧ください。

フィノジェン式AI成果チェック：3つの問い

自社のAI活用が「使っている」から「成果が出ている」に変わっているかどうか、次の3つの問いで確認してください。

問い①：「AIを使う前と後で、何かの時間・手順が変わったと言えますか？」

この問いに答えられない場合、評価の起点がまだ設定できていない状態だ。「何時間かかっていた」「何ステップあった」という導入前の記録がなければ、改善量を測れない。まずひとつの業務を選んで、今週の所要時間を記録するところから始めると良い。Notion AIやMicrosoft Copilotのような日常業務に組み込みやすいツールなら、使った前後の比較を記録しやすい。

問い②：「AI活用の成果を、社内の誰かに30秒で説明できますか？」

「便利になった気がする」は説明ではない。「週に1時間かかっていた〇〇が、30分で終わるようになった」と言えるなら、成果が見えている状態だ。説明できない場合は、評価指標の粒度が粗すぎる可能性がある。業務ひとつに絞って、前後を比べる指標を1つ設定し直してみよう。

問い③：「今使っているAIツールを続けるか、変えるかを、根拠をもって判断できますか？」

ツールの継続・変更を感覚で決めている場合、評価の仕組みが機能していないサインだ。Perplexityのような調査系ツール、Slack AIのようなコミュニケーション効率化ツール、Gamma（文書・スライド作成ツール）など、用途ごとに異なるツールを選ぶ判断も、成果指標があってはじめてできる。「どの業務にどのツールを使っているか」を棚卸しするだけでも、評価の土台が整い始める。

よくある質問

Q. AI活用の成果指標は、具体的にどう設定すればいいですか？

最初から複雑な指標を作る必要はありません。「この業務にかかる時間を測る」だけで十分です。たとえば「週次レポートの初稿作成にかかる時間」「問い合わせメールの返信文を作るまでの時間」など、普段から繰り返し発生している作業を1つ選んでください。AIを使う前の時間を記録し、1か月後に比べるだけで、変化が数字で見えるようになります。

Q. 社員に「AIをどれだけ使ったか」を報告させているのですが、やめるべきですか？

利用回数の把握は出発点として悪くありませんが、それだけで評価を完結させるのは危険です。Amazonの事例が示したように、回数を増やすこと自体が目的化しやすいからです。利用回数の報告は続けながら、「その利用で何が変わったか」をセットで聞く形に変えると、評価の精度が上がります。「今週一番役に立ったAIの使い方を1行書いてください」という問いを加えるだけで、現場の実感が見えてきます。

Q. 小規模な会社でも成果指標を設定する意味はありますか？

むしろ小規模な会社ほど、指標を設定する意味があります。大企業と違い、AIツールへの投資が経営に直結しやすいからです。「月額数千円のツールを使い続けるかどうか」の判断は、感覚より数字の方が社内の納得感を得やすい。従業員が数人の会社でも、「この作業が週1時間短縮できた」という事実は、継続の根拠になります。

Q. 成果が出ているかどうか、半年後に改めて確認するのでは遅いですか？

半年後では遅い場合が多いです。最初の1か月で「何も変わっていない」と感じたタイミングが、ツールや使い方を見直す最適な時期です。毎月1回、「先月AI活用で一番変化があった業務はどれか」を担当者に聞くだけでも、早期に軌道修正できます。問題の発見が早いほど、改善のコストも小さくなります。

Q. フィノジェンに相談するとどうなりますか？

まず無料相談から始められます。相談では、現在どんなAIツールをどんな目的で使っているかをヒアリングし、成果指標として設定できる業務を一緒に見つけます。「うちは何を測ればいいかわからない」という段階からでも対応できます。相談後には、自社の状況に合った評価軸の素案をお渡しします。難しい専門知識は必要ありません。

行動プラン

今週中にできること（コストゼロ・1時間以内）
- 繰り返し発生している業務をひとつ選び、今週かかった時間をメモしておく（例：週次レポート作成、問い合わせ対応、議事録作成など）
- 今使っているAIツールで最後に何をしたかを書き出し、「それで何が変わったか」を1行だけ書いてみる

今月中にできること
- 社員のうち1人と「今月のAI活用で一番助かったこと」を話し合う場を15分設ける。その内容を記録に残す習慣を始める

3か月後の理想像

毎月の定例ミーティングで「先月のAI活用で変わった業務はこれ」と言える状態になっている。感覚ではなく、時間の変化や手順の短縮という形で成果が見えており、ツールを続けるかどうかの判断に根拠が持てるようになっている。

参考文献

Amazonが"AIトークン消費ランキング"を廃止、AI活用は量より成果へ - https://www.businessinsider.jp/article/2606-amazon-ai-leaderboard-tokenmaxxing/
└ 今回の記事の核心となるニュース。AI利用量評価の問題点を示した一次情報として参照。
NVIDIAがWindows PC向け「RTX Spark」を発表、AIエージェントPC競争が本格化 - https://www.itmedia.co.jp/aiplus/article/2606/01/2000000040/
└ AIがクラウド依存からローカル実行へ広がる文脈を示すニュース。AI活用の多様化を補足するために参照。
中国で世界初の侵襲型BCIが商用承認、脳インプラントが"研究"から"実装"へ - https://www.technologyreview.com/2026/06/01/1138133/china-world-first-brain-chip/amp/
└ 生成AI中心だった企業AI活用の競争軸が産業実装全体へ広がっていることを示す背景として参照。
フィノジェン：AIツールの従量課金化と中小企業のコスト管理 - https://phenogen-jp.com/?p=1451
└ AI活用の費用対効果を測るうえで成果指標が不可欠であることを補足する自社記事として参照。
フィノジェン：ChatGPTに広告が入り始めた——AI検索時代の情報発信 - https://phenogen-jp.com/?p=1454
└ AI活用の文脈変化を読者が理解するための関連記事として参照。
IPA（情報処理推進機構）：AI利用に関するガイドラインおよびセキュリティ対策資料 - https://www.ipa.go.jp/digital/ai/index.html
└ 中小企業がAI活用を進める際のガバナンス・評価設計の公的指針として参照。
The Verge：MetaのAIサポート機能がInstagramアカウント乗っ取りに悪用 - https://www.theverge.com/tech/941179/meta-instagram-ai-support-chatbot-exploit-hacked
└ AIツールの「使い方の設計」が不十分な場合のリスクを示す事例として参照。成果指標設計の重要性を補強。
VentureBeat：AnthropicのブラウザAIエージェント、safeguard発動前は31.5%で乗っ取り成功 - https://venturebeat.com/security/anthropic-browser-agent-hijacked-31-percent-before-safeguards-guide
└ AI活用を「量」で評価することの危うさを、セキュリティリスクの観点から補足するために参照。

著者より

私がAmazonのこのニュースを読んで正直に感じたのは、「トークン消費は決して成果に結びついているわけではない」ということです。現場では以前から、「使っている報告」だけが上がってきて、「何が変わったか」が見えない会社を何度も見てきたからです。評価の軸を変えることは、難しくない。ただ、「今日から測り始める」という一歩を踏み出すかどうかだけの話です。その一歩を、今日踏み出してほしいと思っています。