セッションタイトル:E-E-A-T Isn’t Just A Checklist: How To Audit, Measure & Actually Improve It In 2025 登壇者:Tom Winter(トム・ウィンター)氏 / SEOwind 創設者

導入:E-E-A-Tは、もはや「お祈り」ではない
満員のSuthep Hall 3で、MCが「私もE-E-A-Tと連呼するのはウンザリだ!」とジョークを飛ばす中、セッションは始まった。
「誰もがE-E-A-Tを実装しなければならない。Googleもそう言っている。だが、誰もその『やり方』を知らない。今日この30分で、その疑問はすべて解消される」
登壇したのはSEOwindの創設者、自らを「半開発者、半マーケター」と称するトム・ウィンター氏。日々コンテンツを測定し続ける実務家だ。200回以上のミーティング、5つ以上のカンファレンス登壇、そして「軽い実存的危機」を経て辿り着いた、3つの不都合な真実からセッションは始まった。
【LIF Tech編集部 予習フェーズとの照合】 事前の予習フェーズで、我々はトム氏のセッションの核心を「E-E-A-Tという曖昧な概念の定量化とスコア化」にあると仮説を立てた。SaaSツールの創設者である彼は、感覚論ではなくAIを活用した反復可能なワークフロー(Repeatable Workflow)を提示するはずだ。このセッションは、具体的な「プロンプト」と「スコアリングシステム」が明かされる瞬間だった。
第1部:3つの「不都合な真実」——なぜE-E-A-Tは機能しないのか
真実1:誰も「良いコンテンツ」を定義できない
「誰もがE-E-A-Tについて語るが、誰もそれを『定義』できない」。クライアントに「あなたにとって良いコンテンツとは何か?」と尋ねても、ほとんどの人間が答えられない。「では、良いと思うコンテンツを1つ見せてほしい」と頼んでも、2週間待たされることさえある。
「良い」の定義がなければ、目的地を知らずに飛行機に飛び乗るようなものだ。E-E-A-T対策は「巨大なチェックリスト」を埋める作業になり、改善に3時間かけた記事が本当に良くなったかの判断基準は「直感(Intuition)」になってしまっている。これが最大の問題だとトム氏は指摘する。
真実2:「定義」の代わりに「自動化」に逃げている
「良い」を定義する難しい決断を避け、我々はChatGPTやClaudeに判断を委ねている。
悪いプロセス × AI = より速い、悪い結果
AIは常に「最もそれらしい(Plausible)」答えを出すが、それは毎回異なる。人間なら10回中8回は同じ答えを出すべきタスクでも、AIは毎回違う答えを出す。「これはギャンブルだ」とトム氏は断言する。「AIをスロットマシンにしてはいけない。本当に必要なのは『予測可能性(Predictability)』だ」。
真実3:AIによる「手抜き」は既にあなたの会社で起きている
経営層が「AI戦略」を半年議論している間、予算と納期に追われる現場はすでにAIを導入している。しかし「最も簡単な方法」で。ChatGPTに「アウトラインを書いて」「記事を書いて」「E-E-A-Tをやって」と丸投げする。プロセスがないため、出来上がるのは「AIの指紋(AI Fingerprints)」がついた浅いコンテンツだ。
「そのコンテンツが『人間が作りました』という顔をして納品される。魔神(Genie)はもう壺から出てしまった。ならば、AIを最大限に活用する『システム』を構築するしかない」。
第2部:E-E-A-Tを「測定」する——AIスコアリングの技術
トム氏が重視するのは「速く、一貫性があり、偏見のない」評価だ。
ダメな方法 vs 正しい方法
ダメな方法:ChatGPTに「この記事のE-E-A-Tを1〜10で評価して」と頼むこと。「良い」の定義(キャリブレーション)がされていないため、AIは毎回異なる評価軸で答え、比較不能な結果が返ってくる。
正しい方法(トム氏のフレームワーク):RTF(Role, Task, Format)の原則に基づき、非常に長く詳細に定義されたプロンプト。(セッション後、QRコードで全プロンプトが公開された)
このE-E-A-T測定プロンプトは、以下のプロセスで実行される。
- コンテキストの定義:記事の「タイプ、ニッチ、目的」をまずAIに定義させる。ガーデニング記事に期待するE-E-A-TとSaaS金融記事のそれは全く異なるからだ。(例:ガーデニング記事に統計データは不要)
- 4つの柱の評価:Experience(経験)・Expertise(専門性)・Authoritativeness(権威性)・Trustworthiness(信頼性)を評価する。重要なのは「意見(Opinion)」ではなく「証拠(Evidence)」に基づくことだ。
- 各柱の定義(例:Experience):「経験」は“Googled”(ググった)ではなく”Lived”(生きた)ものと定義する。AIは記事中から一次情報・ケーススタディ・データ・スクリーンショット・エッジケースといった具体的な証拠を探す。
- スコアリング・ルーブリックの適用:「1点がどのような状態か」「10点がどのような状態か」を、各柱とコンテキスト別に明確に定義する。これがキャリブレーションだ。
- JSON形式での出力:Make.comやn8nのような自動化ツールに直接連携し、ワークフローに組み込むためにJSON形式を指定する。
なぜこのシステムは機能するのか
「このシステムは主観性(Subjectivity)を排除するからだ」とトム氏は語る。「300本の応募記事を人間のチームで評価すると言う友人に『なぜAIを使わない?』と聞いた。彼は『AIは客観的じゃない』と言ったが、冗談じゃない。私なら10本読んだら吐き気がするし、15本目には絶対に客観的ではいられない」。AIは文句も言わず、疲れもせず、定義されたルーブリックに基づいて評価をスケールさせることができる。
【LIF Tech編集部 スコアリングの核心】 予習通りの展開だ。トム氏の強みは、開発者視点で「キャリブレーション(採点基準の定義)」をプロンプトに組み込み、AIの「ゆらぎ」を徹底的に排除しようとしている点にある。多くのSEOツールが提供する「コンテンツスコア」は、競合のキーワード出現頻度(TF-IDFなど)に基づく採点に過ぎないと彼は暗に批判している。対して彼のE-E-A-Tスコアは「証拠(Evidence)」の有無に基づいており、Googleの品質評価ガイドラインの本来の目的により忠実なアプローチだ。
第3部:E-E-A-Tを「改善」する——AIによる批評と品質ゲート
スコア化はゴールではない。「スコアを顧客へのレポートに使って『9点でした』と報告するためだけに使ってほしくない」とトム氏は釘を刺す。スコアは「改善」のためにある。
AIを「批評ステージ(Critique Stage)」で使え
「なぜそのスコアになったのか?」「どうすれば改善できるか?」を、評価を下したAI自身に尋ねる。
「この記事について、以下の点を分析してください:
1. 強み(Strengths)は何か?
2. 主要な改善領域(Weaknesses)は何か?
3. 改善のための具体的な行動ステップ(Action Steps)を提示せよ。
4. (ボーナス)不足しているデータを補うため、Perplexity AIで検索すべきプロンプトを作成せよ。」
実践:サイボーグ・メソッドと品質ゲート
このプロセスを彼は「サイボーグ・メソッド(Cyborg Method)」と呼ぶ。人間とAIが敵対するのではなく、互いのスーパーパワーを活かし合う。
(例:Xero.comの「キャッシュフロー管理」記事が現在7位の場合)
- 現状スコア測定:現行記事をAIでスコア化する。(例:4.3点)
- 競合分析:1位〜3位の記事を分析する(Skyscraper)。
- AIによる批評:批評ステージプロンプトを実行し、弱点(例:自社製品への言及がない、データがない)を特定する。
- サイボーグ・メソッド:AIが特定した弱点に対し、プロダクトチーム・営業・Cレベルが持つ「生きた経験」や「社内データ」をインプットする。
- コンテンツ更新:AIと人間の知見を統合して記事をリライトする。
- 再スコア測定:更新した記事を再度スコア化する。(例:8.3点)
- 品質ゲート(Quality Gate):このスコアが公開基準を満たしているか判定する。満たしていなければ改善に戻す。
この「品質ゲート」を設けることで、勘に頼らない反復可能なコンテンツ改善プロセスが完成する。
第4部:未来とマニフェスト——記憶に残るために書け
What’s Next?
- GoogleとLLMは、信頼シグナルのないコンテンツを無視し始める。これはForbesのような巨大ブランドよりも、信頼を証明できる小規模ブランドにとって追い風だ。
- AIが信頼するのは「信頼できるクラスター」だけになる。
Tom’s Manifesto
- 信頼を「主張」するな。「証明」せよ。(Don’t claim trust; prove it.)
- 構造化し、スコア化し、追跡せよ。(Structure it, score it, and track it.)
- ユーザーとAIは「クソ(Bullshit)」を見抜く。(Users and AI sniff out bullshit.)
- 自問せよ:あなたのコンテンツが明日消えたら、誰か気づくか? 誰か泣くか?
- ただ書くな。記憶に残るために書け。(Don’t just write; write to be remembered.)
第5部:質疑応答(10分)
セッション後、会場からは多数の質問が寄せられた。LIF Tech編集部が注目すべき問答を抜粋する。
Q. 競合他社のE-E-A-Tを測定する簡単な方法は?
A. 今日シェアしたプロンプトをそのまま競合の記事に使えばいい。そしてAIに「この記事と私の記事を比較して、違いを説明して」と尋ねればいい。
Q. AIによるコンテンツスコアリングの一貫性について。昨日A判定だった記事が今日4点になることがあるが?
A. それは使っている「コンテンツグレーダー」が問題だ。それらのツールはGoogleの検索結果(SERPs)をスクレイピングし、キーワードやエンティティを抽出してスコア化している。しかしSERPsは1週間で変わる。私のアプローチは検索結果ではなく、記事そのものが持つ「価値(Value)」——データ・証拠・専門性——に基づいている。それらは一夜にして変わらない。だから一貫性がある。
Q. 予算の少ないクライアントに高品質なコンテンツをアドバイスするには?
A. 外部に丸投げするな。まずクライアント自身が「良いコンテンツ」を定義すること。そして単なるChatGPTのラッパーではなく、論理エンジン(Logical Engine)としてAIを活用できるツールを内部で使うべきだ。
Q. 大企業にE-E-A-Tで勝つには?
A. 大企業に勝つのは簡単だ。Forbesを見ればわかるように、多くの巨大企業はE-E-A-Tがひどい。GoogleはAIコンテンツを禁止しているのではなく、スパムを禁止している。プロセスを持ち、AIと人間の共同作業で作成された高品質なコンテンツは、すでにGoogleとLLMに評価されている。
Q. iGaming(オンラインカジノなど)でも同じ原則は使えるか?
A. どのニッチかは関係ない。読者は人間であり、人間は常に価値の証明となる特定の事柄を探している。ニッチごとに評価基準を少し変えて適用している。
Q. YouTubeの動画スクリプトにもE-E-A-Tは適用できるか?
A. 絶対に価値があると信じている。E-E-A-Tの全要因は「人間の注意(Human Attention)」に焦点を当てている。コンテンツ内にE-E-A-Tの要因(証拠や経験)を盛り込むことは、YouTubeのアルゴリズムを駆動させる助けになると確信している。
LIF Tech編集部 総括
「E-E-A-Tを”信じる”から、”証明・採点・量産”へ。コンテンツ運用をエンジニアリングに戻す」
Tom Winter氏のセッションは、曖昧な標語になりがちなE-E-A-Tを定義→測定→改善のサイクルに落とす「運用エンジニアリング」だった。要点は3つだ。
- 主観(直感)をルーブリック化し、
- AIを「採点器」と「批評家」に固定配役し、
- 品質ゲートで公開を制御する。日本の現場に最も足りないのは、まさにこの「キャリブレーション(採点基準の明文化)」だ。
日本で”主流ではないが秀逸”なポイント
- 「良い」を先に定義する:記事タイプ×ニッチ×目的ごとに期待する証拠(一次体験・データ・事例・スクショ・エッジケース等)を明記。「チェックリスト埋め」ではなく、エビデンス密度で評価する姿勢は国内に希薄だ。
- AIの役割固定——「創作」より「採点と批評」:「スコア付け→なぜその点か→改善アクション抽出」を同じプロンプト体系で反復。「毎回ちがう答え」問題をRTF(Role/Task/Format)+JSON出力で封じる設計が実務的だ。
- 品質ゲートの導入:スコアが公開基準(例:各柱7.5点以上/総合8.0以上)を満たさない限り出さない。これをワークフローの必須ステップにし、精神論を排除する。
即実装プレイブック(60日)
Phase 1|定義(Day 1–10)
- 主要3カテゴリ(例:YMYL/レビュー/ハウツー)に対し、E/E/A/Tの期待証拠リストを1枚で定義。
- スコア範囲ルーブリックを作成(1/4/7/9点の状態を文章で)。
- ガバナンス:公開基準と例外承認フローを決める。
Phase 2|測定(Day 11–25)
- 既存記事をサンプル30本抽出し、AIスコアリング(JSON)→スプレッドシート連携。
- ばらつき検証(再採点の一致率>90%)とニッチ別重みの微調整。
Phase 3|改善(Day 26–45)
- 批評ステージプロンプトで「強み/弱み/改善アクション」を抽出。
- サイボーグ法:不足証拠を社内から調達(PM、CS、法務、データ)。
- 改稿→再スコア→品質ゲート通過までイテレーション。
Phase 4|運用固定化(Day 46–60)
- CMSに「E-E-A-Tチェック→採点→承認」の必須タスクを実装。
- Looker Studioでダッシュボード(平均点推移・柱別弱点・公開率・SERP影響)を構築。
サンプル設計(使いまわせる最小セット)
1) 期待証拠(例:レビュー記事)
- Experience:実機写真/操作動画/独自計測(速度・音・耐久)/失敗談
- Expertise:比較表の評価軸と根拠/専門用語の正確な定義
- Authoritativeness:著者プロフィール(実務年数・過去検証数)/第三者引用
- Trust:計測条件の開示/ステマ回避表示/更新履歴
2) 公開基準(例)
- 各柱 ≥7.5、総合 ≥8.0、欠落証拠ゼロ、出典整合100%
- YMYLはAuthoritativenessとTrustの最低点を+0.5上乗せ
3) KPI(束ねて見る)
- 品質:平均総合点/柱別点/再採点一致率
- 速度:初稿→公開までの平均イテレーション回数
- 事業:E-E-A-T 8.0以上記事の自然CVR/平均掲載順位の推移
- 運用:公開基準未達率/品質ゲート差し戻し率
現場プロンプト(要点だけ)
- 採点:
Role=E-E-A-T Auditor / Task=Score with rubric / Format=JSON
入力:記事URL/本文・ニッチ・目的・期待証拠リスト・ルーブリック
出力:{experience: {score, evidence_found}, expertise: ..., total_score, missing_evidence, risks} - 批評:同じ文脈で
Strengths / Weaknesses / ActionSteps(箇条書き)/ Needed-Data-Sourcesを返す
リスクと線引き(日本向け)
- YMYL:医療・金融・法律は一次情報の厳格性と監修表記を必須とする。
- 生成痕跡:AIテキストの”指紋”回避を目的化しない。証拠の充実で自然に解消される。
- 引用と権利:スクショ・図版は出典・許諾・キャプションを徹底する。
- 計測の再現性:検証系は条件・機材・手順をテンプレで固定する。
総括(編集部見解)
E-E-A-Tは祈りでも”雰囲気”でもなく、定義→採点→改善→公開という制御可能な工程だ。”よさそう”をやめ、証拠の密度と再現性で戦う。Write to be remembered を Prove to be trusted に接続する運用へ。LIF Techはこのフレームを国内標準のオペレーションとして実装し、クライアントの「記憶されるコンテンツ」を量産していく。

