前回の改修経緯
前回の開発日記では、映像制作工房LACのDiscordチャットボットを改修した経緯を記述しました。
映像制作工房LACの利用者は障害当事者です。学習中に不明点に直面した際、強い不安や焦燥を抱く方がいます。そのためボット設計で最優先したのは、質問に対する即時の反応と、誤情報の排除による混乱の防止でした。
旧ボットには、会話によるチャンネルの埋没、解決状況の不明確さ、サポーターへの引継ぎの曖昧さ、メンション不可の利用者の疎外、LLM(大規模言語モデル)による虚偽回答という5つの課題がありました。これらは全て、利用者の学習体験を損なう要因でした。改修ではスレッド化、ボタンUI、スコア判定、自動ログ機能を実装しました。今回は、利用者の体験が数値としてどう変化したかを振り返ります。
データの出所と比較における注意点
比較対象は2つのデータ群です。改修前は1月5日から2月13日までの手入力記録85件。改修後は2月15日から3月28日までの構造化ログ153件です。
ただし、これらは記録手法が異なります。以前はサポーターが手動で集計していましたが、現在はボットが自動で記録しています。件数の増加には、純粋な相談増と記録精度の向上という両面が含まれます。また、旧ボットの対応率は記録の仕組み自体がなかったため、単純な数値比較は行いません。定義が揃っていない指標を並べることは実態を見誤る恐れがあるため、本記事では同一定義で比較可能な指標のみを採用します。
利用者の体験はどう変化したか
改修の主目的は、質問から回答に至るまでの体験を刷新することでした。
改修後の153件のうち、ボット対応は106件(69.3%)に達しました。ボットのみで完結した79件の応答時間は中央値9.4秒です。質問送信から10秒足らずで回答が届く体制が実現しました。改修前は全件が人力対応であり、解決までの中央値は2日でした。少なくともボットが回答可能な範囲においては、即時応答が確立されています。
ボットが回答不能な場合も、ボタン操作のみでサポッタへ接続される仕組みを構築しました。転送後の応答中央値は8.5分です。人的対応全体(サポッタおよび運営が関与したケース)では、起票から最終応答までの中央値は2.8時間となりました。これは旧来の「日単位」から「時間単位」への劇的な短縮を示唆しています。不明点が生じた瞬間に即座の反応を得られる環境作りは、着実に前進しています。
虚偽回答を抑制できているか
改修の核心はLLMによる虚偽回答の抑制でした。利用者はカリキュラムを信頼して学習しており、誤情報の提示は信頼関係を根底から破壊します。そのため、適当な回答を禁じるスコア判定の仕組みを導入しました。
しかし、改修前の虚偽回答件数が自動で記録されていなかったため、削減効果を直接示す数値は存在しません。これが今回の計測における最大の盲点でした。間接的な指標として、ボット対応のうち約25%が「自力回答不能」と判断して人間に転送されている点が挙げられます。これはスコア判定が機能し、ナレッジ不足を正しく検知している証左です。ナレッジの拡充によりこの転送率は低下するはずであり、今後の網羅率向上の目安となります。
運用側に生じた変化
利用者の体験改善と同時に、運用負荷にも変化が現れました。
サポーターの対応率は78.8%から20.9%へ低下しました。運営の対応率も21.2%から9.8%に減少しています。ボットが初動を引き受けることで、人間は判断が必要な高度なケスに集中できる環境が整いました。これらは記録手法の差異に関わらず、同一定義で比較可能な成果です。
副次的な効果として、記録作業の自動化による時間削減も実現しました。以前は手入力と要約に1件あたり最低3分を要しており、改修前の件数でも計4時間以上の事務負荷が生じていました。改修後の153件を同様に手入力していれば7.5時間以上を要した計算になりますが、自動ログ機能によりこの負担は完全に消滅しました。
計測の仕組みを見直す
今回の集計により、可視化された成果と未計測の課題が浮き彫りとなりました。
即時の反応は9.4秒という数値で確認できましたが、虚偽回答の抑制効果は比較対象がなく計測不能でした。また、対応完了の記録も現状は不完全です。改修前後で指標が揃わなかったのは、記録手法が途中で変容したためです。LLMを過信してはならないのと同様に、データに対しても慎重な姿勢が求められます。定義が不揃いな数値を安易に並べることは、改善の実態を誇張することに繋がります。
次に行うべきは、機能の追加ではなく計測手法の改善です。完了報告の定着、転送率に基づいたナレッジ網羅率の追跡、そして利用者のボット評価を収集する仕組みの構築が必要です。ボットの質を高めることと、その質を正確に測定できる環境を整えることは、表裏一体の業務でした。次回はより精度の高いデータによる検証を目指します。