医学研究において対となる概念 in vitroイン・ビトロ(試験管内)とin vivo イン・ビボ(生体内)がある。人為的に条件を整えられた実験環境のin vitroと、実際の体の中 in vivoでの反応や結果が異なることは科学的視点では基礎中の基礎となる。同様に、実験ラボで極めて高い精度を示したAIが、臨床現場においてうまく機能しない可能性を私たちは忘れてはいけない。
MIT Technology Reviewが報じている、Google Healthの糖尿病性網膜症をスクリーニングするAIが臨床現場で示したエピソードは、大きな示唆に富む。同AIはタイの11の診療所で実証する機会を得た。開発チームが「人間の専門家レベル」と称した90%以上の精度で糖尿病性網膜症を識別し、10分以内に結果を出すシステムは実環境でどう機能したか。うまく機能したときAIは臨床をスピードアップしたが、時に全く結果を出せなかった。看護師が照明の悪い環境で患者の目をスキャンしたところ、画像の5分の1以上がシステムに拒絶された。AIは高い精度を確保するために一定の品質を下回る画像を拒否する設計となっていたのである。またシステムが画像をクラウド上にアップロードする際、一部の診療所ではインターネット接続の悪さが遅延の原因となった。2時間で10人しかスクリーニングできなかったこともあるという。システムから除外された患者にとって、別日に別の場所で専門医の診察を受け直すことは容易ではなく、現場の看護師にとって浪費した時間はフラストレーションとなった。
Google Healthのチームは、地域の医療スタッフと協力して新しいワークフローを再設計しているという。その取り組みは、現場へ真の利益をもたらすAIツールづくりに真摯に向き合った好例となるだろう。他方、現在危惧されるのは世界各地で乱立しているCOVID-19に対応した新しいAIツールである。その発表は性急となっていないだろうか。医療の専門的知見をもたないチームで開発されたAIモデルが現場に混乱をもたらし悪い方向に突進する可能性に私たちは注意しなければならない。AIシステムが、しばしば不確実である医学を拒絶してしまわないよう、精度だけにこだわらない現場への適合を議論すべきだろう。