過去5年間、LLMの指数関数的な成長が観察され、多様なタスクの実行が可能となっている。しかし、2017年以前は、ほとんどの自然言語モデルが1つの特定タスクのために訓練されていた。この限界は、Transformerとして知られる「自己注意ネットワークアーキテクチャ」の開発によって克服された。2018年、このコンセプトは2つの革命的なモデル、すなわち「Generative Pretrained Transformer(GPT)」と「Bidirectional Encoder Representations from Transformers(BERT)」の開発につながる。
GPTとBERTの汎化能力を実現するため、教師ありの微調整と教師なしの事前学習の組み合わせが用いられた。このアプローチにより、事前に訓練された言語表現を下流タスクの実行に適用することが可能となった。GPTモデルは急速に進化し、多くのバージョンが発表された。改良バージョンは、大規模なテキストデータとパラメータを含んでおり、例えばGPTの第3バージョン(GPT-3)は、GPT-2の100倍の大きさであり、1750億のパラメータを含んでいる。GPT-3は、幅広い領域をカバーするテキストを生成することができるが、真実ではないものを含め、偏ったテキストを提供することが頻繁に観察される。これは、GPT-3を含む多くのLLMが、インターネット上で入手可能なデータに基づいて次のテキスト要素を予測するように設計されているため、偏りや誤りを再現してしまうことに起因する。人間の価値観や倫理観に沿ったLLMを設計することが大きな課題となっていた。
この問題に対処するため、OpenAIは、人間のフィードバックに基づく強化学習(RLHF)を用いて学習させた13億のパラメータを組み込んだChatGPTを開発した。2021年段階のChatGPTでは、事実確認ができないために誤った文章が高頻度に生成されていたが、GPT-4(総パラメータ数は非公開)をChatGPTに統合することで有意な改善が確認されている。最新のChatGPTは比較的信頼性の高いデータを生成しているが、特に医学研究への応用においては、このツールのあらゆる限界を考慮する必要があることには変わりない。
ChatGPTは、研究者が科学論文を作成するための現実的な実務に活用することができる。研究論文のタイトル提案、原稿執筆、複雑な科学的概念をシンプルで文法的に正しい英語で表現する、などだ。科学界におけるChatGPTへの関心の高さは、このツールに関する研究論文の数が急速に増加している事実からもうかがい知ることができる。一方、2023年の機械学習国際会議(ICML)では、投稿原稿にLLMを使用することを禁止した。しかし、このルールへの遵守を検証するツールは存在しない。Springer Natureでは、LLMを著者として記載することは許さず、その使用は方法または謝辞のセクションで言及しなければならないとする。これらの新しいガイドラインは、Elsevierでも同様に実施されている。
潜在的なバイアスを含むAIによるインフォデミックの発生は、将来的に公衆衛生上の重大な脅威となることが予測されており(参照論文)、予防や治療戦略における医療上の重要な意思決定に大きな影響を与える可能性があるため、冷静で注意深い技術利用姿勢と適切な規制構築、研究開発コミュニティの強い倫理観、が求められている。
関連記事: