精神医学における大規模言語モデルの診断精度

Diagnostic accuracy of large language models in psychiatry

Omid Kohandel Gargaria, Farhad Fatehi, Ida Mohammadi, Shahryar Rajai Firouzabadi, Arman Shafiee, Gholamreza Habibi

Asian Journal of Psychiatry, Volume 100, 2024, 104168

doi.org/10.1016/j.ajp.2024.104168

要約

この研究では、GPT-3.5とGPT-4が精神医学的診断において、AyaやNemotronよりも高い診断精度と質の高い推論を示した。特に、精神病性障害や双極性障害の診断において優れていた。しかし、すべてのAIモデルが同様に機能するわけではなく、循環気質性障害や破壊的気分調節障害などの特定の疾患の診断には苦戦が見られた。AIは、精神疾患の時間的特性やパターンを考慮するのが苦手な場合もある。また、DSM-5のテキストへのアクセスは、診断精度を向上させなかった。AIは医療専門家の判断を補完するツールであり、その代替ではない。AIモデルの選択においては、言語処理能力や臨床応用に特化したトレーニングを考慮する必要がある。