Oct 10, 2018
Google最新論文(18年)。最近ニュースでも話題になった入院患者の死亡率などを予測する深層学習の論文。 まだ、日本語でちゃんと解説された記事が無かったので、簡単なメモを作成。 間違いや、良くわからん訳などあるかもしれないが、そこはご容赦。
○論文
原著(概要と結果)
Alvin Rajkomar(Google), et.al. “Scalable and accurate deep learning with electronic health records”, npj Digital Medicinevolume 1, Article number: 18 (2018).
補足資料(具体的な手法説明)
Supplementary Materials
○ソースコード
FHIRデータ形式のソース
https://github.com/google/fhir ○関連記事
Googleが病院を訪れた患者の身に「次に何が起こるか?」を予測する技術を開発
https://gigazine.net/news/20180510-deep-learning-for-electronic-health-records/
医療情報をクレンジングなしで容易に統合、AIで経過を高精度予測 googleの研究
https://medit.tech/google-and-the-teams-repo/
簡単に言うと Google+UCサンフランシスコ校+シカゴ薬科大+スタンフォード大の研究チームが、複数の医療機関の電子カルテ(EHR)情報を標準フォーマット(FHIR)で統合し、入院患者の経過(院内死亡、計画外再入院、入院長期化)と退院診断名を深層学習等を用いて予測するアルゴリズムを開発。すべてのタスクにおいて既存手法を上回る精度を達成。これにより、早期(例えば入院後24時間以内)に高リスクの患者を検知しアラートを挙げることで、医療従事者は何らかの対策を打てるようになる。
※全体概念図は下記
感想 転移学習のようなネットワーク側でデータ形式の違いを吸収するのではなく、ネットワークへデータ入力する前に、生データからベクトル化(Embedding)する前処理で吸収。(帰納学習ではなく、表現学習の論文とみると合点がいった) 前処理は、標準コード化、正規化、自然言語処理などの様々な手法の組み合わせ。この論文の最も注力した部分であり、後段処理の深層学習に頼らず、各種データの特性に合わせて(愚直に)作り込んでいる印象。 推定モデルに関しては、時系列データ向け深層学習(LSTM)、フィードフォワード・ニューラルネットワーク、ブースティングモデルの計3つの(オーソドックスな)手法に並行してデータ入力し、得られた3つの出力から多数決により1つ選ぶ。これを最終的な推定結果とした。 ベースラインとした手法に、本研究で得た全データのベクトルを入力した場合と、先行事例で扱っていた限定データの特徴量を入力した場合で性能比較。前者の方が後者よりも高い性能を得たことから、本研究のように臨床の様々なデータを余すこと無く使うことが重要であることも示唆。 概要 EHR生データを全てFHIR形式(下記、参考参照)へ記録し、深層学習などを用いて複数タスク(①患者の院内死亡、②計画外再入院、③入院長期化、④退院診断名)の推定を行った。 タスクを選んだ理由 院内死亡:医療の重要な結果 計画外再入院:医療の質を客観評価できる指標 入院長期化:医療資源の活用指標 退院診断名:患者の問題理解の指標 結果 タスク 提案手法 従来手法 院内死亡 0.