Automated real-world data integration improves cancer outcome prediction

Justin Jee; Christopher Fong; Karl Pichotta; Thinh Ngoc Tran; Anisha Luthra; Michele Waters; Chenlian Fu; Mirella Altoe; Si-Yang Liu; Steven B Maron; Mehnaj Ahmed; Susie Kim; Mono Pirun; Walid K Chatila; Ino de Bruijn; Arfath Pasha; Ritika Kundra; Benjamin Gross; Brooke Mastrogiacomo; Tyler J Aprati; David Liu; JianJiong Gao; Marzia Capelletti; Kelly Pekala; Lisa Loudon; Maria Perry; Chaitanya Bandlamudi; Mark Donoghue; Baby Anusha Satravada; Axel Martin; Ronglai Shen; Yuan Chen; A Rose Brannon; Jason Chang; Lior Braunstein; Anyi Li; Anton Safonov; Aaron Stonestrom; Pablo Sanchez-Vela; Clare Wilhelm; Mark Robson; Howard Scher; Marc Ladanyi; Jorge S Reis-Filho; David B Solit; David R Jones; Daniel Gomez; Helena Yu; Debyani Chakravarty; Rona Yaeger; Wassim Abida; Wungki Park; Eileen M O'Reilly; Julio Garcia-Aguilar; Nicholas Socci; Francisco Sanchez-Vega; Jian Carrot-Zhang; Peter D Stetson; Ross Levine; Charles M Rudin; Michael F Berger; Sohrab P Shah; Deborah Schrag; Pedram Razavi; Kenneth L Kehl; Bob T Li; Gregory J Riely; Nikolaus Schultz; MSK Cancer Data Science Initiative Group

doi:10.1038/s41586-024-08167-5

Automated real-world data integration improves cancer outcome prediction

Nature. 2024 Dec;636(8043):728-736. doi: 10.1038/s41586-024-08167-5. Epub 2024 Nov 6.

Authors

Justin Jee^#¹, Christopher Fong^#¹, Karl Pichotta^#¹, Thinh Ngoc Tran^#¹, Anisha Luthra^#¹, Michele Waters¹, Chenlian Fu¹, Mirella Altoe¹, Si-Yang Liu¹, Steven B Maron^{1

2}, Mehnaj Ahmed¹, Susie Kim¹, Mono Pirun¹, Walid K Chatila¹, Ino de Bruijn¹, Arfath Pasha¹, Ritika Kundra¹, Benjamin Gross¹, Brooke Mastrogiacomo¹, Tyler J Aprati², David Liu², JianJiong Gao³, Marzia Capelletti³, Kelly Pekala¹, Lisa Loudon¹, Maria Perry¹, Chaitanya Bandlamudi¹, Mark Donoghue¹, Baby Anusha Satravada¹, Axel Martin¹, Ronglai Shen¹, Yuan Chen¹, A Rose Brannon¹, Jason Chang¹, Lior Braunstein^{1

2}, Anyi Li¹, Anton Safonov¹, Aaron Stonestrom¹, Pablo Sanchez-Vela¹, Clare Wilhelm¹, Mark Robson^{1

2}, Howard Scher^{1

2}, Marc Ladanyi¹, Jorge S Reis-Filho¹, David B Solit¹, David R Jones¹, Daniel Gomez¹, Helena Yu¹, Debyani Chakravarty¹, Rona Yaeger^{1

4}, Wassim Abida^{1

4}, Wungki Park^{1

4}, Eileen M O'Reilly^{1

4}, Julio Garcia-Aguilar^{1

4}, Nicholas Socci¹, Francisco Sanchez-Vega¹, Jian Carrot-Zhang¹, Peter D Stetson¹, Ross Levine^{1

4}, Charles M Rudin^{1

4}, Michael F Berger¹, Sohrab P Shah¹, Deborah Schrag^{1

4}, Pedram Razavi^{1

4}, Kenneth L Kehl², Bob T Li^{1

4}, Gregory J Riely^{1

4}, Nikolaus Schultz⁵; MSK Cancer Data Science Initiative Group

Collaborators

MSK Cancer Data Science Initiative Group:
Aaron Lisman, Gaofei Zhao, Ino de Bruijn, Walid K Chatila, Xiang Li, Aarman Kohli, Darin Moore, Raymond Lim, Tom Pollard, Robert Sheridan, Avery Wang, Calla Chennault, Manda Wilson, Hongxin Zhang, Robert Pimienta, Surya Rangavajhala, Guru Subramanian, Jowel Garcia, Naveen Rachuri, Kevin Boehm, Mitchell Parker, Henry Walch, Subhiksha Nandakumar, Jordan Eichholz, Ayush Kris, Paolo Manca, Xuechun Bai, Tejiri Agbamu, Justin U, Xinran Bi

Affiliations

¹ Memorial Sloan Kettering Cancer Center, New York, NY, USA.
² Dana Farber Cancer Institute, Boston, MA, USA.
³ Caris Life Sciences, Irving, TX, USA.
⁴ Weill Cornell Medicine, Cornell University, New York, NY, USA.
⁵ Memorial Sloan Kettering Cancer Center, New York, NY, USA. schultzn@mskcc.org.

^# Contributed equally.

Abstract

The digitization of health records and growing availability of tumour DNA sequencing provide an opportunity to study the determinants of cancer outcomes with unprecedented richness. Patient data are often stored in unstructured text and siloed datasets. Here we combine natural language processing annotations^1,2 with structured medication, patient-reported demographic, tumour registry and tumour genomic data from 24,950 patients at Memorial Sloan Kettering Cancer Center to generate a clinicogenomic, harmonized oncologic real-world dataset (MSK-CHORD). MSK-CHORD includes data for non-small-cell lung (n = 7,809), breast (n = 5,368), colorectal (n = 5,543), prostate (n = 3,211) and pancreatic (n = 3,109) cancers and enables discovery of clinicogenomic relationships not apparent in smaller datasets. Leveraging MSK-CHORD to train machine learning models to predict overall survival, we find that models including features derived from natural language processing, such as sites of disease, outperform those based on genomic data or stage alone as tested by cross-validation and an external, multi-institution dataset. By annotating 705,241 radiology reports, MSK-CHORD also uncovers predictors of metastasis to specific organ sites, including a relationship between SETD2 mutation and lower metastatic potential in immunotherapy-treated lung adenocarcinoma corroborated in independent datasets. We demonstrate the feasibility of automated annotation from unstructured notes and its utility in predicting patient outcomes. The resulting data are provided as a public resource for real-world oncologic research.

MeSH terms

Automation
Carcinoma, Non-Small-Cell Lung / drug therapy
Carcinoma, Non-Small-Cell Lung / genetics
Carcinoma, Non-Small-Cell Lung / mortality
Carcinoma, Non-Small-Cell Lung / pathology
Datasets as Topic
Electronic Health Records
Female
Genomics
Humans
Machine Learning
Male
Natural Language Processing*
Neoplasms* / drug therapy
Neoplasms* / genetics
Neoplasms* / pathology
Prognosis
Registries