Assessment of the quality of different commercial providers using artificial intelligence for automated cephalometric analysis compared to human orthodontic experts

J Orofac Orthop. 2023 Aug 29. doi: 10.1007/s00056-023-00491-1. Online ahead of print.

Abstract

Purpose: The aim of this investigation was to evaluate the accuracy of various skeletal and dental cephalometric parameters as produced by different commercial providers that make use of artificial intelligence (AI)-assisted automated cephalometric analysis and to compare their quality to a gold standard established by orthodontic experts.

Methods: Twelve experienced orthodontic examiners pinpointed 15 radiographic landmarks on a total of 50 cephalometric X‑rays. The landmarks were used to generate 9 parameters for orthodontic treatment planning. The "humans' gold standard" was defined by calculating the median value of all 12 human assessments for each parameter, which in turn served as reference values for comparisons with results given by four different commercial providers of automated cephalometric analyses (DentaliQ.ortho [CellmatiQ GmbH, Hamburg, Germany], WebCeph [AssembleCircle Corp, Seongnam-si, Korea], AudaxCeph [Audax d.o.o., Ljubljana, Slovenia], CephX [Orca Dental AI, Herzliya, Israel]). Repeated measures analysis of variances (ANOVAs) were calculated and Bland-Altman plots were generated for comparisons.

Results: The results of the repeated measures ANOVAs indicated significant differences between the commercial providers' predictions and the humans' gold standard for all nine investigated parameters. However, the pairwise comparisons also demonstrate that there were major differences among the four commercial providers. While there were no significant mean differences between the values of DentaliQ.ortho and the humans' gold standard, the predictions of AudaxCeph showed significant deviations in seven out of nine parameters. Also, the Bland-Altman plots demonstrate that a reduced precision of AI predictions must be expected especially for values attributed to the inclination of the incisors.

Conclusion: Fully automated cephalometric analyses are promising in terms of timesaving and avoidance of individual human errors. At present, however, they should only be used under supervision of experienced clinicians.

Zusammenfassung: ZIEL: Ziel dieser Untersuchung war es, die Analysequalität verschiedener kommerzieller Anbieter für KI(künstliche Intelligenz)-basierte Fernröntgenseitenanalysen (FRS-Analysen) zu untersuchen und deren Auswertungen mit einem durch Experten festgelegten Goldstandard zu vergleichen.

Methoden: Auf 50 FRS wurden durch 12 erfahrene Untersucher 15 Landmarken identifiziert, auf deren Basis 9 relevante Parameter für die kieferorthopädische Behandlungsplanung vermessen wurden. Der „menschliche Goldstandard“ wurde definiert, indem der Medianwert aller 12 menschlichen Bewertungen für jeden Parameter berechnet wurde. Dieser diente als Referenzwert für den Vergleich mit den Ergebnissen von 4 verschiedenen kommerziellen Anbietern automatisierter FRS-Analysen (DentaliQ.ortho [CellmatiQ GmbH, Hamburg, Deutschland], WebCeph [AssembleCircle Corp, Seongnam-si, Korea], AudaxCeph [Audax d.o.o., Ljubljana, Slowenien], CephX [Orca Dental AI, Herzliya, Israel]). Die statistische Auswertung erfolgte mittels ANOVAs mit Messwiederholungen sowie mittels Bland-Altman-Plots.

Ergebnisse: Die Ergebnisse der ANOVAs mit Messwiederholung zeigten signifikante Unterschiede zwischen den Vorhersagen der kommerziellen Anbieter und dem menschlichen Goldstandard für alle 9 untersuchten Parameter, wobei sich im Rahmen der anschließenden paarweisen Vergleiche große Unterschiede zwischen den 4 kommerziellen Anbietern ergaben. Während keine signifikanten Unterschiede zwischen den Werten von DentaliQ.ortho und dem Goldstandard festgestellt wurden, wichen die Vorhersagen von AudaxCeph bei 7 von 9 Parametern signifikant ab. Außerdem zeigten die Bland-Altman-Plots, dass grundsätzlich eine geringere Präzision der KI-Vorhersagen bei den Parametern für die Inklination der Frontzähne zu erwarten ist.

Schlussfolgerung: Vollständig automatisierte FRS-Analysen sind vielversprechend in Bezug auf ihre Zeitersparnis und die Vermeidung individueller menschlicher Fehler. Derzeit sollten sie jedoch nur unter Aufsicht erfahrener Kliniker eingesetzt werden.

Keywords: Cephalometric landmarks; Deep Learning; Human gold standard; Machine Learning; Orthodontic parameters.