Methods Inf Med 1971; 10(03): 168-175
DOI: 10.1055/s-0038-1636039
FREE TEXT PROCESSING
Schattauer GmbH

An Automated Parsing Routine for Diagnostic Statements of Surgical Pathology Reports[*)]

EIN PROGRAMM ZUR AUTOMATISIERTEN LINGUISTISCHEN ANALYSE DIAGNOSTISCHER ANGABEN IN CHIRURGISCHEN KRANKENBLÄTTERN
R. L. Wong
,
P. Gaynon
Weitere Informationen

Publikationsverlauf

Publikationsdatum:
10. Februar 2018 (online)

Preview

An automated parsing routine was written for extracting the »site«, »diagnostic«, and »modifier« components of the diagnostic statements of the diagnostic summary of surgical pathology reports. Such parsed reports appear to be suitable for input into an information retrieval system for the surgical pathology reports.

Data was input through a key-to-tape device producing a computer compatible magnetic tape with a record size of 870 bytes. The statements were parsed through syntactic and morphological analysis utilizing the common prepositions, the common punctuations and the morphemal constructions common in medical terms. (A total of sixty-two delimiters were used). Certain suffix transformations were performed, converting some »site« adjective to »site« nouns, and some »diagnostic« nouns to »site« nouns. 1,108 diagnostic statements were processed with an error rate of 9.3% for the latest version on the last 493 statements.

Verfasser entwickelten ein Programm zur automatisierten linguistischen Analyse der »lokalisatori- schen«, »diagnostischen« und »modifizierenden« Komponenten der diagnostischen Angaben in den Zusammenfassungen chirurgischer Krankengeschichten. Solchermaßen zergliederte Berichte scheinen sich zur Eingabe in eine Datenbank für chirurgische Krankenberichte zu eignen.

Die Daten wurden mittels eines »key-to-tape«-Verfahrens eingegeben, wobei ein computergerechtes Magnetband mit Satzlängen von 870 Bytes entsteht. Die Angaben wurden syntaktisch und morphologisch analysiert unter Verwendung der gewöhnlichen Präpositionen, der üblichen Satzzeichen und der bei medizinischen Fachausdrücken üblichen Morphemkonstruktionen. (Insgesamt wurden 62 verschiedene Einteilungsbegriffe benutzt). Bestimmte Nachsilben wurden verändert, wodurch einige »topographische« Adjektive in »topographische« Substantive und einige »diagnostische« Substantive in »topographische« Substantive verwandelt wurden. Insgesamt wurden 1.108 diagnostische Angaben bearbeitet. Die Fehlerquote betrug bei der neuesten Programmfassung 9,3%.

*) Supported by the Norval Pierce Research Fund, University of Illinois, Abraham Lincoln School of Medicine.