Methods Inf Med 1968; 7(01): 8-16
DOI: 10.1055/s-0038-1636305
Original Article
Schattauer GmbH

A Natural Language Information Retrieval System[*]

H. Jacobs
1   From the IBM Scientiiic Center, Los Angeles
› Institutsangaben
Weitere Informationen


17. Februar 2018 (online)

This paper describes a system for dealing with a certain kind of textual information. The system has been in operation for about one and a half years. It also indicates the nature of a new and greatly expanded system presently under development.

The first system consists essentially of three parts, of which the most important is a thesaurus processor. The assumption is made that document content depends only on word content and that word relationships are defined by an hierarchical structure. The function of the thesaurus processor is to provide a simple language for developing and changing the thesaurus, whenever change is necessary. The remaining parts of the first system are a document processor for updating document files, and a search processor for batch requests which must scan the entire document file. Some statistics are given on performance of the system.

The second system includes a thesaurus processor of expanded capability. It also includes a newly developed search language, which can be used to scan records for complex patterns of events. Input-output processing of records and of search results is left to the user of the system.

Die Arbeit beschreibt ein System zur Behandlung bestimmter Wortinformationen, das seit etwa lVs Jahren benutzt wird. Sie verweist zudem auf ein neues, derzeit in Entwicklung befindliches, wesentlich erweitertes System.

Das erstere System besteht im wesentlichen aus 3 Teilen, von denen der für die Weiterentwicklung des Thesaurus der wichtigste ist. Man geht dabei von der Annahme aus, daß der Dokumenteninhalt nur vom Wortinhalt abhängig ist und daß Wort-Beziehungen durch eine hierarchische Struktur gekennzeichnet werden können. Die Aufgabe des Thesaurus-Entwicklungs-Programms ist es, eine einfache Sprache für Ergänzungen und Änderungen im Thesaurus zu liefern, wann immer Änderungen erforderlich werden.

Die übrigen Teile des ersten Systems sind ein Dokumenten-Bearbeitungs-Programm, das den Datenbestand auf dem laufenden hält, und ein Suchprogramm zur gleichzeitigen Bearbeitung mehrerer Anfragen an das gespeicherte Datenmaterial.

Das zweite System enthält ein Thesaurus-Erstellungs-Programm mit erweiterten Fähigkeiten. Es umfaßt auch eine neu entwickelte Suchsprache, die zum Suchen nach komplexen Ereigniskonstellationen benutzt werden kann. Das Eingabe-Ausgabe-Verfahren für die Protokolle und Suchergebnisse bleibt dabei dem Benutzer des Systems überlassen.

* This paper is based on a talk presented by Mr. Herbert Jacobs at 8th IBM Medical Symposium, IBM, Poughkeepsie, N. Y. It has been edited into this form by Dr. Bernard Dimsdale of the Los Ancreles Scientific Center.

  • References

  • 1 Dimsdale B.. User’s Manual I — A Natural Language Information Retrieval System. Los Angeles Scientific Center; 35. 019, 1966
  • 2 Lamson B. G.. Storage and Retrieval of Uncoded Tissue Pathology Diagnoses in the Original English Free-Text Form. (Proceedings of the 7th IBM Medical Symposium, Pough-keepsie; 1965
  • 3 Lamson B. G., and Dimsdale B.. A Natural Language Information Retrieval System. Proceed. IEEE 54: 1636-1640 1966;