Wissenschaftliche Open-Access-Ressourcen: digitale Datenbanken
Basisniveau
Ein Open Access oder OA ist eine Reihe von Prinzipien und eine Reihe von Praktiken, durch dieForschungAusgaben werden online, kostenlos oder andere Zugangsbarrieren verteilt.
Open Access wissenschaftliche Ressourcen
Eine Einführung in « Open Access » Ressourcen
Ein Open Access oder OA ist eine Reihe von Prinzipien und eine Reihe von Praktiken, durch dieForschungAusgaben werden online, kostenlos oder andere Zugangsbarrieren verteilt. Mit strikt definiertem Open Access (gemäß der Definition von 2001) oder libre Open Access werden auch Hindernisse für das Kopieren oder die Wiederverwendung durch die Anwendung einer offenen Lizenz für das Urheberrecht reduziert oder beseitigt.
Das Hauptaugenmerk der Open-Access-Bewegung liegt auf „peer-reviewed research Literatur“. Historisch gesehen hat sich dies hauptsächlich auf gedruckte wissenschaftliche Zeitschriften konzentriert. Während konventionelle (non-open access) Zeitschriften die Publikationskosten durch Zugangsgebühren wie Abonnements, Site-Lizenzen oder Pay-per-View-Gebühren decken, zeichnen sich Open-Access-Zeitschriften durch Finanzierungsmodelle aus, bei denen der Leser für die Lektüre nicht bezahlen muss Inhalt der Zeitschrift. Open Access kann auf alle Formen von veröffentlichten Forschungsergebnissen angewendet werden, einschließlich peer-reviewed und non-peer-reviewed wissenschaftliche Zeitschriftenartikel, Konferenzbeiträge, Abschlussarbeiten, Buchkapitel, Monographien und Bilder.
Bei der Definition des „freien“ Zugangs muss jedoch zwischen „gratis“ und „libre“ unterschieden werden.
Um die realen Unterschiede im Grad des Open Access widerzuspiegeln, wurde 2006 von Peter Suber und Stevan Harnad, zwei der Mitverfasser der ursprünglichen Budapest Open Access Initiative ( BOAI) Definition des Open-Access-Publizierens. Gratis Open Access bezieht sich auf den kostenlosen Online-Zugang und libre Open Access bezieht sich auf den kostenlosen Online-Zugang zuzüglich einiger zusätzlicher Weiterverwendungsrechte. Libre Open Access entspricht der Definition von Open Access in der BOAI, der Bethesda-Erklärung zum Open-Access-Publizieren und der Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities. Die Weiterverwendungsrechte von libre OA werden oft durch verschiedene spezifische Creative Commons-Lizenzen festgelegt; diese erfordern fast alle die Zuschreibung der Autorenschaft an die ursprünglichen Autoren.
Das im Februar 2002 von der BOAI veröffentlichte Dokument enthält die folgende sehr verbreitete Definition:
- Mit „offenem Zugang“ zu dieser Literatur meinen wir ihre freie Verfügbarkeit im öffentlichen Internet, die es allen Benutzern ermöglicht, die Volltexte dieser Artikel zu lesen, herunterzuladen, zu kopieren, zu verteilen, zu drucken, zu durchsuchen oder zu verlinken, sie zur Indexierung zu durchsuchen, als Daten an Software weiterzugeben oder für andere rechtmäßige Zwecke zu verwenden, ohne andere finanzielle, rechtliche oder technische Hindernisse als die, die mit dem Zugang zum Internet selbst untrennbar verbunden sind. Die einzige Einschränkung bei der Vervielfältigung und Verbreitung und die einzige Rolle des Urheberrechts in diesem Bereich sollte darin bestehen, den Autoren die Kontrolle über die Integrität ihrer Werke und das Recht auf ordnungsgemäße Anerkennung und Zitierung zu geben.
Angesichts der obigen Informationen muss die Nutzung wissenschaftlicher Open-Source-Ressourcen den allgemein verabschiedeten Regeln folgen. Bei der Veröffentlichung von wissenschaftlichen Open-Source-Ressourcen muss auch deutlich angegeben werden, ob sie frei oder kostenlos sind und dem ursprünglichen Autor zugeschrieben werden.
Eine Einführung in die Daten (Grundstufe)
Was sind „Daten“
Laut dem Merriam-Webster-Wörterbuch gibt es drei verschiedene Definitionen von Daten:
- Sachinformationen, wie Messungen oder Statistiken, die als Grundlage für Argumente, Diskussionen oder Berechnungen dienen
- Informationen in digitaler Form, die übermittelt oder verarbeitet werden können
- Informationsausgabe eines Sensors oder Organs, die sowohl nützliche als auch irrelevante oderredundantInformationen und müssen sinnvoll verarbeitet werden
In diesem Dokument werden wir die meisten der drei Definitionen behandeln.
In diesem Dokument werden wir die meisten der drei Definitionen behandeln.
Seit der Mensch zu kommunizieren begann, hat er die Notwendigkeit erfahren, Informationen langfristig zu speichern. Das Aufbewahren von Informationen war für unsere Vorfahren notwendig, um ihr Überleben zu sichern. Die Weitergabe von Informationen über Generationen hinweg ermöglichte es ihnen, potenzielle Gefahren im Auge zu behalten, aber auch eine Bestandsaufnahme der besten Orte zum Sammeln von Nahrung, der besten Angelplätze, der interessantesten Tiere zum Jagen und der besten Unterstände zu machen. Alle diese Informationen wurden mündlich übermittelt. Mit der Evolution des Wissens und der Erfindung der Schrift begannen sie, Informationen auf unauslöschlichen Medien zu speichern.
Ohne auf die Entwicklung der Informationsdarstellung einzugehen, werden einige bedeutende Beispiele gegeben, die bei der Strukturierung des Denkens geholfen haben, die zur Entdeckung der Computerwerkzeuge führten, die wir täglich verwenden.
Daten vor der Erfindung des Computers
Als menschliche Gesellschaften entstanden, wurden die kollektiven Motivationen für die Entwicklung des Schreibens von pragmatischen Erfordernissen angetrieben. Dazu gehören die Organisation und Führung von Gesellschaften durch die Bildung von Rechtssystemen, Verträgen, Eigentumsurkunden, Steuern, Handelsabkommen, Verträgen, Volkszählungen, Geschichtsschreibung, Kulturpflege, Verfolgung wissenschaftlicher Entdeckungen, Kodifizierung von Wissen durch Lehrpläne und Listen von Texten, die künstlerisch außergewöhnlich sind oder grundlegendes Wissen enthalten, und viele andere Bedürfnisse.

Zum Beispiel um das 4. Jahrtausend v. Chr. wuchs die Komplexität von Handel und Verwaltung in Mesopotamien über das menschliche Gedächtnis hinaus, und das Schreiben wurde zu einer zuverlässigeren Methode, um Transaktionen in dauerhafter Form aufzuzeichnen und darzustellen.
Keilschrift war eines der frühesten Schriftsysteme, das von Sumerern im alten Mesopotamien erfunden wurde. Es zeichnet sich durch seine keilförmigen Markierungen auf Tontafeln aus, die mit einem stumpfen Rohrblatt für einen Griffel hergestellt wurden, wie in Abb. 1 gezeigt.
Im Laufe der Zeit ist die Entwicklung von Wissen, die Vervielfältigung von Informationen, die Einschränkung des menschlichen Gedächtnisses, die Notwendigkeit, riesige Mengen von Informationen aufzuschreiben und zu dokumentieren, unabdingbar geworden. Trotz der Aufzeichnung von fast jeder Art von Informationen oder Daten auf verschiedenen Medien wurde es jedoch immer komplexer, diese auf einfache Weise abzurufen. Man musste Dutzende von Berichten und Büchern lesen, um zu einem Thema zusammenzufassen.
Daten in der Moderne
Die Menge der jährlich produzierten und digital vorgehaltenen Daten, z. B. To-Do-Listen, Rezepte, Erinnerungen, Logbücher, Karten, Fotos, E-Mails, wissenschaftliche Daten, politische Berichte, Videos etc. ist heute so exponentiell, dass sie die Notwendigkeit, die Art und Weise zu strukturieren, wie wir diese phänomenalen Größen abrufen können.
Computer gewannen an Popularität und wurden in den frühen 80er Jahren für Einzelpersonen und private Unternehmen kostengünstig. Die 60er Jahre können jedoch als die neue Ära im Bereich der Datenbanken betrachtet werden. Die Einführung des Begriffs „Datenbank“ fiel mit der Verfügbarkeit von Direktzugriffsspeichern oder DAS ab Mitte der 60er Jahre zusammen. Diese neue Technologie stellte einen Kontrast zu den früheren Lochkarten und den bandbasierten Systemen dar und ermöglichte eine gemeinsame interaktive Nutzung anstelle einer täglichen Stapelverarbeitung. Es wurden zwei Hauptdatenmodelle entwickelt – das Netzwerkmodell „CODASYL“ (Conference on Data System Language) und das hierarchische Modell „IMS“ (Information Management System).
Die erste Generation von Datenbanksystemen war „navigationsfähig, im Gegensatz zum sequentiellen Zugriff aufgrund der bisherigen Technologien zur Datenspeicherung, also Bänder und Lochkarten. Anwendungen greifen normalerweise auf Daten zu, indem sie Zeigern von einem Datensatz zum anderen folgen. Die Speicherdetails hängen von der Art der zu speichernden Daten ab.
Das Hinzufügen eines zusätzlichen Felds zu einer Datenbank erforderte das Umschreiben des zugrunde liegenden Zugriffs-/Modifikationsschemas. Der Schwerpunkt lag auf zu verarbeitenden Datensätzen, nicht auf der Gesamtstruktur des Systems. Ein Benutzer müsste die physische Struktur der Datenbank kennen, um Informationen abzufragen. Eine Datenbank, die sich als kommerzieller Erfolg erwies, war das System „SABRE“, das von IBM verwendet wurde, um American Airlines bei der Verwaltung ihrer Reservierungsdaten zu unterstützen. Dieses System wird immer noch von den großen Reiseanbietern für ihre Reservierungssysteme verwendet.
In der modernen Informationstechnologie gab es unter den Benutzern schon immer Verwirrung zwischen Datenbanken und Internet-Websuchmaschinen, auf die über Browser zugegriffen wird. Eine Datenbank enthält normalerweise strukturierte Daten, im Gegensatz zum World Wide Web (www), das normalerweise unstrukturierte Daten enthält. Auch wenn das Abrufen von Informationen aus Datenbanken und „www“ nahtlos verläuft und ähnlich aussieht, sind der Inhalt und die Art und Weise, wie Anfragen bearbeitet werden, völlig unterschiedlich. Strukturierte und unstrukturierte Daten werden später in diesem Dokument erläutert.
Grundwortschatz verstehen
Terminologie
Wie jede andere Wissenschaft hat auch die Informatik ihre eigene Sprache. Um die Informationen, die in diesem Dokument bereitgestellt werden, vollständig zu verstehen, ist es wichtig, sich mit dem Wortschatz zu diesem Thema vertraut zu machen.
Außerdem wird die Kommunikation mit einem DBA (Datenbankadministrator) erleichtert. Wenn ein Biochemiker seine Bedürfnisse in Bezug auf die Strukturierung oder Verwaltung von Daten in einer Datenbank äußern muss, wird er versucht sein, seine eigene Fachsprache zu verwenden. Dann muss der DBA die Anfrage verstehen und in eine für Biochemiker verständliche Computersprache umwandeln.
Was sind „Daten“ im Computerzeitalter

Wie in Abschnitt 2.1 erwähnt, können Daten je nach Domain, auf die verwiesen wird, unterschiedliche Bedeutungen haben. Im Fall von Computern und Datenbanken werden Daten als eine beliebige Folge von einem oder mehreren Symbolen definiert. Daten bedürfen der Interpretation, um zu Informationen zu werden. In der Informationstechnik ist das „Bit“ die kleinste Datenmenge. Ein Bit ist binär. Binärzahlen sind eine Darstellung von Zahlen mit nur zwei Ziffern, 0 und 1 (Abb. 2). Es ist ein Zahlensystem zur Basis 2, dh:
- 0 0 0 1 = Zahlenwert 20
- 0 0 1 0 = Zahlenwert 21
- 0 1 0 0 = Zahlenwert 22
- 1 0 0 0 = Zahlenwert 23

Eine Folge von „Bits“ bildet ein „Byte“. Bytes bestehen wie im obigen Beispiel aus einem Vielfachen von 4 Bit (ein Byte von 4 Bit wird als Nibble bezeichnet). Heute ist das Byte eine digitale Informationseinheit, die am häufigsten aus acht Bits besteht. Historisch gesehen war das Byte die Anzahl der Bits, die verwendet wurden, um ein einzelnes Textzeichen in einem Computer zu codieren. Bei einem Byte von acht Bit ist die maximale Dezimalzahl256. Historisch gesehen ist das Byte auch die Einheit von Computerinformationen oder Datenspeicherkapazität, die verwendet wird, um die Datenmenge zu messen (Tabelle 1).

Ein Anwendungsbeispiel ist die ASCII-Zeichentabelle (American Standard Code for Information Interchange), die üblicherweise für alphabetische Zeichen verwendet wird (Tabelle 2). Die ersten 32 Zeichen werden als Steuerzeichen bezeichnet. Ursprünglich waren sie nicht darauf ausgelegt, druckbare Informationen darzustellen, sondern um Geräte zu steuern, die ASCII-Code verwenden, wie Drucker, oder um Metainformationen über Datenströme bereitzustellen, die beispielsweise auf Magnetbändern gespeichert sind.
Was sind „Metadaten“

Metadaten oder vereinfacht gesagt Metainformationen werden verwendet, um auf die Daten über die Daten zu verweisen. Daten zu haben reicht nicht aus, um sie einfach online zu stellen. Daten sind erst dann nutzbar, wenn sie auf eine Weise erklärt werden können, die sowohl von Menschen als auch von Computern verarbeitet werden kann.
Metadaten können impliziert, spezifiziert oder angegeben werden. Es enthält Daten zu physikalischen Ereignissen oder Prozessen und wird auch eine zeitliche Komponente haben. In fast allen Fällen ist diese zeitliche Komponente impliziert. Es mag etwas schwierig zu verstehen sein, aber das folgende Beispiel bietet eine klarere Erklärung dieses Begriffs.

Metadaten des Bildes
Stellen Sie sich vor, Sie reisen mit Ihrem Lieblings-Smartphone auf einer paradiesischen Insel. Sie fangen an, Fotos zu machen (Abb. 3), um Ihre Reise schön festzuhalten. Eine Woche später ist Ihre Reise zu Ende und Sie müssen wieder nach Hause.
Zu Hause laden Sie Ihre besten Freunde zu einer Party ein und möchten mit ihnen die Schönheiten teilen, die Sie auf Ihrer Reise gesehen haben. Sie fangen an, die Bilder zu zeigen, können sich aber nicht erinnern, an welchem Tag, zu welcher Uhrzeit und wo einige von ihnen aufgenommen wurden. Hier können die Metadaten der Bilder helfen. In wenigen Worten ist es die Beschreibung der Daten. In diesem Beispiel sind das Bild die Daten und die Beschreibung des Bildes die Metadaten (Abb. 4).
In der Biotechnologie muss man verstehen, dass Metadaten weitaus wichtiger sind als Daten. Es ist sehr einfach zu verstehen, warum Metadaten eine entscheidende Komponente sind, die direkt mit Daten verbunden ist. Stellen Sie sich ein Experiment vor, das zu einem bestimmten Ergebnis führt. Dieses Experiment muss, um gültig zu sein, dokumentiert werden. Diese Dokumentation sollte alle Bedingungen enthalten, unter denen das Experiment durchgeführt wurde. Dies kann die Beschreibung der Art des verwendeten Rohmaterials, seiner Quelle, unter welchen Bedingungen es gesammelt wurde, der Art der Maschinen zur Verarbeitung des Experiments, Temperatur, Datum, Uhrzeit usw. umfassen. Damit das Ergebnis dieses Experiments vergleichbar ist mit anderen Ergebnissen ähnlicher Experimente müssen alle Bedingungen ähnlich sein. Rohdaten ohne Metadaten sind nutzlos.
Die größte Herausforderung in der Biotechnologie und jeder anderen Wissenschaft besteht darin, Metadaten zu standardisieren. In den meisten Biotech-Datenbanken wird dies nicht berücksichtigt. Man muss sich dieses Phänomens unbedingt bewusst sein und die Standards gründlich respektieren.
Was ist eine „Datenbank“

Im Allgemeinen wird eine Datenbank als eine Sammlung von Datenelementen wie Telefonbüchern, Preislisten, Inventarlisten, Kundenadressen usw. definiert. Trotzdem wird eine Datenbank in der Fachsprache als „eine selbstbeschreibende Sammlung von integrierten“ Aufzeichnungen“. Es impliziert Computertechnologie, die mit einer bestimmten Computersprache wie SQL (Structured Query Language) ergänzt wird.
Eine Datenbank besteht aus mehreren Tabellen (Abb. 5) und sowohl aus Daten als auch aus Metadaten. Metadaten sind die Daten, die die Struktur der Daten innerhalb einer Datenbank beschreiben. Wenn Sie wissen, wie Ihre Daten angeordnet sind, können Sie diese abrufen. Da die Datenbank eine Beschreibung ihrer eigenen Struktur enthält, wird sie als selbstbeschreibend bezeichnet. Die Datenbank ist integriert, weil sie nicht nur Datenelemente, sondern auch die Beziehungen zwischen ihnen enthält.
Die Datenbank speichert Metadaten in einem Bereich, der als Datenwörterbuch bezeichnet wird und die Tabellen, Spalten, Indizes, Einschränkungen und andere Elemente beschreibt, aus denen die Datenbank besteht.
Da ein Flatfile-System, zB „Spreadsheet“, keine Metadaten enthält, müssen Anwendungen, die für die Arbeit mit Flatfiles geschrieben wurden, das Äquivalent der Metadaten als Teil des Anwendungsprogramms enthalten.
Was sind „Tabellen“ in einer Datenbank?
Eine Tabelle ist eine Sammlung zusammengehöriger Daten in einem Tabellenformat, das aus Spalten und Zeilen innerhalb einer Datenbank besteht. Es ähnelt einer Tabellenkalkulation (Abb. 6).
Was sind „Spalten“ in einer Datenbank?

Eine Spalte ist ein Satz von Datenwerten, alle von einem einzigen Typ, in einer Tabelle. Spalten definieren die Daten in einer Tabelle. In den meisten Datenbanken können Spalten komplexe Daten wie Bilder, ganze Dokumente oder sogar Videoclips enthalten. Daher bedeutet eine Spalte, die Datenwerte eines einzelnen Typs zulässt, nicht unbedingt, dass sie nur einfache Textwerte enthält. Einige Datenbanken gehen sogar noch weiter und erlauben es, die Daten als Datei auf dem Betriebssystem zu speichern, während die Spaltendaten nur einen Zeiger oder Link auf die eigentliche Datei enthalten. Dies geschieht, um die Gesamtgröße der Datenbank überschaubar zu halten – eine kleinere Datenbankgröße bedeutet weniger Zeit für Backups und weniger Zeit für die Suche nach Daten in der Datenbank.
In einer Tabelle werden jeder Spalte normalerweise ein Datentyp und andere Einschränkungen zugewiesen, die den Werttyp bestimmen, der in dieser Spalte gespeichert werden kann. Beispielsweise kann eine Spalte E-Mail-Adressen akzeptieren und eine andere Telefonnummern mit einer Beschränkung von 10 Ziffern.
Was ist ein „Rekord“
Ein Datensatz ist eine Darstellung eines physischen oder konzeptionellen Objekts. Sagen Sie zum Beispiel, dass Sie den Überblick über die Kunden eines Unternehmens behalten möchten. Sie ordnen jedem Kunden einen Datensatz zu. Jeder Datensatz hat mehrere Attribute wie Name, Adresse und Telefonnummer. Individuelle Namen, Adressen usw. sind die Daten.
Was sind „Indizes“

Strukturierte Daten werden in Form von Datensätzen in einer Datenbank gespeichert. Jeder Datensatz verfügt über ein Schlüsselfeld, das zur eindeutigen Wiedererkennung beiträgt, zB die ID eines Patienten. Kein anderer Patient darf dieselbe ID-Nummer haben, aber ein anderer Patient darf denselben Vor- und Nachnamen haben.
Das Indizieren einer Datenbank ist eine Technik zum effizienten Abrufen von Datensätzen aus den Datenbankdateien, basierend auf einigen Attributen, für die die Indizierung durchgeführt wurde. Vereinfacht gesagt ähnelt die Indizierung in Datenbanksystemen dem, was wir normalerweise in Büchern sehen. Am Anfang oder am Ende eines Buches kann sich (anders als ein Inhaltsverzeichnis) ein Index befinden, der alle Seitenzahlen zu einem bestimmten Thema enthält. Ein Atlas kann beispielsweise in Kapitel mit Karten, Kapiteln mit Bevölkerungsdaten und Kapiteln zu Länderproduktions- oder Agrardaten unterteilt werden. Wenn Sie nach einem bestimmten Land suchen und einen Überblick über alle Daten zu diesem bestimmten Land haben möchten, kann der Index sehr hilfreich sein, da er Ihnen in jedem Kapitel die Seite zu diesem Land anzeigt (Abb. 7) .
Was ist ein „Objekt“
In der Informatik kann ein Objekt eine Variable, eine Datenstruktur, eine Funktion oder eine Methode sein und ist als solche ein Wert im Speicher, auf den ein Bezeichner verweist. Im relationalen Modell der Datenbankverwaltung kann ein Objekt eine Tabelle oder Spalte oder eine Assoziation zwischen Daten und einer Datenbankentität sein, wie beispielsweise das Beziehen des Alters einer Person auf eine bestimmte Person.
Strukturierte Daten

Laut SNIA (Storage Networking Industry Association) sind strukturierte Daten definiert als:
„Daten, die auf bekannte und feste Weise organisiert und formatiert sind.
Format und Organisation werden üblicherweise in aSchema. Unter strukturierten Daten versteht man normalerweise Daten, die von Datenbanken und Geschäftsanwendungen generiert und gepflegt werden.“
Drei Bedingungen sind erforderlich, um Daten als strukturiert zu beschreiben:
- Es muss einem Datenmodell entsprechen,
- Es muss eine gut definierte Struktur haben,
- Sie muss einer einheitlichen Reihenfolge folgen und kann von einer Person oder einem Computerprogramm leicht abgerufen und verwendet werden.
Strukturierte Daten werden normalerweise in wohldefinierten Schemata wie Datenbanken gespeichert. Es ist im Allgemeinen tabellarisch mit Spalten und Zeilen, die seine Attribute eindeutig definieren (Abb. 8).
SQL (Structured Query Language) wird häufig verwendet, um strukturierte Daten zu verwalten, die in Datenbanken gespeichert sind.
Unstrukturierte Daten

Informationen, die nicht in einem vordefinierten Modell organisiert sind, werden als unstrukturierte Daten oder unstrukturierte Informationen bezeichnet. In der Informatik gelten Dateien wie Textdateien, Fotos, Videodateien, Audiodateien und Präsentationen als unstrukturierte Dateien. Typischerweise enthält eine PDF-Datei unstrukturierte Daten (Abb. 9).
Es wird geschätzt, dass 80 bis 90 % der gesamten dematerialisierten Daten weltweit unstrukturiert sind. Übliche Abfragealgorithmen sind nicht in der Lage, die erforderlichen Informationen einfach und effizient aus einer unstrukturierten Datei zu extrahieren, wie im Beispiel von Fig. 9. Dieselben Informationen, die in Fig. 9 enthalten sind, können leicht mit einer Abfrage abgerufen werden. Heute sind jedoch Analysetools für unstrukturierte Daten verfügbar, die auf künstlicher Intelligenz (KI) basieren und speziell entwickelt wurden, um auf die Erkenntnisse aus unstrukturierten Daten zuzugreifen (siehe 3.1.12 Analytics).
Große Daten
Laut SNIA (Storage Networking Industry Association) ist Big Data definiert als:
„Eine Charakterisierung von Datensätzen, die zu groß sind, um von den leistungsstärksten verfügbaren Standard-Rechenplattformen in ihrer Gesamtheit effizient verarbeitet zu werden.“
Mit anderen Worten, Big Data bezieht sich auf riesige Mengen strukturierter oder unstrukturierter Daten, die von herkömmlicher Software als traditionelle Datenbankabfragesprache oder jede andere Art von Abrufmaschine nicht verarbeitet werden können.
Verwirrung herrscht hinsichtlich der aktuellen Verwendung der Begriffe Big Data und Analytics. Big Data sind die Informationen, während Analytics der Weg ist, die gewünschten Informationen aus riesigen Mengen verfügbarer Informationen zu extrahieren.
Analytik
In der Computertechnologie ist Analytics eine Methode zur Extraktion von Wertaus Big Data.
Im Gesundheitswesen hat Big Data Analytics durch personalisierte Medizin und Predictive Analytics zu vielen Verbesserungen geführt. Da das Datenvolumen dramatisch ansteigt, werden herkömmliche Datenbanken und Suchmaschinen nicht in der Lage sein, spezifische Informationen zu verarbeiten und abzurufen. Patientendaten werden von MRTs, Röntgenstrahlen, Bluttestgeräten, Überwachungssensoren und vielen weiteren zu verarbeitenden Datenquellen generiert. Umfangreiche Informationen im Gesundheitswesen liegen jetzt in elektronischer Form vor; es passt unter den Big-Data-Schirm, da das meiste davon unstrukturiert und schwer zu verwenden ist.
Big Data in der Gesundheitsforschung ist im Hinblick auf explorative biomedizinische Forschung besonders vielversprechend, da datengetriebene Analysen schneller vorankommen können als hypothesengetriebene Forschung. Anschließend können Trends in der Datenanalyse in der traditionellen, hypothesengesteuerten biologischen Nachfolgeforschung und schließlich in der klinischen Forschung getestet werden.
Repository
Ein Datenrepository oder Data Warehouse ist ein zentralisierter Ort zum Speichern und Verwalten von Daten. Ein Datenrepository kann aus einer oder mehreren strukturierten Datendateien bestehen, wie beispielsweise Datenbanken oder unstrukturierten Datendateien, die über ein Netzwerk verteilt und langfristig aufbewahrt werden können.
Grundstruktur einer Datenbank
Dieser Abschnitt ist der Übersicht über die wichtigsten Bausteine einer Datenbank gewidmet.
Einführung
Seit der Erfindung des Computers hat die Menge der elektronisch gespeicherten und verwalteten Daten drastisch zugenommen. Es wird geschätzt, dass die Datenmenge bis 2025 175 Zettabyte (1021 Bytes) erreichen wird, von einigen Petabytes (1015 Bytes) im Jahr 2000. Eine gängige Methode, das Leben der Benutzer zu vereinfachen und ihre Ressourcen optimal zu nutzen, ist die effizienter speichern und abrufen. Während eine Flatfile beispielsweise zum Speichern Ihrer persönlichen Daten, wie eines Adressbuchs oder einiger Rezepte, gut funktioniert, eignet sie sich nicht so gut zum Speichern eines städtischen Telefonverzeichnisses oder genauer gesagt der Genomdaten im Biotech-Bereich. Wenn Sie Daten mehrerer genomischer Arten speichern möchten, ist es außerdem sehr schwierig, Daten aus einer Flatfile zu suchen und abzurufen. Datenbanken bieten eine Lösung für dieses Problem, indem sie die Speicherung,
Die Software zur Verwaltung einer Datenbank wird als Datenbankmanagementsystem (DBMS) bezeichnet. Diese spezialisierte Software fungiert als Zwischenlösung, um Endbenutzern beim Zugriff auf die Datenbank zu helfen. Normalerweise interagieren Benutzer nicht direkt mit einer Datenbank, da dies zu ihrer Desorganisation führen kann. Stattdessen verwenden sie ein DBMS, das Daten aus der Datenbank liest oder Daten in die Datenbank schreibt.
Die wachsende Komplexität großer Datenmengen erforderte in manchen Unternehmen den Einsatz von Datenmanagement-Tools auf Basis des relationalen Modells, wie dem klassischen RDMBS. RDBMS steht für relationales Datenbankmanagementsystem. Dennoch standen große Internetunternehmen wie Google, Yahoo und Amazon oder alle gängigen Social Media vor Herausforderungen im Umgang mit riesigen Datenmengen in Echtzeit, die herkömmliche RDBMS-Lösungen nicht bewältigen konnten. Das erklärt die steigende Popularität von NoSQL-Datenbanksystemen, die parallel dazu entstanden.
NoSQL-Systeme sind verteilte, nicht relationale Datenbanken, die für die Massenspeicherung von Daten und für die massiv parallele Hochleistungsdatenverarbeitung über eine große Anzahl von Standardservern ausgelegt sind. Sie sind aus dem Bedürfnis nach Agilität, Leistung und Skalierbarkeit heraus entstanden und können eine Vielzahl von Anwendungsfällen unterstützen, einschließlich explorativer und prädiktiver Analysen in Echtzeit. NoSQL-Datenbanken wurden von führenden Internetunternehmen entwickelt, um mit der Datenflut Schritt zu halten. Sie skalieren horizontal und sind so konzipiert, dass sie auf Hunderte Millionen und sogar Milliarden von Benutzern skalieren, die sowohl Updates als auch Lesevorgänge durchführen.
Einige der häufigsten Anwendungen von NoSQL-Datenbanken sind soziale Medien, große E-Mail-Anbieter und staatliche Gesundheitssysteme.
Normalerweise kann eine soziale Anwendung in wenigen Wochen von null auf Millionen von Benutzern skaliert werden. Um dieses Wachstum besser zu bewältigen, braucht man eine DB, die eine riesige Anzahl von Benutzern und Daten verwalten kann, aber auch problemlos horizontal skaliert werden kann.
In diesem Kurs konzentrieren wir uns nur auf DBMS und RDBMS. Dies sind die beiden Arten von Datenbanken, die bis heute in der Biotech-Welt gebräuchlich sind.
Überblick über eine Datenbankarchitektur

Datenbanken können alle Arten von Informationen speichern, von Zahlen und Text bis hin zu E-Mails, Webinhalten, Telefonaufzeichnungen, biologischen, geografischen Daten usw. Datenbanken werden offiziell danach klassifiziert, wie sie diese Daten speichern. Relationale Datenbanken speichern Daten in Tabellen. Objektorientierte Datenbanken speichern Daten in Objektklassen und Unterklassen. Wir werden uns auf relationale Datenbanken konzentrieren, wie sie am häufigsten verwendet werden. Die meisten grundlegenden Topologien von Datenbanken benötigen jedoch Backend-Server, um das Datenbankverwaltungssystem zu hosten, ein an die Server angeschlossenes Speichersystem zum Speichern der Struktur und der Daten der Datenbank und natürlich Computer, Laptops, Desktops oder Terminals als Schnittstelle, um Benutzern den Zugriff auf die Datenbank, ihr Verwaltungssystem und ihre Inhalte zu ermöglichen. Außerdem ist ein Netzwerk zum Austausch zwischen allen Hardwarekomponenten und ein Cloud-Anhang erforderlich, um Remotebenutzern den Zugriff auf die Datenbank zu ermöglichen. Abb. 10 fasst auf einfache Weise das Minimum zusammen, das zum Betrieb einer Datenbank erforderlich ist.
Eine andere grundlegende Möglichkeit, es zu beschreiben, besteht darin, die dreistufige Architektur einer Datenbank zu zeigen. Es ist eine virtuelle Ansicht der notwendigen Schichten, damit eine Datenbank richtig funktioniert. Abb. 11 zeigt die Drei-Ebenen-Ansichtsarchitektur. Es wird als ANSI-SPARC-Modell bezeichnet. Trotz der Tatsache, dass dieses Modell nie ein formaler Standard wurde, präsentiert es die Idee der logischen Datenunabhängigkeit, die weit verbreitet ist.

In einer relationalen Datenbank gespeicherte Informationen sind in Tabellen enthalten. Diese Tabellen bestehen aus Datenzeilen und jede Zeile enthält Felder oder Spalten. In einer gut gestalteten Datenbankdefinition, die als Schema bezeichnet wird, werden nur ähnliche Daten in jeder Tabelle gespeichert und die Duplizierung von Spalten wird auf ein Minimum reduziert. Entwickler können Daten aus zwei Tabellen verbinden oder verknüpfen, um verschiedene Arten von Informationen miteinander zu verknüpfen.
Für Felder in der Datenbanktabelle können Indizes erstellt werden, um dem DBMS das Abrufen von Daten zu erleichtern. Indizes werden normalerweise für häufig gesuchte Spalten konfiguriert, z. B. den Namen einer Person oder einen Datumswert. Der Nachteil der Verwendung von Indizes besteht darin, dass sie Speicherplatz auf der Festplatte belegen und die Arbeit verlangsamen können, wenn zu viele von ihnen verwaltet werden, da jedes Mal, wenn eine Zeile in der Datenbank aktualisiert wird, auch der Index aktualisiert werden muss.
Die meisten Datenbanken unterstützen Structured Query Language (SQL), eine Standardsprache für die Interaktion mit Informationen, die in einer Datenbank enthalten sind. SQL ermöglicht Benutzern und Anwendungen die Interaktion mit bestimmten Teilmengen von Daten aus einer oder mehreren Tabellen unter Verwendung mehrerer Anweisungen wie SELECT, INSERT, UPDATE und DELETE.
Relationale Datenbanken bieten auch einen mehrschichtigen Speicheransatz, der es ermöglicht, zu definieren, welche Datenbankobjekte sich in bestimmten Datendateien befinden und wo diese Datendateien innerhalb der Dateistruktur des Betriebssystems platziert werden. Neben der Verwaltung des physischen Speicherorts von Datenbankobjekten bieten viele Datenbanksysteme eine gewisse Kontrolle darüber, wie die Daten in den Datendateien gespeichert werden.
Allgemeine Datenbankbegriffe
Bestimmte Datenbankbegriffe leiten sich davon ab, wie Datenbanken Schreibaktionen automatisieren. Datenbankentwickler automatisieren häufig das Schreiben in bestimmte Felder oder andere Tabellen, beispielsweise das Schreiben einer Kopie der eingefügten Zeile – zusammen mit einem Zeitstempel oder Benutzernamen – in eine Verlaufs- oder Prüftabelle. Die meisten DBMS-Systeme bieten mehrere Möglichkeiten zum automatischen Verwalten von Datenbankschreibaktionen.
Datenbank-Trigger sind die gebräuchlichste Methode, um Aktionen für Daten durchzuführen, während diese in die Datenbank geschrieben werden. Trigger sind normalerweise einer bestimmten Tabelle zugeordnet und so konfiguriert, dass sie an einem bestimmten Punkt während einer bestimmten Schreibaktion ausgeführt werden, beispielsweise vor oder nach einer Aktualisierung oder nach dem Einfügen einer Zeile. Trigger können verwendet werden, um Daten zu formatieren, eine Spalte mit Daten zu füllen, die aus vorhandenen Informationen abgeleitet wurden, oder sogar basierend auf der eingefügten oder aktualisierten Zeile in eine andere Tabelle zu schreiben.
Eine gespeicherte Prozedur ist eine andere Möglichkeit, mit einer relationalen Datenbank zu interagieren. Gespeicherte Prozeduren sind komplexer als Trigger und nicht an eine einzelne bestimmte Tabelle gebunden. Sie werden in der Regel von einem Entwickler erstellt und verwenden eine Kombination aus SQL und einer Programmiersprache wie Java oder SQL (je nach Datenbankplattform). Gespeicherte Prozeduren bieten Entwicklern viel Kontrolle darüber, wie Daten von einer Anwendung validiert oder verarbeitet werden. Eine gespeicherte Prozedur könnte verwendet werden, um zu verwalten, wie sich ein Benutzer bei einer Anwendung anmeldet. Das Verfahren überprüft möglicherweise zuerst den Benutzernamen und das Kennwort und protokolliert dann den Erfolg oder Misserfolg des Versuchs in einer anderen Tabelle zusammen mit anderen Informationen, einschließlich des Computernamens und eines Zeitstempels. Es könnte sogar eine Warnung an den Benutzer gesendet werden, die ihn darüber informiert, dass sein Passwort abgelaufen ist und geändert werden muss.
Funktionen sind einfacher als gespeicherte Prozeduren und können manchmal sogar innerhalb von SQL-Abfragen verwendet werden. Funktionen werden normalerweise in einer Datenbank verwendet, um eine Reihe von Aktionen auszuführen, die einen oder mehrere Werte zurückgeben, z. B. das Berechnen der Summe einer Spalte für Zeilen, die einer bestimmten Bedingung entsprechen. Während diese Aktionen mit SQL ausgeführt werden können, kann deren Einbindung in eine Funktion die Verwendung in anderem Code erleichtern. Sowohl Funktionen als auch gespeicherte Prozeduren können gängige Aktionen auf eine optimierte und konsistente Weise ausführen, wodurch die Arbeitsbelastung für Datenbankadministratoren und Entwickler verringert wird.
Was ist der Unterschied zwischen den wichtigsten DBMS-Systemen?
Das DBMS wird im Allgemeinen von dem gesteuert, was die Benutzeranwendungen unterstützen müssen. Hier ist jedoch ein kurzer Vergleich der drei am häufigsten verwendeten Plattformen.
Microsoft SQL Server wird häufig in Unternehmensanwendungen verwendet und lässt sich problemlos in andere Microsoft-Tools integrieren. Microsoft SQL Server 2019 Express ist die neueste Version des kostenlosen Angebots von Microsoft und wird oft mit Anwendungen gebündelt, die SQL Server verwenden.
MySQL ist seit mehr als zwei Jahrzehnten ein Favorit für Open-Source-Entwickler. MySQL wird oft als Back-End für Open-Source-Blog- oder Content-Management-Systeme verwendet und verfügt über eine riesige installierte Basis auf der ganzen Welt. 2008 wurde MySQL AB von Sun Microsystems übernommen, das 2009 wiederum von Oracle Corp. übernommen wurde, wodurch MySQL unter dem Dach eines seiner größten Konkurrenten steht. Die MySQL Community Edition bleibt jedoch kostenlos und wird von der Community gut unterstützt. MySQL ist für zahlreiche Betriebssysteme verfügbar, darunter Linux, UNIX, Mac OS X und Windows.
Oracle Database wird von vielen als Standard für Datenbankplattformen auf Unternehmensebene angesehen und unterstützt zahlreiche Unternehmensanwendungen. Die Oracle Database Express Edition ist kostenlos erhältlich und kann auch kostenlos verteilt werden (obwohl es sich technisch nicht um freie Software handelt), was sie zu einer weiteren beliebten Option für Entwickler oder Bastler unter Windows oder Linux macht.
Nachdem Sie nun die grundlegenden Datenbankbegriffe und -konzepte kennengelernt haben, sind Sie viel näher dran, dieselbe Sprache zu sprechen wie die Datenbankentwickler Ihres Unternehmens.
Datenbanken im wissenschaftlichen Wort
Dieser Teil befasst sich mit den Grundlagen von Datenbanken, die in der wissenschaftlichen Welt verwendet werden
Einführung in bestehende wissenschaftliche Datenbanken
Dieser Abschnitt ist der Übersicht über die gängigsten Open-Access-Datenbanken gewidmet, die in der Wissenschaft verwendet werden.
Kontinuierliche Entwicklungen in den Bereichen Biotechnologie und Informationstechnologie haben zu einem exponentiellen Datenwachstum geführt. Studien von Forschern des European Bioinformatics Institute (EMBL-EBI) haben gezeigt, dass sich dieses Informationswachstum ungefähr jedes Jahr verdoppelt. Diese umfangreichen Datenmengen werden in wissenschaftlichen Datenbanken gespeichert, organisiert und ständig aktualisiert, wo sie Wissenschaftlern, darunter auch Biologen und Bioinformatikern, für Forschungszwecke zur Verfügung stehen. Die in biologischen Datenbanken verfügbaren Informationen stammen aus einer Reihe von wissenschaftlichen Bereichen, darunter Metabolomik, Microarray-Genexpression und Proteomik. Neben dem Speichern, Organisieren und Teilen riesiger Datenmengen, Biologische Datenbanken können als Datensammlungen definiert werden, die so strukturiert sind, dass ihre Inhalte leicht zu durchsuchen, zu handhaben und zu aktualisieren sind.

Beispiele für solche Datenbanken sind in Abb. 12 dargestellt. 1972 wurde die erste Proteinstrukturdatenbank, bekannt als Protein Data Bank (PDB), erstellt. Diese Datenbank enthielt ursprünglich nur 10 Einträge, die inzwischen auf mehr als 10.000 Einträge erweitert wurde, was das schnelle Wachstum biologischer Daten signalisiert. Eine biologische Datenbank kann verschiedene Arten von Daten enthalten, einschließlich Proteinsequenzen, Textbeschreibungen, Attribute und Tabellendaten. Im Allgemeinen können sie in primäre, sekundäre und zusammengesetzte Datenbanken unterteilt werden. Primärdatenbanken enthalten nur Daten über die Sequenz oder Struktur, während Sekundärdatenbanken Daten enthalten, die aus der Primärdatenbank stammen. Daten, wie die konservierte Sequenz und Reste des aktiven Zentrums von Proteinfamilien, können in Sekundärstrukturdatenbanken gefunden werden. Darüber hinaus können Einträge der PDB, die eine Primärdatenbank ist, in Sekundärstrukturdatenbanken organisiert gefunden werden.
Im Allgemeinen können biologische Datenbanken in Sequenz-, Struktur- und Pfaddatenbanken kategorisiert werden:
- Sequenzdatenbanken: Die am häufigsten verwendeten biologischen Datenbanken. Dazu gehören Protein- und Nukleotidsequenzdatenbanken, die Nasslaborergebnisse enthalten und die Hauptquelle für experimentelle Ergebnisse sind. GenBank und EMBL sind Beispiele für Sequenzdatenbanken.
- Strukturdatenbanken: Diese Datenbanken enthalten Informationen zur Proteinstruktur und molekularen Wechselwirkungen. PDB ist ein Beispiel für eine Strukturdatenbank.
- Pathway-Datenbanken: Diese Datenbanken basieren auf Daten, die aus der vergleichenden Untersuchung von Stoffwechselwegen stammen. Die Kyoto Encyclopedia of Genes and Genomes (KEGG) und Biocyc sind zwei indikative Pathway-Datenbanken.
Eine typische Suche in einer Nukleotidsequenzdatenbank kann zum Beispiel Daten zum wissenschaftlichen Namen des Quellorganismus, aus dem es isoliert wurde, zum Kontaktnamen, zur Eingabesequenz mit Details zum Molekültyp und häufig zu Literaturzitaten zu den Reihenfolge.
Bestimmte Werkzeuge wurden entwickelt, um Wissenschaftlern die Datenverarbeitung und den Abruf aus biologischen Datenbanken zu erleichtern. Diese Werkzeuge, die als Bioinformatik-Werkzeuge bezeichnet werden, sind Softwareprogramme, die zur Extraktion aussagekräftiger Daten aus der Vielzahl biologischer Datenbanken und zur Durchführung von Sequenz- oder Strukturanalysen erstellt wurden. Bioinformatik-Tools werden verwendet, um Daten aus genomischen Sequenzdatenbanken zu erhalten und um Daten aus proteomischen Datenbanken zu visualisieren, zu analysieren und abzurufen. Diese Tools sind im Wesentlichen unterteilt in:
- Homologie- und Ähnlichkeitswerkzeuge: Diese Werkzeuge werden verwendet, um Ähnlichkeiten zwischen den Sequenzen unbekannter struktureller und funktioneller Sequenzen zu erkennen, deren Funktion und Struktur bereits bekannt sind.
- Werkzeuge zur Proteinfunktionsanalyse: Programme zum Vergleich einer Proteinsequenz mit einem sekundären (oder abgeleiteten) Protein, die die Abschätzung der biochemischen Funktion eines Abfrageproteins ermöglichen.
- Strukturanalysetools: Diese Tools ermöglichen den Vergleich von Strukturen mit den bekannten Strukturdatenbanken und die Ermittlung der 2D/3D-Struktur eines Proteins.
- Sequenzanalysetools: Programme zur zusätzlichen, umfassenderen Bewertung einer Abfragesequenz, einschließlich der evolutionären Analyse und Identifizierung von Mutationen.
Biologische Datenbanken können auch nach dem Umfang der Datenabdeckung kategorisiert werden in:
- Umfangreiche Datenbanken: Diese Datenbanken umfassen verschiedene Arten von Daten zu einer Reihe von Arten. Beispiele für umfassende Datenbanken sind GenBank und EMBL.
- Spezialisierte Datenbanken: Diese Datenbanken enthalten bestimmte Arten von Daten oder Daten von bestimmten Organismen. Ein Beispiel für spezialisierte Datenbanken ist WormBase, die Informationen zur Biologie und Genomik von Nematoden enthält.
In Bezug auf den Grad der Biokuration, der als die Aktivität der Organisation, Demonstration und Bereitstellung biologischer Informationen sowohl für Menschen als auch für Computer definiert ist, werden biologische Datenbanken als primäre und sekundäre oder abgeleitete Datenbanken klassifiziert. Primärdatenbanken bestehen aus Rohdaten als Archiv-Repositorium, während sekundäre oder abgeleitete Datenbanken aus kuratierten Informationen als Mehrwert bestehen. Hinsichtlich der Methode zur Kuratierung der Daten lassen sich biologische Datenbanken weiter in von Experten kuratierte Datenbanken oder gemeinschaftlich kuratierte Datenbanken einteilen, die von zahlreichen Forschern kooperativ gepflegt werden.
Eine zusätzliche Kategorisierung von biologischen Datenbanken kann auch basierend auf dem Datentyp vorgenommen werden. Zu den Datentypen, die Datenbanken entsprechend klassifizieren, gehören DNA, RNA, Protein, Expression, Pathway, Krankheit, Nomenklatur, Literatur sowie Standard und Ontologie. Einige der wichtigsten und am häufigsten verwendeten biologischen Datenbanken sind die folgenden: GenBank, der UCSC Genome Browser und Ensembl, die Sequenzdatenbanken/Portale sind; WormBase und The Arabidopsis Information Resource (TAIR), die Datenbanken für Modellorganismen sind; und die PDB, Online Mendelian Inheritance in Man (OMIM), MetaCyc und KEGG, die als nicht sequenzzentrierte Datenbanken charakterisiert werden.
Datenmanipulation ist ein wesentlicher Bestandteil des experimentellen Prozesses aller Studien, unabhängig von ihrem Umfang. Die Online-Verfügbarkeit biologischer Daten in Kombination mit den sinkenden Kosten für automatisierte Genomsequenzer haben es ermöglicht, dass kleine Biologielabore zu Big-Data-Generatoren werden. Auch wenn ein Labor nicht mit solchen Instrumenten ausgestattet ist, kann es dennoch zu einem Big-Data-Anwender werden, indem es Zugang zu öffentlichen Repositorien mit biologischen Daten wie dem US National Center for Biotechnology Information in Bethesda erhält. Ein großer Teil des Bauens in der Big-Data-Biologie ist virtuell, basierend auf Cloud Computing, bei dem Daten und Software in riesigen, dezentralen Zentren untergebracht sind, auf die bei Bedarf zugegriffen werden kann. Daher ist es nicht erforderlich, dass Benutzer eigene Hardware erwerben.
Der Einsatz biologischer Datenbanken kann in mehreren Forschungsbereichen von Vorteil sein. Zum Beispiel können Datenbanken das experimentelle Design unterstützen, indem sie die automatische Analyse und einfache Verarbeitung von experimentellen Daten ermöglichen und die Untersuchung von experimentellen Ergebnissen einfach und schnell machen. Die Wirkstoffsuche ist ein weiterer Bereich, der durch die Verwendung von Datenbanken vereinfacht werden kann. In diesem speziellen Bereich können Datenbanken durchsucht werden, um neue Kandidaten für Medikamente zu finden, indem ein Klassifikator auf einem Datensatz trainiert wird, in dem funktionstüchtige und nicht funktionstüchtige Medikamente identifiziert wurden. Darüber hinaus können Techniken des maschinellen Lernens angewendet werden, um virtuelle Assays zu entwickeln, die in der Lage sind, vielversprechende neue Medikamente zu identifizieren, die anschließend in einer Laborumgebung analysiert werden können. (REF. 4) Und vor allem:
Ohne die Existenz von Datenbanken wäre die gemeinsame Nutzung und Integration großer Datenmengen praktisch unmöglich. Obwohl viele Biowissenschaftler über fortgeschrittene Computerkenntnisse verfügen, ist ein großer Prozentsatz nicht mit der Entwicklung oder Anpassung der entsprechenden Software vertraut. Dennoch ist die Einbindung von Lebenswissenschaftlern in diesen Prozess von entscheidender Bedeutung, da sie Informatikern mit unterschiedlichen Bedürfnissen und Ansätzen der Wissenschaft Feedback geben können. Der Zugriff auf die tatsächlichen Datensätze, die ursprünglich in einer bestimmten Studie verwendet wurden, bietet Forschern die Möglichkeit, eine solche Studie zu reproduzieren und zu erweitern. Daher ist es wichtig, dass Daten für Wissenschaftlerinnen und Wissenschaftler jederzeit und ohne Einschränkungen frei verfügbar sind, ein Gedanke, der von Open Science und zahlreichen damit verbundenen Initiativen unterstützt wird. Eine dieser Initiativen heißt ELIXIR,
Obwohl die Schaffung biologischer Datenbanken viele Vorteile mit sich gebracht hat, beispielsweise die Förderung einer durch Vernetzung ermöglichten wissenschaftlichen Qualitätsproduktion, besteht noch Verbesserungsbedarf hinsichtlich der Wissensoptimierung. Es ist entscheidend, transdisziplinäres Wissen so zu managen, dass es zu einer Steigerung seiner Qualität und Quantität führt. Datenheterogenität ist ein weiteres häufiges Problem bei der Integration biologischer Daten. Im Bereich der Biologie gibt es verschiedene Methoden zur Darstellung ähnlicher Daten. Dies erschwert die Datenintegration und -verarbeitung, was es wiederum erschwert, einheitliche Ansichten solcher Daten zu erhalten. Ein Beispiel für dieses Problem ist die Verwendung verschiedener alternativer Namen bei der Bezugnahme auf Gene, ungeachtet der Existenz vollständiger Richtlinien, die 1979 herausgegeben wurden, die die Annahme von Gennomenklaturstandards vorschlugen, zu Schwierigkeiten beim Datenaustausch führen. Die Implementierung von Standards ermöglicht die Wiederverwendung von Daten, ihr Fehlen führt jedoch zu erheblichen Produktivitätsverlusten und trägt dazu bei, dass Forscher weniger Daten zugänglich machen. Daher ist es zwingend erforderlich, eine Lösung für dieses Problem zu finden, um die Herausforderungen für Wissenschaftler bei der Nutzung biologischer Datenbanken für ihre Forschung zu beseitigen.

Abschließende Gedanken
Der Umgang mit Daten erfordert eine drastische Disziplin, um langfristig Zugriff auf die gespeicherten Informationen zu erhalten. Die Technologie entwickelt sich weiter, was bedeutet, dass die heute verwendete Hard- und Software nicht der Standard von morgen ist. Das bedeutet, dass wir, um alle heute geschriebenen Daten lesen zu können, zwei verschiedene Arten von Migrationen durchführen müssen. Eine logische Migration und eine technologische Migration. Die logische Migration hängt von der Art des Formats ab, in dem die Daten gespeichert werden. Die technologische Migration hängt von der Art der verwendeten Hardware ab. Wenn Sie beispielsweise versuchen, eine 1993 mit Word Version 6 geschriebene Word-Datei mit der neuesten Version Word 2019 zu öffnen, funktioniert dies nicht. Dieses Beispiel zeigt einen Mangel an logischer Kompatibilität. Um dieses Problem zu vermeiden und eine aufsteigende Kompatibilität aufrechtzuerhalten,
Dasselbe gilt für Hardware, dh Server, Speicher, Netzwerke usw. Ein weiteres Beispiel könnte die Art des Servers und des Betriebssystems sein, mit dem eine Datenbank ausgeführt wird. Falls Sie sich entscheiden, Ihre Hardware zu ändern und beispielsweise von Windows auf UNIX zu migrieren, wird eine andere Hardware für die Ausführung von UNIX und eine andere Datenbankversion für die Ausführung unter UNIX benötigt. Windows läuft auf Intel-basierten Plattformen (und Intel-ähnlichen) und Unix läuft auf SPARC-basierten Plattformen, was bedeutet, dass Sie zu einer UNIX-SPARC-kompatiblen Version der Datenbank migrieren müssen.
Angesichts dieser ständigen Weiterentwicklung von Hardware, Betriebssystemen, Software und Formaten kann Ihnen die rechtzeitige Durchführung der entsprechenden logischen und technologischen Migrationen viel Zeit und Ärger ersparen.
Zu guter Letzt ist es wichtig, Ihre Daten ständig zu sichern. Führen Sie alle drei bis sechs Monate einen Wiederherstellungstest durch, um zu sehen, ob Sie Ihre Backups abrufen können. Dies ist aus zwei Gründen entscheidend:
- Es hält Sie auf dem Laufenden, wie Sie Ihre Daten wiederherstellen können
Dies ist die beste Testmethode, um zu sehen, ob Ihre Daten ordnungsgemäß gesichert wurden.
Test: LO5 Basisniveau
Verweise
- Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
- Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
- Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
- Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
- Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
- Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
- Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
- Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
- Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
- Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
- Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
- Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
- Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
- Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
- Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
- Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
- Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
- Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
- Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
- Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
- Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
- Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
- Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
Wissenschaftliche Open-Access-Ressourcen: Digitale Datenbanken
Fortgeschrittenes Niveau
Dieser Teil befasst sich mit dem fortgeschrittenen Design einer Datenbank. Es erklärt die Struktur einer Datenbank und wie man Beziehungen zwischen Datenbanktabellen herstellt.
Erweiterte Struktur einer Datenbank
Dieser Teil befasst sich mit dem fortgeschrittenen Design einer Datenbank. Es erklärt die Struktur einer Datenbank und wie man Beziehungen zwischen Datenbanktabellen herstellt. Es präsentiert auch die spezifische Sprache, die verwendet wird, um Abfragen (SQL) zu erstellen, um Daten aus einer Datenbank abzurufen.
Datenbankmanagementsystem
Eine moderne Datenbank kann als strukturierte Sammlung von Informationen (Daten) definiert werden, die für die reale Welt repräsentativ sind. Database Management Systeme (DBMS) dienen der Erstellung, Verwaltung und Abfrage von Datenbanken. Derzeit sind relationale Datenbankmanagementsysteme (RDBMS) die ausgereiftesten und am weitesten verbreiteten Datenbanksysteme in der Produktion. Fast alle Online-Transaktionen und die meisten Online-Content-Management-Systeme (zB Blogs und soziale Netzwerke) basieren auf solchen Datenbanksystemen, die für die Anwendungsinfrastruktur der Welt von zentraler Bedeutung sind. Der Schwerpunkt eines DBMS ist die Zusammenstellung von Diensten, die die Persistenz von Daten in der Datenbank und die Funktionalität bieten, um sicherzustellen, dass die Daten korrekt und konsistent sind und Transaktionen den ACID-Eigenschaften folgen. ACID bezieht sich auf vier wesentliche Eigenschaften einer Transaktion:
- Atomarität
- Konsistenz
- Isolation
- Haltbarkeit
Sprachen der Datenbankmodelle
Alle Datenbankmodelle verfügen über eine Sprache zur Spezifikation von Struktur und Inhalt der Datenbank. Die Spezifikation wird als Schemadesign bezeichnet und stellt die logische Sicht auf Informationen dar, die von einem bestimmten DBMS verwaltet werden. Diese Datenbankspezifikationssprache muss flexibel sein, damit sie nützlich und dauerhaft ist. Das sichtbarste Element einer Datenbank, das von Datenbankexperten und Anwendungsentwicklern identifiziert werden kann, ist die Datenbearbeitungssprache. Es kann viele Formen aufweisen, wobei die häufigste eine programmiersprachenähnliche Schnittstelle ist. Heute sind die Text- und Prozedursprachen, einschließlich der Structured Query Language (SQL) und der Object Query Language (OQL), die am weitesten verbreiteten Formen der Datenbearbeitungssprache.
Datenbankeigenschaften
Eine Datenbank kann als kohärent, logisch und intern konsistent charakterisiert werden. Es kann auch als selbstbeschreibend bezeichnet werden, da es Metadaten enthält, die die Daten und Beziehungen zwischen Tabellen in der Datenbank definieren und beschreiben. Es ist so konzipiert, dass es Daten für einen bestimmten Zweck enthält. Jedes Datenelement wird in einem Feld gespeichert; eine Kombination von Feldern wird als Tabelle bezeichnet. In einer Datenbank können mehrere Tabellen vorhanden sein.
Im Gegensatz zum dateibasierten System wird bei Datenbanksystemen die Datenstruktur im Systemkatalog und nicht in den Anwendungsprogrammen abgelegt. Diese Trennung zwischen Programmen und Daten wird als Programm-Daten-Unabhängigkeit bezeichnet.
Die Architektur eines Datenbanksystems besteht aus einem Satz von Diensten, die auf Basis von Betriebssystemdiensten, Systemdateispeicherdiensten und primären Speicherpufferverwaltungsdiensten aufgebaut sind. Dieser Satz von Diensten umfasst Folgendes: Katalogverwaltung, Integritätsverwaltung, Transaktionsverwaltung, Gleichzeitigkeitskontrolle, Sperrverwaltung, Deadlock-Verwaltung, Wiederherstellungsverwaltung, Sicherheitsverwaltung, Abfrageverarbeitung, Kommunikationsverwaltung und Protokollverwaltung.
Datenbankmodelltypen
Datenmodelle lassen sich in zwei Typen unterteilen:
- Konzeptuelle Datenmodelle auf hoher Ebene
- Datensatzbasierte logische Datenmodelle
Konzeptuelle Datenmodelle auf hoher Ebene schlagen Konzepte für die Präsentation von Daten vor, die der Wahrnehmung von Daten durch Menschen ähneln. Ein Beispiel für dieses Datenmodell ist das Entity-Relationship (ER)-Modell, das auf Konzepten wie Entitäten, Attributen und Beziehungen basiert. Eine Entität entspricht einem realen Objekt, Attribute repräsentieren Eigenschaften der Entität und eine Beziehung zeigt eine Assoziation zwischen Entitäten an.
Datensatzbasierte logische Datenmodelle schlagen Konzepte vor, die Benutzer verstehen können, ähneln jedoch der Art und Weise, wie Daten im Computer gespeichert werden. Relationale Datenmodelle, Netzwerkdatenmodelle und hierarchische Datenmodelle sind drei der am weitesten verbreiteten datensatzbasierten logischen Datenmodelle.
- Im relationalen Modell werden Daten in Form von Beziehungen oder Tabellen dargestellt.
- Im Netzwerkmodell werden Daten als Datensatztypen dargestellt. Dieses Modell repräsentiert auch einen Mengentyp, der als begrenzter Typ von Eins-zu-Viele-Beziehungen definiert ist.
In dem hierarchischen Modell werden Daten als eine hierarchische Baumstruktur dargestellt, wobei jeder Zweig davon repräsentativ für eine Anzahl zusammengehöriger Datensätze ist.
Phasen des Datenbankdesigns
Die Datenmodellierung ist der erste Schritt des Datenbankdesigns. Dieser Schritt ist jedoch manchmal eine abstrakte Entwurfsphase auf hoher Ebene, die als Konzeptentwurf bekannt ist. In dieser Phase soll Folgendes beschrieben werden:
- Die in der Datenbank vorhandenen Daten
- Die Beziehungen zwischen Datenelementen
- Die Einschränkungen für Daten
In dieser Anfangsphase des Datenbankentwurfsprozesses ist die Analyse des Informationsbedarfs unerlässlich. Dies ist die wichtigste Phase, da die Gesamteffektivität des Systems davon abhängt, wie genau die Informationsanforderungen und Benutzeransichten zu Beginn festgelegt werden. Die in dieser Phase gemachten Angaben zu Informationspflichten wirken sich auf die endgültige Form und den Inhalt des Datenbanksystems aus.
Nachdem die Spezifikationen festgelegt und entwickelt wurden, müssen sie in ein integriertes, zusammenhängendes System strukturiert werden, ein Verfahren namens Logical Design. Das logische Design umfasst die folgenden Schritte:
- Entwicklung eines Datenmodells für jede Benutzeransicht
- Integration der Entitäten, Attribute und Beziehungen in ein zusammengesetztes logisches Schema, das die Datenbank für dieses Modul in Begriffen beschreibt, die sich nicht auf das verwendete Softwarepaket beziehen
- Umwandlung des logischen Schemas in ein Softwareschema, das in der Sprache des gewählten Datenbankverwaltungspakets ausgedrückt wird
Der letzte Schritt beim Entwerfen einer Datenbank ist der physische Entwurf. Dieser Schritt ist erforderlich, um das Softwareschema in eine Form zu bringen, die mit der spezifischen Hardware, dem Betriebssystem und dem Datenbankmanagementsystem einer Organisation implementiert werden kann. Das physische Design umfasst die Umsetzung von Integritäts- und Sicherheitsanforderungen sowie das Design von Navigationspfaden.
Abstraktionsgrad
Datenabstraktion bedeutet das Verbergen bestimmter Details der Art und Weise, wie Daten gespeichert und gepflegt werden. Hinsichtlich ihres Abstraktionsgrads lassen sich Datenbankmodelle in drei Ebenen einteilen:
- Die externe oder View-Ebene, die die höchste Abstraktionsebene darstellt und nur einen Teil der gesamten Datenbank darstellt
- Die logische Ebene, die beschreibt, welche Daten in der gesamten Datenbank gespeichert sind
- Die physikalische Ebene, die die unterste Abstraktionsebene ist und beschreibt, wie die Daten in der Datenbank gespeichert werden
Datenbankschemata
Das Datenbankschema kann als frühe Datenbankbeschreibung definiert werden, von der nicht erwartet wird, dass sie sich häufig ändert. In einem Datenbanksystem existieren zahlreiche Schemata. Die Datenbankarchitektur besteht aus drei Schemaebenen.
Externe Ebene
Dies ist die höchste Schemaebene. Die Datenansicht auf externer Ebene konzentriert sich auf bestimmte Datenverarbeitungsanwendungen oder Benutzeransichten. Es enthält mehrere Ansichten und stellt ein Fragment der eigentlichen Datenbank dar. Jede Ansicht wird für einen Benutzer oder eine Benutzergruppe angeboten, um die Interaktion zwischen Benutzer und System zu vereinfachen.
Konzeptionelle Ebene
Diese Ebene beschreibt die logische Struktur der gesamten Datenbank, die wiederum durch einfache logische Konzepte beschrieben wird, einschließlich der Objekte, ihrer Eigenschaften oder Beziehungen. Daher ist die Kompliziertheit der Implementierungsdetails der Daten für die Benutzer nicht sichtbar. In der Datenbank wird nur eine Ansicht auf konzeptioneller Ebene verwaltet. Damit auf Entitäten oder Attribute im Datenbanksystem verwiesen werden kann, müssen sie zunächst in der Sicht der konzeptionellen Ebene definiert werden, die formal als logisches Schema bezeichnet wird. Diese Ebenenansicht muss sehr stabil sein, da sie als Grundlage für die Entwicklung von externen und internen Ebenenansichten gilt.
Interne Ebene
Die Art und Weise der Datenspeicherung und der Zugriff auf die Daten sind in diesem Schema beschrieben. Die interne Ebene repräsentiert den internen oder physischen Zustand der Datenbank. Ihr Ziel ist es, die Effizienz des Datenbanksystems zu steigern und gleichzeitig die erforderlichen Anforderungen zu erfüllen.
Datenunabhängigkeit
Datenunabhängigkeit bezieht sich auf die Fähigkeit von Benutzeranwendungen, von Änderungen in der Definition und Organisation von Daten unberührt zu bleiben. Es gibt zwei Arten von Datenunabhängigkeit: logische und physische.
Logische Datenunabhängigkeit ist die Möglichkeit, das logische (konzeptionelle) Schema zu ändern, ohne das externe Schema oder die Benutzeransicht zu beeinträchtigen. Anpassungen des logischen Schemas, wie zB Änderungen der Datenbankstruktur wie das Hinzufügen von Tabellen, sollten keinen Einfluss auf die Funktion der Anwendung haben (externe Sichten).
Physische Datenunabhängigkeit ist die Fähigkeit des Schemas auf konzeptioneller Ebene, von Änderungen am internen Schema unberührt zu bleiben. Änderungen an Dateiorganisation oder Speicherstrukturen, Speichergeräten oder Indexierungsstrategie bewirken keine Änderungen auf der konzeptionellen Ebene.
Das relationale Datenmodell
Das relationale Datenmodell wurde 1970 von Dr. Edgar F. Codd entwickelt. Es stellt Daten in tabellarischer Form dar, die vielen Menschen vertraut ist. Die logische Einfachheit von Flatfile-Strukturen wird in diesem Modell beibehalten. Das relationale Modell basiert auf einer Mengentheorie, die die Grundlage für mehrere der Operationen bildet, die an Beziehungen durchgeführt werden. Es bietet den flexibelsten Zugriff auf Daten und ist daher in dynamischen Entscheidungsumgebungen nützlich.
SQL ist eine relationale Transformationssprache; es bietet Möglichkeiten, Beziehungen zu bilden und die Daten zu bearbeiten. Das Ergebnis einer Transformationsoperation ist immer eine andere Relation, die nur eine Zeile und eine Spalte enthalten kann.
Grundelemente eines relationalen Datenmodells
Tabelle 1. Grundkomponenten eines relationalen Datenmodells.
| Datenbankkomponente | Beschreibung |
|---|---|
| Tisch | enthält Spalten und Zeilen; eine Teilmenge des kartesischen Produkts einer Liste von Domänen, die durch einen Namen gekennzeichnet sind |
| Säulen | Hauptspeichereinheiten; enthalten die grundlegenden Datenelemente, in die der Inhalt unterteilt werden kann |
| Reihen | Spalten enthalten, die verknüpft sind; zusammen mit Spalten bilden die Basis aller Datenbanken |
| Domain | ein Satz akzeptabler Werte, die in eine Spalte aufgenommen werden können |
| Grad | die Anzahl der Spalten in einer Tabelle |
Eine Relation, die auch als Tabelle oder Datei bezeichnet wird, kann als zweidimensionale Tabelle charakterisiert werden, die aus Daten zu einer Entitätsklasse oder den Beziehungen zwischen Entitätsklassen besteht. In jeder Zeile einer Tabelle sind Daten enthalten, die sich auf eine bestimmte Entität beziehen, und in jeder Spalte ist ein bestimmtes Attribut enthalten. Die Zeilen oder Datensätze einer Relation können als Tupel bezeichnet werden. Ein Datensatz in einer Tabelle repräsentiert eine Instanz einer Entität. Die Anzahl der Zeilen in einer Relation gibt ihre Kardinalität an. Die Anzahl der Spalten, auch Felder oder Attribute genannt, in einer Relation entspricht dem Grad der Relation. Die Grundelemente eines relationalen Datenmodells sind in Tabelle 1 beschrieben. Eine unäre Relation besteht nur aus einem Attribut; eine binäre Relation besteht nur aus zwei Attributen; eine ternäre Relation besteht nur aus drei Attributen.
Eigenschaften einer Tabelle
- Jede Tabelle in einer Datenbank hat einen eindeutigen Namen
- Es sind keine doppelten Zeilen vorhanden; jede reihe ist anders
- Jede Zeile hat einen anderen Namen
- Die Reihenfolge der Zeilen und Spalten ist nicht wichtig
- Einträge aus Spalten werden gemäß ihrem Datentyp aus derselben Domäne abgeleitet, einschließlich: Datum, logisch (wahr/falsch), Zeichen (String) und Zahl (numerisch, Ganzzahl, Gleitkomma, …)
Unterscheidungsmerkmale des relationalen Datenbankmodells
Wesentlichkeit: Eine Datenstruktur gilt als wesentlich, wenn sie beim Entfernen zu einem Informationsverlust in der Datenbank führt.
Integritätsregeln: Diese stellen sicher, dass der Datenbankinhalt korrekt und konsistent bleibt. Es gibt zwei Arten von Integrität:
- Entitätsintegrität: Ermöglicht die eindeutige Identifizierung jeder Entität in der relationalen Datenbank. Diese Fähigkeit gewährleistet den Zugriff auf alle Daten. Erfordert, dass kein Primärschlüssel einen Nullwert hat.
- Referentielle Integrität: Ermöglicht die Referenzierung von Tupeln mithilfe von Fremdschlüsseln. Erfordert, dass die von einem Fremdschlüssel angenommenen Werte entweder mit einem in der Datenbank vorhandenen Primärschlüssel übereinstimmen oder vollständig null sind.
Datenmanipulation: Eine Methode zum Manipulieren der Daten; Prinzipieller Ansatz zur Erstellung von Informationen für die Entscheidungsfindung.
Das Entity-Relationship-Modell
Das Entity-Relationship (ER)-Datenmodell ist seit mehr als 35 Jahren verfügbar. Es ist relativ abstrakt und leicht zu erklären. ER-Modelle lassen sich leicht in Beziehungen übersetzen und durch ER-Diagramme darstellen. Beziehungen und Entitäten sind die Grundlagen dieses Modells. Eine Entität kann ein Objekt sein, das physisch existiert oder konzeptionell existiert. Wenn ihre Tabellen existenzabhängig sind, wird eine Entität als schwach bezeichnet. Umgekehrt wird eine Entität als stark bezeichnet, wenn sie getrennt von allen ihren zugehörigen Entitäten existieren kann.
Es gibt verschiedene Arten von Entitäten:
- Unabhängige Entitäten oder Kernel: Die Bausteine der Datenbank. Sie sind starke Wesen. Der Primärschlüssel ist kein Fremdschlüssel und kann einfach oder zusammengesetzt sein. Die verschiedenen Schlüsseltypen sind in Tabelle 2 beschrieben.
- Abhängige oder abgeleitete Entitäten: Sie sind von zwei oder mehr Tabellen existenzabhängig. Sie werden verwendet, um zwei Kernel zusammenzuführen und können andere Attribute enthalten. Jede verknüpfte Tabelle wird durch den Fremdschlüssel identifiziert. Für den Primärschlüssel stehen drei Optionen zur Verfügung: i) Verwenden Sie einen Verbund aus Fremdschlüsseln verwandter Tabellen, falls eindeutig, ii) Verwenden Sie einen Verbund aus Fremdschlüsseln und einer qualifizierenden Spalte, oder iii) Erstellen Sie einen neuen einfachen Primärschlüssel.
Charakteristische Entitäten: Diese Entitäten bieten zusätzliche Informationen zu einer anderen Tabelle. Sie beschreiben andere Entitäten und sind repräsentativ für mehrwertige Attribute. Der Fremdschlüssel dient zur weiteren Identifizierung der charakterisierten Tabelle. Für den Primärschlüssel stehen zwei Optionen zur Verfügung: i) Verwenden eines Verbunds aus Fremdschlüsseln und einer qualifizierenden Spalte oder ii) Erstellen eines neuen einfachen Primärschlüssels.
Tabelle 2. Arten von Schlüsseln.
| Arten von Schlüsseln | Beschreibung |
|---|---|
| Kandidatenschlüssel | einfacher oder zusammengesetzter Schlüssel, der eindeutig ist, da keine zwei Zeilen in einer Tabelle zu jeder Zeit denselben Wert haben können, und minimal, da jede Spalte benötigt wird, um Eindeutigkeit zu erreichen |
| Zusammengesetzter Schlüssel | muss minimal sein; bestehend aus zwei oder mehr Attributen |
| Primärschlüssel | vom Datenbankdesigner ausgewählter Kandidatenschlüssel zur Verwendung als Identifizierungsmechanismus für den gesamten Entitätssatz; muss Tupel in einer Tabelle eindeutig identifizieren und darf nicht null sein; im ER-Modell durch Unterstreichen des Attributs angezeigt indicated |
| Sekundärschlüssel | Attribut, das ausschließlich für Abrufzwecke verwendet wird; kann zusammengesetzt sein |
| Alternativschlüssel | alle Kandidatenschlüssel, die nicht als Primärschlüssel ausgewählt sind |
| Unbekannter Schlüssel | Attribut in einer Tabelle, die auf den Primärschlüssel in einer anderen Tabelle verweist ODER es kann null sein |
Nullwerte: Anders als Null- oder Leerwerte; hängen nicht vom Datentyp ab. Ein Nullwert bedeutet, dass entweder der tatsächliche Wert unbekannt ist oder das Attribut nicht anwendbar ist.
Beispiele für Entitätstypen und Beziehungen in biologischen Datenbanken
Ein Entitätstyp beschreibt die Merkmale, die von einer Sammlung von Entitäten in einer Domäne gemeinsam genutzt werden. Protein kann beispielsweise als Entitätstyp mit Attributen wie Sequenz, Name, Molekulargewicht, Spezies und Zugangsnummer betrachtet werden. Ein einzelner Entitätstyp wird wahrscheinlich mehrere Instanzen haben, von denen jede Werte für die Attribute bereitstellt, die im entsprechenden Typ angegeben sind. Die Namen von zwei Instanzen des Entitätstyps Protein sind beispielsweise menschliches α-Hämoglobin und Walmyoglobin. Die Werte ihrer Attributsarten wären jeweils Mensch und Wal.
Beziehungen geben an, dass zwei oder mehr Entitätstypen verknüpft sind. Zum Beispiel kann ein Protein mit vielen anderen Proteinen interagieren oder kann ein Mitglied einer Familie sein. Verschiedene Kategorien von Beziehungen können die Art der Beziehung beschreiben. Zum Beispiel könnte ein Entitätstyp als Teil eines anderen (zB ein Beta-Strang ist Teil eines Sheets in der Sekundärstruktur eines Proteins) oder als eine Art eines anderen (zB ein Enzym ist eine Art Protein) dargestellt werden.
Modifikationsanomalien
Während des Einfügens, Löschens oder Änderns von Daten können in einer Datenbank unbeabsichtigte Fehler auftreten. Wenn der Fehler auf das Datenbankdesign zurückzuführen ist, wird dies als Modifikationsanomalie bezeichnet.
Es gibt drei Arten von Modifikationsanomalien:
- Löschanomalie: die Entfernung einer logischen Entität, die zum Verlust von Informationen über eine nicht verwandte logische Entität führt
- Einfügeanomalie: das Einfügen von Daten über eine logische Entität, die das Einfügen von Daten über eine nicht verwandte logische Entität erfordert
- Update-Anomalie: die Änderung der Informationen für eine logische Einheit, die mehr als eine Änderung einer Beziehung erfordert.
Schlüsseldefinitionen
Zentralisiertes Datenbanksystem: Daten in diesem System werden an einem einzigen Standort gespeichert
Verteiltes Datenbanksystem: Datenbank- und DBMS-Software werden an verschiedenen Standorten verteilt, die durch ein Computernetzwerk verbunden sind.
Datenbank: eine gemeinsame Sammlung zugehöriger Daten zur Unterstützung der Aktivitäten von Organisationen.
Datendefinitionssprache (DDL): verwendet, um die konzeptionellen und internen Schemata zu definieren
Datenbankverwaltungssystem (DBMS): Computerprogramme zur Erstellung, Verwaltung und Abfrage von Datenbanken
Datenmodell: eine Sammlung von Konzepten zur Beschreibung der Datenbankstruktur database
Daten Redundanz: Speicherung des gleichen Datenstücks an zwei oder mehr Stellen im Datenbanksystem
Normalisierung: eine Methode, die Daten so strukturiert, dass Probleme verringert oder vermieden werden
Erholung: das Verfahren zur Verwendung von Protokollen und Sicherungskopien zum Wiederherstellen einer beschädigten Datenbank
Strukturierte Abfragesprache (SQL)
SQL steht für Structured Query Language, eine Computersprache zum Speichern, Manipulieren und Abrufen von Daten, die in einer relationalen Datenbank gespeichert sind. Es ist die am weitesten verbreitete Datenbanksprache. Es bietet Möglichkeiten, Beziehungen aufzubauen und Daten zu manipulieren. SQL ist die Standardsprache für relationale Datenbanksysteme. Alle relationalen Datenbankverwaltungssysteme (RDMS), wie MySQL, MS Access, Oracle, Sybase, Informix, Postgres und SQL Server, verwenden SQL als ihre Standard-Datenbanksprache, obwohl sie unterschiedliche „Dialekte“ verwenden:
- MS SQL Server verwendet T-SQL
- Oracle verwendet PL/SQL
- MS Access verwendet eine SQL-Version namens JET SQL (natives Format) usw.
Liste der SQL-Befehle
Es folgt eine Liste von SQL-Befehlen, die alle notwendigen Aktionen mit SQL-Datenbanken abdeckt. Wie bereits erwähnt, kann es jedoch einige Unterschiede zwischen verschiedenen Arten von Datenbanken geben, einschließlich der Verwendung verschiedener „Dialekte“. Jeder SQL-Befehl wird mit seiner Syntax und Beschreibung geliefert.
Die Befehle in SQL werden Abfragen genannt und es gibt zwei Arten:
- Datendefinitionsabfrage: Die Anweisungen, die die Struktur einer Datenbank definieren, Tabellen erstellen, ihre Schlüssel, Indizes usw.
- Abfragen zur Datenbearbeitung: Dies sind die Abfragen, die bearbeitet werden können.
Liste der SQL-Befehle1:
| Befehl | Syntax | Beschreibung |
|---|---|---|
| ALTER table | ALTER TABLE table_name ADD column_name datatype; | Es wird verwendet, um einer Tabelle in einer Datenbank Spalten hinzuzufügen |
| AND | SELECT column_name(s)FROM table_nameWHERE column_1 = value_1 AND column_2 = value_2; | Es ist ein Operator, der verwendet wird, um zwei Bedingungen zu kombinieren |
| AS | SELECT column_name AS ‘Alias’FROM table_name; | Es ist ein Schlüsselwort in SQL, das verwendet wird, um eine Spalte oder Tabelle mit einem Aliasnamen umzubenennen |
| AVG | SELECT AVG(column_name)FROM table_name; | Es wird verwendet, um eine numerische Spalte zu aggregieren und ihren Durchschnitt zurückzugeben |
| BETWEEN | all candidate keys not selected as the primary key | Es ist ein Operator, mit dem das Ergebnis innerhalb eines bestimmten Bereichs gefiltert wird |
| CASE | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Anweisung, die verwendet wird, um verschiedene Ausgaben innerhalb einer SELECT-Anweisung zu erstellen |
| COUNT | all candidate keys not selected as the primary key | Es ist eine Funktion, die den Namen einer Spalte als Argument nimmt und die Anzahl der Zeilen zählt, wenn die Spalte nicht NULL ist |
| Create TABLE | attribute in a table that references the primary key in another table OR it can be null | Es wird verwendet, um eine neue Tabelle in einer Datenbank zu erstellen und den Namen der Tabelle und der darin enthaltenen Spalten anzugeben |
| DELETE | all candidate keys not selected as the primary key | Es wird verwendet, um die Zeilen aus einer Tabelle zu entfernen |
| GROUP BY | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Klausel in SQL, die für Aggregatfunktionen in Zusammenarbeit mit der SELECT-Anweisung verwendet wird |
| HAVING | all candidate keys not selected as the primary key | Es wird in SQL verwendet, da das Schlüsselwort WHERE nicht in Aggregationsfunktionen verwendet werden kann |
| INNER JOIN | attribute in a table that references the primary key in another table OR it can be null | Es wird verwendet, um Zeilen aus verschiedenen Tabellen zu kombinieren, wenn die JOIN-Bedingung WAHR wird |
| INSERT | all candidate keys not selected as the primary key | Es wird verwendet, um einer Tabelle neue Zeilen hinzuzufügen |
| IS NULL/ IS NOT NULL | attribute in a table that references the primary key in another table OR it can be null | Es ist ein Operator, der mit der WHERE-Klausel verwendet wird, um auf leere Werte zu prüfen |
| LIKE | all candidate keys not selected as the primary key | Es ist ein spezieller Operator, der mit der WHERE-Klausel verwendet wird, um nach einem bestimmten Muster in einer Spalte zu suchen |
| LIMIT | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Klausel, um die maximale Anzahl von Zeilen anzugeben, die die Ergebnismenge haben muss |
| MAX | all candidate keys not selected as the primary key | Es ist eine Funktion, die die Anzahl der Spalten als Argument verwendet und den größten Wert davon zurückgibt |
| MIN | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Funktion, die die Anzahl der Spalten als Argument verwendet und den kleinsten Wert davon zurückgibt |
| OR | primary key | Es ist ein Operator, der verwendet wird, um die Ergebnismenge so zu filtern, dass sie nur die Zeilen enthält, bei denen eine der Bedingungen WAHR ist |
| ORDER BY | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Klausel, die verwendet wird, um die Ergebnismenge nach einer bestimmten Spalte entweder numerisch oder alphabetisch zu sortieren |
| OUTER JOIN | all candidate keys not selected as the primary key | Es wird verwendet, um Zeilen aus verschiedenen Tabellen zu kombinieren, auch wenn die Bedingung NICHT WAHR ist |
| ROUND | attribute in a table that references the primary key in another table OR it can be null | Es ist eine Funktion, die den Spaltennamen und eine ganze Zahl als Argument verwendet und die Werte in einer Spalte auf die durch eine ganze Zahl angegebene Anzahl von Dezimalstellen rundet |
| SELECT | all candidate keys not selected as the primary key | Es ist eine Anweisung, die verwendet wird, um Daten aus einer Datenbank abzurufen |
| SELECT DISTINCT | attribute in a table that references the primary key in another table OR it can be null | Es wird verwendet, um anzugeben, dass die Anweisung eine Abfrage ist, die eindeutige Werte in angegebenen Spalten zurückgibt |
| SUM | all candidate keys not selected as the primary key | Es ist eine Funktion, die verwendet wird, um die Summe der Werte aus einer bestimmten Spalte zurückzugeben |
| UPDATE | attribute in a table that references the primary key in another table OR it can be null | Es wird verwendet, um Zeilen in einer Tabelle zu bearbeiten |
| WHERE | all candidate keys not selected as the primary key | Es ist eine Klausel, die verwendet wird, um die Ergebnismenge zu filtern, um die Zeilen einzuschließen, in denen die WHERE-Bedingung TRUE ist |
| WITH | WITH temporary_name AS (SELECT *FROM table_name)SELECT *FROM temporary_nameWHERE column_name operator value; | Es wird verwendet, um das Ergebnis einer bestimmten Abfrage in einer temporären Tabelle unter Verwendung eines Alias zu speichern |
Befehle und Syntax zum Abfragen von Daten aus einer einzelnen Tabelle oder mehreren Tabellen2:
| Einzeltisch | Mehrere Tische |
|---|---|
| SELECT c1 FROM t To select the data in Column c1 from table t |
SELECT c1, c2 FROM t1 INNER JOIN t2 on conditionSelect column c1 and c2 from table t1 and perform an inner join between t1 and t2 |
| SELECT * FROM t To select all rows and columns from table t |
SELECT c1, c2 FROM t1 LEFT JOIN t2 on condition Select column c1 and c2 from table t1 and perform a left join between t1 and t2 |
| SELECT c1 FROM t WHERE c1 = ‘test’ To select data in column c1 from table t, where c1=test |
SELECT c1, c2 FROM t1 RIGHT JOIN t2 on condition Select column c1 and c2 from table t1 and perform a right join between t1 and t2 |
| SELECT c1 FROM t ORDER BY c1 ASC (DESC) To select data in column c1 from table t either in ascending or descending order |
SELECT c1, c2 FROM t1 FULL OUTER JOIN t2 on condition Select column c1 and c2 from table t1 and perform a full outer join between t1 and t2 |
| SELECT c1 FROM t ORDER BY c1LIMIT n OFFSET offset To skip the offset of rows and return the next n rows |
SELECT c1, c2 FROM t1 CROSS JOIN t2 Select column c1 and c2 from table t1 and produce a Cartesian product of rows in a table |
| SELECT c1, aggregate(c2) FROM t GROUP BY c1 To group rows using an aggregate function |
SELECT c1, c2 FROM t1, t2Select column c1 and c2 from table t1 and produce a Cartesian product of rows in a table |
| SELECT c1, aggregate(c2) FROM t GROUP BY c1HAVING condition Group rows using an aggregate function and filter these groups using ‘HAVING’ clause |
SELECT c1, c2 FROM t1 A INNER JOIN t2 B on condition Select column c1 and c2 from table t1 and join it to itself using INNER JOIN clause |
Kommerzielle und kostenlose Datenbanken, die in der realen Welt verwendet werden

Figur 1: Nicht erschöpfende Liste der verfügbaren Datenbanken
Dieser Teil befasst sich mit den gängigen Datenbanken, die auf dem Markt zu finden sind, unabhängig davon, ob sie frei oder proprietär sind. Es stehen jedoch so viele Datenbanken zur Verfügung (Abbildung 1), dass wir nicht alle nennen können. Es musste eine Auswahl getroffen werden und die unten aufgeführten sind die „beliebtesten“ oder die „am häufigsten verwendeten“.
Kommerzielle Datenbanken
Aus der Vielzahl der auf dem Markt verfügbaren Datenbanken haben wir drei kommerzielle Datenbanken ausgewählt, die häufig von den großen Unternehmen und Organisationen verwendet werden.
SAP HANA
![]()
Diese Datenbank wird von dem in Deutschland gegründeten europäischen Unternehmen SAP SE entwickelt. SAP HANA ist eine spaltenorientierte Datenbank-Engine, die SAP- und Nicht-SAP-Daten verarbeiten kann. Die Engine wurde entwickelt, um Daten aus Anwendungen und anderen Quellen über mehrere Speicherebenen hinweg zu speichern und abzurufen. SAP HANA kann lokal oder in der Cloud von einer Reihe von Cloud-Service-Providern bereitgestellt werden. Diese Datenbank wird normalerweise von Organisationen gewählt, die Daten aus Anwendungen abrufen und nicht über ein stark eingeschränktes Budget verfügen.
Seine Hauptmerkmale sind:
- Es unterstützt SQL, OLTP und OLAP.
- Die Engine reduziert den Ressourcenbedarf durch Komprimierung.
- Die Daten werden im Speicher abgelegt, wodurch die Zugriffszeiten in einigen Fällen erheblich verkürzt werden.
- Echtzeit-Reporting und Bestandsverwaltung sind verfügbar.
- Es kann mit einer Reihe anderer Anwendungen verbunden werden.
Α ab Januar 2021 die aktuell unterstützten Hardware-Plattformen3 für SAP HANA sind:
- Intel-basierte Hardwareplattformen
- IBM Power Systems
Α ab Januar 2021 die aktuell unterstützten Betriebssysteme4 für SAP HANA sind:
- Linux SUSE
Linux Red Hat
IBM Db2-Datenbank
![]()
Die Wurzeln der IBM Db2-Datenbank reichen bis in die frühen 1970er Jahre zurück, als Edgar F. Codd, ein Forscher des Unternehmens, die Theorie der relationalen Datenbanken beschrieb und im Juni 1970 das Modell zur Datenmanipulation veröffentlichte. Heute ist es eine Datenbank-Engine, die über NoSQL-Funktionen verfügt und JSON lesen kann5 und XML-Dateien6.
Die aktuelle Version von DB2 ist LUW 11.1, die eine Vielzahl von Verbesserungen bietet. Eine davon war insbesondere eine Verbesserung der BLU-Beschleunigung (BLink Ultra oder Big Data, Lightning fast und Ultra-easy), die diese Datenbank-Engine durch Data-Skipping-Technologie schneller arbeiten lassen soll. Das Überspringen von Daten wurde entwickelt, um die Geschwindigkeit von Systemen mit mehr Daten zu verbessern, als in den Speicher passen. Die neueste Version von Db2 bietet außerdem verbesserte Disaster-Recovery-Funktionen, Kompatibilität und Analysen.
Seine Hauptmerkmale sind:
- BLU Acceleration kann die verfügbaren Ressourcen für riesige Datenbanken optimal nutzen.
- Es kann aus der Cloud, einem physischen Server oder beidem gleichzeitig gehostet werden.
- Mit dem Taskplaner können mehrere Jobs gleichzeitig ausgeführt werden.
- Fehlercodes und Exitcodes können bestimmen, welche Jobs über den Taskplaner ausgeführt werden.
Die derzeit unterstützten Hardwareplattformen7 ab Januar 2021 für IBM Db2 sind:
- IBM z/Architecture-Mainframe
- Intel-basierte Hardwareplattformen
Die derzeit unterstützten Betriebssysteme ab Januar 2021 für IBM Db2 sind:
- z/OS
- Unix
- Linux
- Fenster
Oracle-Datenbank
![]()
Oracle Database wird häufig für die Ausführung von Online-Transaktionsverarbeitung (OLTP) oder Data Warehousing (DW) verwendet. Es kann auch OLTP- und DW-Datenbank-Workloads mischen. Oracle Database ist lokal, in der Cloud oder als Hybrid-Cloud-Installation verfügbar. Es kann auf Servern von Drittanbietern sowie auf Oracle Exadata-Hardware vor Ort, in der Oracle Cloud oder in einer privaten Cloud beim Kunden ausgeführt werden.
Die erste Version wurde 1979 veröffentlicht und ihre Entwicklung wurde durch die Forschungen von Edgar F. Codd zum relationalen Datenbankdesign beeinflusst.
Seine Hauptmerkmale sind:
- Es ist eine plattformübergreifende Datenbank. Es kann auf verschiedenen Hardware-Betriebssystemen ausgeführt werden, einschließlich Windows Server, Unix und verschiedenen Distributionen von GNU/Linux.
- Es hat seinen Netzwerk-Stack, der es Anwendungen von einer anderen Plattform ermöglicht, reibungslos mit der Oracle-Datenbank zu kommunizieren, zB Anwendungen, die unter Windows laufen, können sich mit der Oracle-Datenbank verbinden, die unter Unix läuft.
- Es handelt sich um eine ACID-konforme Datenbank, die zur Aufrechterhaltung der Datenintegrität und -zuverlässigkeit beiträgt.
Die derzeit unterstützten Hardwareplattformen sind:
- Proprietäre Oracle Database Appliance
- Sparc
- IBM Power Systems
- X64-basierte Hardwareplattformen
Die aktuell unterstützten Betriebssysteme8 sind:
- Unix
- Linux
- Fenster
Kostenlose Datenbanken9
Wenn eine Datenbank kostenlos ist, bedeutet dies nicht unbedingt, dass dem Benutzer keine Gebühren in Rechnung gestellt werden. Dies gilt für einige der folgenden Datenbanken, jedoch entscheiden sich einige Entwickler dafür, bestimmte Funktionen einzuschränken und eine Gebühr zu erheben, um diese Funktionen freischalten zu können (siehe die erste Einheit der Grundstufe).
MySQL

MySQL ist eine relationale Open-Source-Datenbank, die auf verschiedenen Plattformen läuft, darunter Windows, Linux, macOS usw. Eine Cloud-Version. MySQL kann für Softwarepakete, geschäftskritische Systeme und Websites mit hohem Volumen verwendet werden.
Seine Hauptmerkmale sind:
- Es bietet Skalierbarkeit und Flexibilität
- Das Tool hat Web- und Data Warehouse-Stärken
- Es bietet eine hohe Leistung
- Es verfügt über eine robuste Transaktionsunterstützung
PostgreSQL

PostgreSQL ist ein Open-Source-Datenbankverwaltungssystem der Enterprise-Klasse. Es unterstützt sowohl SQL für relationale als auch JSON für nicht-relationale Abfragen. Es wird von einer erfahrenen Community von Entwicklern unterstützt, die einen enormen Beitrag geleistet haben, um es zu einer äußerst zuverlässigen Datenbankverwaltungssoftware zu machen. Es läuft auf drei verschiedenen Plattformen, nämlich Windows, Linux und macOS. Eine Cloud-Version ist nicht verfügbar. PostgreSQL ermöglicht die Erstellung benutzerdefinierter Datentypen und einer Reihe von Abfragemethoden. Eine gespeicherte Prozedur kann in verschiedenen Programmiersprachen ausgeführt werden.
Seine Hauptmerkmale sind:
- Es ist mit verschiedenen Plattformen kompatibel, die alle gängigen Sprachen und Middleware verwenden
- Standby-Server und Hochverfügbarkeit
- Das Tool verfügt über ausgereifte serverseitige Programmierfunktionen
- Logbasierte und triggerbasierte Replikation SSL
- Es bietet einen hochentwickelten Verriegelungsmechanismus
- Unterstützung für die Kontrolle der Parallelität mehrerer Versionen
- Es bietet Unterstützung für die Client-Server-Netzwerkarchitektur
- Das Tool ist objektorientiert und ANSI-SQL2008 kompatibel
PostgreSQL ermöglicht die Verknüpfung mit anderen Datenspeichern wie NoSQL, die als föderierter Hub für mehrsprachige Datenbanken fungieren.
Microsoft SQL

SQL Server ist ein von Microsoft entwickeltes RDBMS. Es unterstützt ANSI SQL, die Standardsprache von SQL (Structured Query Language). SQL Server wird jedoch mit seiner Implementierung der SQL-Sprache T-SQL (Transact-SQL) geliefert. Es läuft auf Docker Engine, Ubuntu, SUSE Linux Enterprise Server und Red Hat Enterprise Linux. Eine Cloud-Version ist verfügbar.
Seine Hauptmerkmale sind:
- Es bietet die Integration strukturierter und unstrukturierter Daten mit der Leistungsfähigkeit von SQL Server und Spark.
- Das Tool bietet Skalierbarkeit, Leistung und Verfügbarkeit für geschäftskritische, intelligente Anwendungen, Data Warehouses und Data Lakes.
- Es bietet erweiterte Sicherheitsfunktionen zum Schutz Ihrer Daten.
Zugriff auf umfangreiche, interaktive Power BI-Berichte, um schnellere und bessere Entscheidungen zu treffen.
MariaDB

MariaDB ist ein Fork des MySQL-Datenbankverwaltungssystems. Es wurde von seinen ursprünglichen Entwicklern erstellt. Dieses DBMS-Tool bietet Datenverarbeitungsfunktionen für kleine und große Unternehmen. Es läuft auf drei Plattformen, nämlich Windows, Linux und macOS. Eine Cloud-Version ist verfügbar. MariaDB ist eine alternative Software zu MySQL. Es bietet eine hohe Skalierbarkeit durch einfache Integration.
Seine Hauptmerkmale sind:
- Es arbeitet unter GPL-, BSD- oder LGPL-Lizenzen.
- Es wird mit vielen Speicher-Engines geliefert, einschließlich der Hochleistungs-Engines, die in andere relationale Datenbankverwaltungssysteme integriert werden können.
- Es bietet die Galera-Cluster-Technologie.
- MariaDB kann auf verschiedenen Betriebssystemen laufen und unterstützt zahlreiche Programmiersprachen.
Oracle
![]()
Oracle ist eine sich selbst reparierende, selbstsichernde und selbstfahrende Datenbank, die entwickelt wurde, um die manuelle Datenverwaltung zu eliminieren. Es ist eine intelligente, sichere und hochverfügbare Datenbank in der Cloud, die Unternehmen beim Wachstum unterstützt. Es läuft auf zwei Plattformen, nämlich Windows und Linux. Eine Cloud-Version ist ebenfalls verfügbar.
Seine Hauptmerkmale sind:
- Oracle Cloud ist für leistungsstarke Datenbank-Workloads, Streaming-Workloads und Hyperscale-Big Data optimiert.
- Sie können problemlos in die Cloud migrieren.
- Es stellt die Dienste basierend auf Ihrer Betriebsweise bereit, um Oracle Cloud in Ihrem Rechenzentrum auszuführen.
Firebirdsql
![]()
Firebird ist ein Open-Source-SQL-RDBMS, das auf Microsoft Windows, macOS, Linux und mehreren Unix-Plattformen, einschließlich HP-UX, Solaris und AIX, läuft. Eine Cloud-Version ist verfügbar. Firebird bietet entwicklungsfreundliche Sprachunterstützung, gespeicherte Prozeduren und Trigger.
Seine Hauptmerkmale sind:
- Firebird ermöglicht es Ihnen, eine benutzerdefinierte Version zu erstellen.
- Es ist kostenlos herunterzuladen, zu registrieren und bereitzustellen.
- Das Tool verfügt über ein verbessertes Multi-Plattform-RDBMS.
- Bietet eine Reihe von Finanzierungsmöglichkeiten von firebird-Mitgliedschaften bis hin zu Sponsoring-Verpflichtungen.
Datenbanken in der wissenschaftlichen Welt Aufbaumodul
Dieser Abschnitt widmet sich der weiteren Erforschung der in der Wissenschaft verwendeten Open-Access-Datenbanken und der Nutzung und Nutzung des vorhandenen Wissens.
Übersicht über Datenbanken in der wissenschaftlichen Welt
Bestehende Datenbanken, die der Wissenschaft gewidmet sind und wie man sie verwendet
Wie bereits erwähnt, ist das Teilen, Integrieren und Kommentieren von Daten ein wesentlicher Bestandteil der biologischen Forschung, da es den Forschern ermöglicht, die Untersuchung und Interpretation experimenteller Ergebnisse zu reproduzieren. Obwohl angenommen wird, dass Bioinformatiker und Informatiker für diese Aktionen verantwortlich sind, spielen die Biowissenschaftler eine gleichberechtigte Rolle bei der Förderung der Datenintegration, da sie diejenigen sind, die diese Art von Daten generieren und in der Regel die Endnutzer sind.
Datenintegration ist definiert als der Prozess der Kombination von Daten aus verschiedenen Quellen, um Benutzern eine einheitliche Sicht auf diese Daten zu bieten. In den Computerwissenschaften wurden die theoretischen Rahmenbedingungen für die Datenintegration basierend auf der Methode zur Datenintegration in „eager“ und „faul“ kategorisiert. Nach der Eager-Methode, auch Warehousing genannt, werden die Daten in ein globales Schema kopiert und in einem zentralen Data Warehouse gespeichert. Der Begriff „Schema“ bezieht sich auf einen organisierten und „abfragbaren“ Ansatz zum Speichern von Daten. Bei der Lazy-Methode befinden sich die Daten in verteilten Quellen und werden bei Bedarf gemäß einem globalen Schema integriert, das zum Mapping der Daten zwischen den Quellen verwendet wird. Das Datenvolumen, der Eigentümer der Daten und die vorhandene Infrastruktur sind die Hauptfaktoren, die letztendlich bestimmen, welche der beiden Methoden für die Datenintegration verwendet wird. Darüber hinaus können diese Methoden in den biologischen Wissenschaften auf verschiedene Weise und auf verschiedenen Ebenen angewendet werden. Als Ergebnis wurden sechs verschiedene und weit verbreitete Schemata für die Integration von Daten formuliert:
- Datenzentralisierung: Die Daten befinden sich in zentralisierten Ressourcen. UniProt und GenBank sind zwei Beispiele für Datenbanken, die dieser Methode folgen.
- Data Warehousing: Daten aus verschiedenen Quellen befinden sich in einem zentralen Repository. Pathway Commons ist eine Datenbank, die diesem Ansatz folgt, um Daten zu integrieren.
- Dataset-Integration: Interne Workflows greifen auf verteilte Datenbanken zu und laden Daten in ein lokales Repository herunter.
- Hyperlinks: Dieser Ansatz ermöglicht Benutzern den Zugriff auf Datenbanken und Tools in verschiedenen Bereichen der Biowissenschaften und fördert so die Interoperabilität. ExPASy ist ein indikatives Beispiel für ein Portal, das auf dieser Datenintegrationsmethodik basiert.
- Föderierte Datenbanken: Für die Integration von Daten in heterogene Datenbanken ist eine Translationsschicht erforderlich. Das bedeutet, dass Daten aus der Datenbank so in ein allgemein akzeptiertes Format umgewandelt werden, dass sie von einem Mapping-Dienst in gleicher Weise interpretiert werden können. Das Distributed Annotation System (DAS), ein Client-Server-System, ist ein indikatives Beispiel.
- Linked Data: Ein Netzwerk miteinander verbundener Daten, auf die online zugegriffen werden kann. Grafische Benutzeroberflächen (GUI), die aus Hyperlinks bestehen, die verknüpfte Daten von zahlreichen Datenanbietern verbinden und somit ein großes System von Linked Data bilden. BIO2RDF ist ein indikatives Beispiel für eine Datenbank, die diesen Ansatz als Grundlage für die Datenintegration verwendet.
Datenzentralisierung, Data Warehousing und Datensatzintegration basieren auf dem „eager“ theoretischen Rahmen, während Hyperlinks, föderierte Datenbanken und verknüpfte Daten auf dem „faulen“ theoretischen Rahmen bezüglich der Art und Weise, die für die Datenintegration ausgewählt wird, basieren.
Datenformate werden als organisierte Möglichkeit zur Demonstration von Daten und Metadaten in einer Datei beschrieben. Wissenschaftler begannen, biologische Daten in formatierten Dateien zu speichern, da das exponentielle Wachstum der Daten die Notwendigkeit schuf, sie mithilfe von Computersystemen und Datenbanken zu analysieren. Ein Problem, das bei der Dateiformatierung aufgetreten ist, ist das Aufkommen verschiedener Formate, selbst für die Darstellung der gleichen Art von Daten. In einigen Fällen wurde beobachtet, dass mehr als eine Formatklasse verwendet werden kann, um die Daten und Metadaten in einer einzigen Datei darzustellen. Darüber hinaus hat die Forschung gezeigt, dass die am häufigsten verwendeten Formatklassen sind: i) Tabellen, ii) FASTA-ähnlich, iii) Tag-strukturiert und iv) GenBank-ähnlich. Die ideale Lösung für dieses Problem wäre, dass sich Wissenschaftler auf die Verwendung einer begrenzten Anzahl spezifischer Formate einigen, um den Prozess der Datenintegration zu vereinfachen. Auch das Design von Konvertern, die alle unterschiedlichen Formatklassen übersetzen können, wäre eine hilfreiche Lösung.
Derzeit werden über 1.700 Datenbanken mit Daten von biologischem Interesse verwendet, so die nicht erschöpfende Liste, die von der Zeitschrift Nucleic Acids Research kuratiert wurde. Um für einen bestimmten Zweck als wertvoll erachtet zu werden, müssen alle Datensätze, die in einer Datenbank vorhanden sind, integriert und strukturiert werden. Die bestehenden biologischen Datenbanken umfassen Informationen zu einer Vielzahl von biologischen Forschungsthemen.
Wie bereits im Basic Level erwähnt, hängt die Klassifizierung biologischer Datenbanken von mehreren Faktoren ab, darunter der Umfang der Datenabdeckung und der Grad der Biokuration. Dennoch ist ihre Klassifikation nach Art der Daten eine der einfachsten und umfassendsten Möglichkeiten, biologische Datenbanken zu kategorisieren. Daher werden diese im folgenden Abschnitt als DNA-, RNA-, Protein-, Krankheits-, Expressions- und Pathway-Datenbanken beschrieben.
DNA-Datenbanken
DNA-Datenbanken konzentrieren sich auf den Umgang mit DNA-Daten von zahlreichen oder wenigen bestimmten Arten. Der Hauptzweck menschlicher DNA-Datenbanken besteht darin, das Referenzgenom zu erstellen, ein Profil der menschlichen genetischen Variation durchzuführen, den Genotyp mit dem Phänotyp zu verbinden und menschliche Mikrobiom-Metagenome zu identifizieren. Ein Beispiel für eine DNA-Datenbank ist GenBank, eine öffentlich zugängliche Sammlung aller untersuchten DNA-Sequenzen. Ab Februar 2021 sind in der GenBank (http://www.ncbi.nlm.nih.gov/genbank/statistics) über 776 Milliarden Nukleotidbasen in über 226 Millionen Sequenzen verfügbar.
RNA-Datenbanken
Diese Datenbanken enthalten Informationen über nicht-kodierende RNAs (ncRNAs), wie microRNAs und lange nicht-kodierende RNAs (lncRNAs), die keine Proteine kodieren. Der Zweck von RNA-Datenbanken besteht darin, ncRNAs, von denen lncRNAs am häufigsten untersucht werden, zu entschlüsseln und ihre Funktionen und Wechselwirkungen zu beschreiben. Ein Beispiel für eine RNA-Datenbank ist RNAcentral, die aus einer einheitlichen Ansicht von ncRNA-Sequenzdaten besteht, die aus einer Reihe von Datenbanken stammen, von denen einige Rfam, miRBase und lncRNAdb sind.
Proteindatenbanken
Proteindatenbanken wurden entwickelt, um eine umfangreiche Zusammenstellung universeller Proteine zu erstellen, Proteinfamilien und -domänen zu identifizieren, phylogenetische Bäume zu rekonstruieren und Proteinstrukturen zu profilieren. PDB, das aus Tausenden von Strukturen biologischer Makromoleküle besteht, ist ein indikatives Beispiel für Proteindatenbanken.
Krankheitsdatenbanken
Krankheitsdatenbanken enthalten definitionsgemäß Informationen über verschiedene Arten von Krankheiten, konzentrieren sich jedoch hauptsächlich auf die Bereitstellung von Daten zu verschiedenen Krebsarten. Eines der wichtigsten Krebsprojekte, das entwickelt wurde, ist der Cancer Genome Atlas (TCGA), dessen Ziel es ist, ein breites Spektrum an Omics-Daten wie mRNA, SNP und Methylierung für über zwanzig verschiedene Krebsformen beim Menschen zu sammeln .
Ausdrucksdatenbanken
Expressionsdatenbanken können für eine Reihe von Aufgaben verwendet werden, wie zum Beispiel das Studium der gewebespezifischen Genexpression und -regulation, das Speichern von Expressionsdaten, das Detektieren der differentiellen und Grundlinienexpression und das Untersuchen und Überprüfen von Expressionsinformationen, die aus RNA- und Proteindaten erhalten wurden. Als Expressionsdatenbank enthält der Human Protein Atlas Expressionsprofile für einen signifikanten Prozentsatz der humanen proteinkodierenden Gene, die aus RNA- und Proteindaten abgeleitet wurden.
Pfaddatenbanken
Pathway-Datenbanken enthalten Daten über biologische Wege, die von Forschern zur Analyse von Stoffwechsel-, Regulations- und Signalwegen genutzt werden können. Ein charakteristisches Beispiel für Pathway-Datenbanken ist KEGG PATHWAY, das Informationen über molekulare Interaktionen und Reaktionsnetzwerke enthält.
Das National Center for Biotechnology Information (NCBI), Teil der US-amerikanischen National Library of Medicine am National Institute of Health, hat ein integriertes Datenbankabrufsystem entwickelt, das Zugriff auf 34 verschiedene Datenbanken mit insgesamt 3,0 Milliarden Datensätzen namens Entrez bietet. Die globale Suchseite von Entrez
(https://www.ncbi.nlm.nih.gov/search/)
bietet für jede der 34 Datenbanken Links zum Webportal. Das Entrez-System ist einfach zu bedienen, da es Benutzern ermöglicht, Daten in einer Vielzahl von Formaten herunterzuladen und mithilfe einfacher boolescher Abfragen eine Textsuche durchzuführen. Datensätze werden zwischen Datenbanken auf der Grundlage von behaupteten Beziehungen verknüpft; diese Datensätze können in verschiedenen Formaten dargestellt werden. Darüber hinaus haben Benutzer von Entrez die Möglichkeit, einzelne Datensätze oder Datensatzstapel herunterzuladen. Einige der 34 Datenbanken, die Teil von Entrez sind, sind die folgenden: PubMed (https://pubmed.ncbi.nlm.nih.gov), das wissenschaftliche und medizinische Zusammenfassungen/Zitate enthält; BioSample (https://www.ncbi.nlm.nih.gov/biosample), das Beschreibungen von biologischen Ausgangsmaterialien umfasst; GEO Profiles (https://www.ncbi.nlm.nih.gov/geoprofiles), die Genexpressions- und molekulare Häufigkeitsprofile umfassen; und,
Die an das NCBI übermittelten Daten stammen aus drei Quellen: i) direkt von Forschern, ii) nationalen und internationalen Partnerschaften oder Vereinbarungen mit Datenlieferanten und Forschungskonsortien und iii) internen Kurationsbemühungen. Bemerkenswert ist, dass das NCBI für die Verwaltung der GenBank-Datenbank verantwortlich ist und an der International Nucleotide Sequence Database Collaboration (INSDC) in Zusammenarbeit mit dem EMBL-EBI European Nucleotide Archive (ENA) und der DNA Data Bank of Japan (DDBJ) beteiligt ist.
Da sich Datenbanken in vielen wissenschaftlichen Bereichen als nützliches Werkzeug erwiesen haben, gewinnt ihr Einsatz im Gesundheitswesen stetig an Bedeutung. Heutzutage haben technologische Fortschritte im Bereich der Datenwissenschaft es medizinischen Fachkräften ermöglicht, gesundheitsbezogene Daten zu sammeln, zu verarbeiten und zu analysieren, was nicht nur zu einer Verbesserung der Versorgung, sondern auch der Sicherheit von Patienten und Verbrauchern führt. Damit diese Verbesserungen stattfinden können, müssen relevante Daten effizient und sicher erfasst, gespeichert, analysiert und über die verschiedenen Leistungsstufen eines Gesundheitssystems hinweg ausgetauscht werden. Dies hat zur Entwicklung von elektronischen Gesundheitsakten (EHRs) geführt, Datenbanken, die Patientendaten speichern, auf die medizinisches Fachpersonal zugreifen und sie nutzen kann.
EHRs können als medizinische Datenbanken definiert werden, die Benutzern, in diesem Fall medizinisches Fachpersonal und Verwaltungspersonal, Zugang zu Gesundheitsakten bieten. Die unterschiedlichsten Arten von EHRs sind die elektronische Krankenakte (EMR) und die persönliche Gesundheitsakte (PHR). EMRs bestehen aus Informationen, die von einer einzelnen Krankenhausabteilung, einem ganzen Krankenhaus oder Teilen des Krankenhauses eingereicht werden. Sie können auch Informationen aus einer Reihe von Krankenhäusern enthalten. Informationen zu dieser Art von EHR werden normalerweise nur vom Krankenhauspersonal hinzugefügt. Im Gegenteil, PHRs werden von den Patienten verwaltet, die Informationen eingeben können. PHRs werden als elektronische Anwendungen beschrieben, die Patienten eine sichere Plattform bieten, um ihre Gesundheitsdaten zu kontrollieren und zu teilen. Der Hauptunterschied zwischen den beiden Arten von EHR-Systemen besteht darin, dass in PHRs
Das erste EHR-System wurde in den 1960er Jahren hauptsächlich aufgrund des Aufbaus von unstrukturierten und ungenutzten Patienteninformationen über einen Zeitraum von mehreren Jahrzehnten verfügbar. Große Organisationen begannen, Datenbanksysteme einzurichten, um Daten in zentralen Repositories zu speichern und zu strukturieren. Diese Datenbanken ermöglichten die Organisation und Sammlung von Daten aus vielen verschiedenen Quellen, darunter Apotheken, Labors, klinische Studien und Bestandteile der klinischen Versorgung, wie z. B. Aufzeichnungen über die Verabreichung von Medikamenten. Derzeit wird die Implementierung von EHR-Systemen hauptsächlich in Ländern mit hohem Einkommen beobachtet. Beispielsweise führte der Health Information Technology for Economic and Clinical Health Act (HITECH Act von 2009) zur Digitalisierung des Gesundheitsversorgungssystems in den USA und zur anschließenden Entwicklung der Medicare- und Medicaid-EHR-Incentive-Programme.
Der Hauptzweck für die Erstellung von EHRs war die Notwendigkeit, Patientenakten zu archivieren und zu strukturieren. Sie wurden später aus Abrechnungs- und Qualitätsverbesserungsgründen benannt. Mit dem technologischen Fortschritt wurden EHRs im Laufe der Jahre integrativer, dynamischer und vernetzter. Dennoch wird Big Data im Vergleich zu anderen Branchen in der Medizinbranche nicht optimal genutzt. Dies geschah hauptsächlich aufgrund der schlechten Qualität der gesammelten Daten und schlecht strukturierter Datensätze. Vor der Entwicklung von EHRs basierte die medizinische Forschung auf Krankheitsregistern oder chronischen Krankheitsmanagementsystemen (CDMS). Diese Repositorien weisen erhebliche Einschränkungen auf, da sie aus Datensammlungen bestehen, die sich oft nur auf eine bestimmte Krankheit beziehen. Weiter, sie können die Daten oder Schlussfolgerungen nicht auf andere Krankheiten übertragen und können Informationen von einer Patientengruppe in einem bestimmten geografischen Gebiet enthalten. Andererseits sind EHR-Daten sehr vielfältig und erleichtern so die Analyse komplexer klinischer Interaktionen und Entscheidungen.
Die Bestandteile von EHRs sind verschiedene Arten medizinischer Daten, die von Gesundheitsakten bis hin zu sensorischen Rohdaten reichen. Medizinische Daten können in sensible Daten oder nicht sensible Daten kategorisiert werden. Sensible Daten umfassen Patienteninformationen oder können einem Patienten zugeordnet werden. Zu den nicht sensiblen Daten zählen sensorische Daten, die auch Messdaten genannt werden, da sie nur aus Proben von Sensoren bestehen, wie beispielsweise Proben einer EEG-Messung. Daten, die in einer medizinischen Datenbank gespeichert sind, werden als Metadaten bezeichnet. Der am häufigsten verwendete Datenbanktyp zum Speichern medizinischer Daten ist die relationale Datenbank, die Daten in Form von Tabellen präsentiert, die aus Zeilen und einer festgelegten Anzahl von Spalten bestehen. Einige Datenbanken können Patienteninformationen wie die Krankengeschichte eines Patienten oder anonymisierte Daten enthalten, die in Studien verwendet werden können.
Medizinische Daten können wie nachfolgend beschrieben in mehrere Kategorien unterteilt werden:
- Medizin- und Labordaten: Medizinisches Personal kann in einem ärztlichen Verordnungserfassungssystem Verordnungen für Medikamente oder Laboruntersuchungen einreichen, die anschließend vom Labor- oder Pflegepersonal durchgeführt werden. Beispiele für diese Datenkategorie sind Arzneimittelverordnungen und mikrobiologische Ergebnisse.
- Abrechnungsdaten: Diese Kategorie medizinischer Daten umfasst Codes, die von Krankenhäusern verwendet werden, um Ansprüche bei ihren Versicherungsanbietern geltend zu machen. Die von der WHO erstellte Internationale Klassifikation der Krankheiten und die von der American Medical Association unterstützte Current Procedural Terminology sind die beliebtesten Kodierungssysteme.
- Bilder: Dies können Röntgenbilder sein, die aus Röntgenaufnahmen, Echokardiogrammen und Computertomographie (CT)-Scans resultieren.
- Hinweise und Berichte: Diese können mit dem Fortschritt der Patienten in Verbindung gebracht werden. Entlassungszusammenfassungen gehören ebenfalls in diese Kategorie. Befunde aus bildgebenden Untersuchungen werden in der Regel in Operationsberichten beschrieben. Notizen müssen teilweise mit einem Vorlagensystem strukturiert werden.
- Physiologische Daten: Diese Kategorie medizinischer Daten enthält Vitalparameter wie Herzfrequenz und Blutdruck sowie EKG- und EEG-Kurven.
Relationale Datenbanken werden am häufigsten für die Verwaltung und Speicherung medizinischer Daten verwendet. Sie können als eine Sammlung von Tabellen bezeichnet werden, die durch gemeinsame Schlüssel verbunden sind. Ein Datenbankschema bestimmt die Struktur der Tabellen und ihre Beziehungen. Eine einfache medizinische Datenbank kann vier Tabellen enthalten:
- Tabelle 1: eine Patientenliste
- Tabelle 2: ein Krankenhausaufnahmeprotokoll
- Tabelle 3: eine Liste mit Vitalparametermessungen
- Tabelle 4: ein Wörterbuch mit Vitalzeichencodes und zugehörigen Labels
Zur Verknüpfung der vier Tabellen können Primär- und Fremdschlüssel verwendet werden.
Das Überwiegen von Gesundheitsdatenbanken bietet aus verschiedenen Gründen einen eingeschränkten Zugang zu Daten, einschließlich Datenschutzbedenken und Pläne zur Monetarisierung der Daten. Nichtsdestotrotz stehen eine Reihe von Open-Access-Gesundheitsdatenbanken für die öffentliche Nutzung zur Verfügung, von denen einige im Folgenden beschrieben werden.
Die Datenbank des Medical Information Mart for Intensive Care (MIMIC)
Die MIMIC-Datenbank (http://mimic.physionet.org) entstand 2003 als Ergebnis einer Zusammenarbeit zwischen dem MIT, Philips Medical Systems und dem Beth Israel Deaconess Medical Center (BIDMC). Die in diese Datenbank eingegebenen Daten stammen von medizinischen und chirurgischen Patienten, die auf allen Intensivstationen des BIDMC aufgenommen wurden. Es besteht aus Informationen von über vierzigtausend Patienten, detaillierten physiologischen und klinischen Daten und ist anonymisiert und für Forscher offen zugänglich. In dieser Datenbank sind zwei Arten von Daten vorhanden: klinische Daten, die von EHRs abgeleitet werden, die in einer relationalen Datenbank mit ungefähr 50 Tabellen gespeichert sind, und Wellenformen des Bettmonitors, die in flachen Binärdateien gespeichert sind.
PCORnet
PCORnet, das National Patient-Centered Clinical Research Network, ist eine Initiative, die 2013 mit dem Ziel begann, Daten aus mehreren Clinical Data Research Networks und Patient-Powered Research Networks zu integrieren. Es enthält 29 Netzwerke, die den Zugang zu umfangreichen Forschungsergebnissen erleichtern. Es sammelt Daten von routinemäßigen Patientenbesuchen und Daten, die von einzelnen Patienten über persönliche Gesundheitsakten oder Community-Netzwerke mit anderen Patienten geteilt werden.
NHS öffnen
Der National Health Services (NHS England) unterhält eines der größten Datenarchive der Welt mit Daten zur Gesundheit der Bevölkerung. NHS öffnenist10 eine Open-Source-Datenbank, die Zugang zu Informationen bietet, die der Öffentlichkeit von der Regierung oder anderen öffentlichen Stellen zur Verfügung gestellt werden. Dieses Projekt wurde ins Leben gerufen, um die Transparenz zu erhöhen und die Effizienz des britischen Gesundheitssektors zu überwachen. Patienten, Beschäftigte im Gesundheitswesen und Beauftragte erhalten die Möglichkeit, die Versorgungsqualität an verschiedenen Orten des Landes zu vergleichen, indem sie einfach auf die verfügbaren Daten in der speziell dafür eingerichteten Datenbank zugreifen.
De-Identifikation der Datenbank
Einer der wichtigsten Schritte zum Aufbau einer EHR-Datenbank ist die Anonymisierung. Bevor eine Datenbank für Forscher und Anwendungen zur Verfügung steht, müssen unbedingt Maßnahmen ergriffen werden, um sicherzustellen, dass Datenschutzrichtlinien und -vorschriften eingehalten werden. Bei strukturierten Daten wie Spalten einer Tabelle basiert die De-Identifikation auf der Kategorisierung von Daten und der anschließenden Löschung oder Kryptographie der als geschützt gekennzeichneten Daten. Für unstrukturierte Daten, wie zum Beispiel Entlassungszusammenfassungen, werden verschiedene Techniken der natürlichen Sprachverarbeitung verwendet, von einfachen regulären Ausdrücken bis hin zu komplexen neuronalen Netzen, die versuchen, alle durch Freitext geschützten Informationen zu finden, um eine Löschung oder Kryptographie durchzuführen.
Die Anwendung von Blockchain in der digitalen Gesundheit
Die Blockchain-Technologie basiert auf dem Konzept eines dezentralen Systems zur Datenspeicherung, bei dem jedem Teilnehmer/Knoten eine Kopie des Ledgers der durchgeführten Transaktionen zur Verfügung gestellt wird. Dies macht es für jemanden unmöglich, die Daten zu ändern, ohne dass die anderen Teilnehmer informiert werden. Starke zentralisierte Einheiten würden von der Anwendung der Blockchain profitieren. Die Anwendungen von Digital Health hängen stark von zentralisierten Systemen ab. Daher hat die Blockchain das Potenzial, die digitale Gesundheit zu verändern, indem sie die Art und Weise ändert, wie Daten gespeichert und gesichert werden. Für seine Anwendung wurden verschiedene Bereiche vorgeschlagen, darunter Lieferketten, Arzneimittelverifizierung, Erstattung von Ansprüchen, Zugangskontrolle und klinische Studien.
Medizinische Daten haben sich als die am höchsten bewerteten Daten von Hackern erwiesen, da neuere Studien geschätzt haben, dass eine einzelne Gesundheitsakte bis zu 400 USD kosten kann. Daher ist die sichere Aufbewahrung der Daten in medizinischen Datenbanken von größter Bedeutung. Blockchain kann eine Lösung für dieses Problem bieten, indem Datenschutz, Integrität, Authentifizierung und Autorisierung sichergestellt werden. Blockchain-Daten werden verschlüsselt, und wenn jemand seine Daten löschen oder unbrauchbar machen muss, erhält er diese Möglichkeit, indem er einen Schlüsselzerstörungsmechanismus anwendet, bei dem der Schlüssel, der ursprünglich für die Verschlüsselung der Nachricht verwendet wurde, zerstört oder unbrauchbar gemacht wird. Danach sind die in der Blockchain gespeicherten Daten nicht lesbar.
Blockchain ist in der Lage, zwei wesentliche Bedürfnisse in Bezug auf den Datenaustausch zu erfüllen: Integrität und Nichtabstreitbarkeit. Integrität bedeutet, dass die Abfrage und die abgerufenen Daten nicht mehr geändert werden können, nachdem der Abrufvorgang ausgeführt wurde. Nichtabstreitbarkeit bedeutet, dass der Wissensabrufdienst nicht die Fähigkeit besitzt, zu leugnen, dass die spezifischen Daten von dem Dienst als Antwort auf eine bestimmte Anfrage zu einem bestimmten Zeitpunkt geliefert wurden. Blockchain kann als ein verteiltes Transaktionsmanagementsystem definiert werden, das nicht beschädigt werden kann. Es kann für die EHR-Integration, gemeinsame Nutzung und Zugriffskontrolle, Aufbewahrung und Verwaltung verwendet werden.
Ein theoretischer blockchainbasierter Notardienst kann aus drei Rechenschichten bestehen:
- ein Datenkonsumenten-Front-End
- eine Schnittstelle zur Kommunikation mit biomedizinischen Datenbankschnittstellen, und
- die Vertrags-Engine, die die Abfrage organisiert und die abgerufenen Ergebnisse an den Verbraucher zurückgibt, Transaktionen durchführt und vorbereitet und Verträge und deren Metadaten verwaltet
Für die Anwendung des Notardienstes können zwei verschiedene Schemata verwendet werden: das Basisschema und das Versionierungsschema. Das grundlegende Schema wendet ein Abfrage-Antwort-Ledger an, durch das der Benutzer einen versiegelten Nachweis erhält, der bestätigt, dass zu einem bestimmten Zeitpunkt eine bestimmte Abfrage in einer biomedizinischen Datenbank platziert wurde, die bestimmte Ergebnisse liefert. Dieses Schema kann verwendet werden, um die Integrität und Nichtabstreitbarkeit einer Anfrage sicherzustellen, wenn eine lebenswichtige biomedizinische Aufgabe auf der spezifischen Anfrage beruht. Das Versionierungsschema ermöglicht die nicht seriöse Versionierung von Daten, die zu zahlreichen Gelegenheiten aus einer sich dynamisch entwickelnden biomedizinischen Datenbank abgerufen wurden, wobei immer dieselbe Abfrage verwendet wird. Dieses Schema kann angewendet werden, um verschiedene Versionen von sich ändernden medizinischen Nachweisen zu bestätigen, wie sie aus einer biomedizinischen Datenbank mit häufig aktualisiertem Inhalt abgerufen werden.
Die Integration der Blockchain-Technologie in pharmazeutische oder biowissenschaftliche Anwendungen hat die Fähigkeit, die Schnittstelle und den Datenaustausch zu dezentralisieren, was zu mehr Effizienz, höheren Geschwindigkeiten und unbegrenzter Skalierbarkeit führt. Blockchain macht Daten unveränderlich, was in klinischen Studien nützlich wäre, um sicherzustellen, dass klinische Daten zu einem späteren Zeitpunkt nicht von Forschern manipuliert werden können. Es kann auch bei der Identifizierung, Rückverfolgung und Verifizierung von Arzneimitteln verwendet werden. Mit der Implementierung der Blockchain sind bestimmte Risiken verbunden, wie Datenschutzbedenken, Transaktionen außerhalb der Kette und Zweifel an dieser Technologie aufgrund mangelnder Akzeptanz. Nichtsdestotrotz überwiegen die Vorteile der Blockchain-Technologie die möglichen Nachteile bei weitem und könnten eine bedeutende Rolle bei der Begrenzung der Methoden spielen, die für illegale Aktivitäten verwendet werden.
Test: LO5 Fortgeschrittenes Niveau
Verweise
- Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
- Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
- Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
- Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
- Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
- Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
- Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
- Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
- Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
- Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
- Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
- Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
- Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
- Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
- Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
- Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
- Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
- Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
- Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
- Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
- Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
- Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
- Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
- Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
- Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
- Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
- Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
- Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
- Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
- Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
- The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
- Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
- Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.
- Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
- Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
- Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
- Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
- Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
- Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
- Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
- Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
- Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
- Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
- Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
- Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
- Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
- Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
- Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
- Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
- Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
- Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
- Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
- Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
- Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
- Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
- Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
- Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
- Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
- Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
- Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
- Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
- Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
- Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
- The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
- Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
- Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.
1 Quelle https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/
2 Quelle https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/
3 Quelle SAP SE https://help.sap.com/viewer/eb3777d5495d46c5b2fa773206bbfb46/2.0.01/en-US/d3d1cf20bb5710149b57fd794c827a4e.html
4 Weitere Informationen zu unterstützten Betriebssystemen für SAP HANA finden Sie im SAP-Hinweis 2235581 – SAP HANA: https://service.sap.com/sap/support/notes/2235581
5 JavaScript Object Notation ist ein offenes Standarddateiformat als XML und wird als unstrukturierte Daten betrachtet.
6 XML ist ein offenes Standarddateiformat als JSON und gilt als unstrukturierte Daten.
7 Quelle IBM Support https://www.ibm.com/support/pages/system-requirements-ibm-db2-linux-unix-and-windows#1155S
8 Quelle https://support.oracle.com/knowledge/Oracle%20Database%20Products/1369107_1.html
9 Quelle https://www.guru99.com/free-database-software.html aktualisiert am 2021
10 Offene Daten beim NHS. Verfügbar unter: http://www.england.nhs.uk/ourwork/tsd/data-info/open-data/


