Επιστημονικοί πόροι ανοικτής πρόσβασης: ψηφιακές βάσεις δεδομένων
ΑΡΧΑΡΙΟ ΕΠΙΠΕΔΟ
Η Ανοικτή πρόσβαση ή ΟΑ είναι ένα σύνολο αρχών και μια σειρά πρακτικών μέσω των οποίων τα αποτελέσματα της έρευνας διανέμονται διαδικτυακά, χωρίς κόστος ή άλλα εμπόδια πρόσβασης.
Επιστημονικοί πόροι ανοικτής πρόσβασης
Εισαγωγή στους πόρους «Ανοικτής Πρόσβασης»
Η Ανοικτή πρόσβαση ή ΟΑ είναι ένα σύνολο αρχών και μια σειρά πρακτικών μέσω των οποίων τα αποτελέσματα της έρευνας διανέμονται διαδικτυακά, χωρίς κόστος ή άλλα εμπόδια πρόσβασης. Με αυστηρά καθορισμένη την ανοικτή πρόσβαση (σύμφωνα με τον ορισμό του 2001), ή δωρεάν ανοικτή πρόσβαση, τα εμπόδια στην αντιγραφή ή την επαναχρησιμοποίηση μειώνονται ή εξαλείφονται με την εφαρμογή ανοικτής άδειας για πνευματικά δικαιώματα.
Ο κύριος στόχος του κινήματος ανοικτής πρόσβασης είναι η “βιβλιογραφία έρευνας από ομοτίμους”. Ιστορικά, αυτό επικεντρώθηκε κυρίως σε έντυπα ακαδημαϊκά περιοδικά. Ενώ τα συμβατικά (μη ανοιχτής πρόσβασης) περιοδικά καλύπτουν το κόστος έκδοσης μέσω διοδίων πρόσβασης, όπως συνδρομές, άδειες ιστότοπου ή χρεώσεις πληρωμής ανά προβολή, τα περιοδικά ανοικτής πρόσβασης χαρακτηρίζονται από μοντέλα χρηματοδότησης που δεν απαιτούν από τον αναγνώστη να πληρώσει για να διαβάσει περιεχόμενο του περιοδικού. Η ανοικτή πρόσβαση μπορεί να εφαρμοστεί σε όλες τις μορφές δημοσιευμένων ερευνητικών αποτελεσμάτων, συμπεριλαμβανομένων άρθρων ακαδημαϊκών περιοδικών που έχουν αξιολογηθεί και δεν έχουν αξιολογηθεί από ομοτίμους, άρθρων συνεδρίων, διπλωματικών εργασιών, κεφαλαίων βιβλίων, μονογραφιών και εικόνων.
Ωστόσο, όταν πρόκειται για τον ορισμό της “δωρεάν” πρόσβασης, πρέπει να διακρίνει το “δωρεάν” από το “libre”.
Προκειμένου να αντικατοπτριστούν οι πραγματικές διαφορές στον βαθμό της ανοικτής πρόσβασης, η διάκριση μεταξύ δωρεάν ανοικτής πρόσβασης και δωρεάν ανοικτής πρόσβασης προστέθηκε το 2006 από τους Peter Suber και Stevan Harnad, δύο από τους συν-συντάκτες της αρχικής πρωτοβουλίας Ανοικτής Πρόσβασης στη Βουδαπέστη ( BOAI) ορισμός της δημοσίευσης ανοικτής πρόσβασης. Η δωρεάν ανοικτή πρόσβαση αναφέρεται στη δωρεάν πρόσβαση στο διαδίκτυο και η ελεύθερη πρόσβαση στην ελεύθερη πρόσβαση στην ηλεκτρονική πρόσβαση δωρεάν, καθώς και ορισμένα πρόσθετα δικαιώματα επαναχρησιμοποίησης. Η ανοικτή πρόσβαση Libre ισοδυναμεί με τον ορισμό της ανοικτής πρόσβασης στο BOAI, τη δήλωση Bethesda σχετικά με τις εκδόσεις ανοικτής πρόσβασης και τη δήλωση του Βερολίνου για την ανοικτή πρόσβαση στη γνώση στις επιστήμες και τις ανθρωπιστικές επιστήμες. Τα δικαιώματα επαναχρησιμοποίησης του libre OA συχνά καθορίζονται από διάφορες ειδικές άδειες Creative Commons. σχεδόν όλα αυτά απαιτούν την απόδοση συγγραφής στους αρχικούς συγγραφείς.
Το έγγραφο που κυκλοφόρησε τον Φεβρουάριο του 2002 από το BOAI περιέχει τον ακόλουθο ευρέως διαδεδομένο ορισμό:
- Με τον όρο “ανοιχτή πρόσβαση” σε αυτήν τη βιβλιογραφία, εννοούμε τη δωρεάν διαθεσιμότητά της στο δημόσιο διαδίκτυο, επιτρέποντας σε όλους τους χρήστες να διαβάζουν, να κατεβάζουν, να αντιγράφουν, να διανέμουν, να εκτυπώνουν, να αναζητούν ή να συνδέουν τα πλήρη κείμενα αυτών των άρθρων, να τα ανιχνεύουν για ευρετηρίαση , να τα μεταβιβάσετε ως δεδομένα στο λογισμικό ή να τα χρησιμοποιήσετε για οποιονδήποτε άλλο νόμιμο σκοπό, χωρίς οικονομικούς, νομικούς ή τεχνικούς φραγμούς, εκτός από αυτούς που είναι αδιαχώριστοι από την απόκτηση πρόσβασης στο ίδιο το Διαδίκτυο. Ο μόνος περιορισμός για την αναπαραγωγή και διανομή και ο μόνος ρόλος για τα πνευματικά δικαιώματα σε αυτόν τον τομέα, θα πρέπει να είναι να δοθεί στους συγγραφείς ο έλεγχος της ακεραιότητας του έργου τους και του δικαιώματος να αναγνωρίζονται και να αναφέρονται σωστά.
Λαμβάνοντας υπόψη τις παραπάνω πληροφορίες, η χρήση επιστημονικών πόρων ανοιχτού κώδικα πρέπει να ακολουθεί τους κανόνες που χρησιμοποιούνται συνήθως. Η δημοσίευση επιστημονικών πόρων ανοιχτού κώδικα πρέπει επίσης να αναφέρει σαφώς εάν είναι δωρεάν ή δωρεάν και πρέπει να αποδοθούν στον αρχικό συγγραφέα.
Εισαγωγή στα δεδομένα (βασικό επίπεδο)
Τι είναι τα «δεδομένα»
Σύμφωνα με το λεξικό Merriam-Webster, υπάρχουν τρεις διαφορετικοί ορισμοί δεδομένων:
- Πραγματικές πληροφορίες, όπως μετρήσεις ή στατιστικές, που χρησιμοποιούνται ως βάση για συλλογισμό, συζήτηση ή υπολογισμό
- Πληροφορίες σε ψηφιακή μορφή που μπορούν να μεταδοθούν ή να υποβληθούν σε επεξεργασία
- Οι πληροφορίες που παρέχονται από μια συσκευή ή όργανο ανίχνευσης που περιλαμβάνουν χρήσιμες και άσχετες ή περιττές πληροφορίες και πρέπει να υποβάλλονται σε επεξεργασία για να έχουν νόημα
Σε αυτό το έγγραφο θα καλύψουμε τους περισσότερους από τους τρεις ορισμούς.
Μια σύντομη ανασκόπηση των δεδομένων
Από τότε που οι άνθρωποι άρχισαν να επικοινωνούν, βίωσαν την ανάγκη να διατηρήσουν πληροφορίες για μακροπρόθεσμο ορίζοντα. Η διατήρηση πληροφοριών ήταν απαραίτητη για τους προγόνους μας για να διασφαλίσουν την επιβίωσή τους. Η μετάδοση πληροφοριών από γενιά σε γενιά τους επέτρεψε να παρακολουθούν τους πιθανούς κινδύνους, αλλά και να καταγράφουν τα καλύτερα μέρη για τη συλλογή τροφίμων, τα καλύτερα σημεία για ψάρεμα, τα πιο ενδιαφέροντα ζώα για κυνήγι και πού να βρουν τα καλύτερα καταφύγια. Όλες αυτές οι πληροφορίες διαβιβάστηκαν προφορικά. Με την εξέλιξη της γνώσης και την εφεύρεση της γραφής, άρχισαν να αποθηκεύουν πληροφορίες σε ανεξίτηλα μέσα.
Χωρίς να υπεισέλθουμε σε λεπτομέρειες σχετικά με την εξέλιξη της αναπαράστασης της πληροφορίας, θα παρασχεθούν ορισμένα σημαντικά παραδείγματα που βοήθησαν στη δομή της σκέψης, τα οποία οδήγησαν στην ανακάλυψη των εργαλείων υπολογιστών που χρησιμοποιούμε καθημερινά.
Τα δεδομένα πριν από την εφεύρεση των υπολογιστών
Καθώς εμφανίστηκαν οι ανθρώπινες κοινωνίες, τα συλλογικά κίνητρα για την ανάπτυξη της γραφής καθοδηγήθηκαν από πραγματιστικές ανάγκες. Αυτές περιλαμβάνουν την οργάνωση και τη διακυβέρνηση των κοινωνιών μέσω της διαμόρφωσης νομικών συστημάτων, συμβάσεων, ιδιοκτησιών, φορολογίας, εμπορικών συμφωνιών, συνθηκών, αρχείων απογραφής, τήρησης ιστορικού, διατήρησης πολιτισμού, παρακολούθησης επιστημονικών ανακαλύψεων, κωδικοποίησης γνώσεων μέσω αναλυτικών προγραμμάτων και καταλόγων κειμένων που είναι καλλιτεχνικά εξαιρετικά ή θεωρείται ότι περιέχουν θεμελιώδεις γνώσεις και πολλές άλλες ανάγκες.

Εικόνα1: Σφηνοειδής γραφή
Για παράδειγμα, γύρω στην 4η χιλιετία π.Χ., η πολυπλοκότητα του εμπορίου και της διοίκησης στη Μεσοποταμία ξεπέρασε την ανθρώπινη μνήμη και η γραφή έγινε μια πιο αξιόπιστη μέθοδος καταγραφής και παρουσίασης συναλλαγών σε μόνιμη μορφή.
Η σφηνοειδής γραφή ήταν ένα από τα πρώτα συστήματα γραφής, που εφευρέθηκε από τους Σουμέριους στην αρχαία Μεσοποταμία. Διακρίνεται από τα σφηνοειδή του σημάδια σε πήλινες πλάκες, κατασκευασμένα με τη βοήθεια ενός αμβλύ καλαμιού για μια γραφίδα, όπως αποδεικνύεται στην Εικόνα 1.
Με την πάροδο του χρόνου, η ανάπτυξη της γνώσης, ο πολλαπλασιασμός των πληροφοριών, ο περιορισμός της ανθρώπινης μνήμης, η αναγκαιότητα γραφής και τήρησης αρχείων για τεράστιες ποσότητες πληροφοριών έχει γίνει απαραίτητη. Ωστόσο, παρά την καταγραφή σχεδόν κάθε είδους πληροφοριών ή δεδομένων σε διάφορα μέσα, έγινε όλο και πιο περίπλοκο να ανακτηθούν με απλό τρόπο. Κάποιος έπρεπε να διαβάσει δεκάδες εκθέσεις και βιβλία για να μπορέσει να συνθέσει ένα θέμα.
Τα δεδομένα στην σύγχρονη εποχή
Σήμερα, η ποσότητα των δεδομένων που παράγονται κάθε χρόνο και διατηρούνται ψηφιακά, π.χ. λίστες υποχρεώσεων, συνταγές, υπενθυμίσεις, ημερολόγια, χάρτες, φωτογραφίες, e-mail, επιστημονικά δεδομένα, πολιτικές εκθέσεις, βίντεο κ.λπ. είναι τόσο εκθετικές που δημιουργεί την ανάγκη να δομήσουμε τον τρόπο με τον οποίο μπορούμε να ανακτήσουμε αυτά τα φαινομενικά μεγέθη.
Οι υπολογιστές κέρδισαν δημοτικότητα και έγιναν οικονομικά αποδοτικοί στη χρήση από ιδιώτες και ιδιωτικές εταιρείες στις αρχές της δεκαετίας του ’80. Ωστόσο, η δεκαετία του ’60 μπορεί να θεωρηθεί ως η νέα εποχή στον τομέα των βάσεων δεδομένων. Η εισαγωγή του όρου “βάση δεδομένων” συνέπεσε με τη διαθεσιμότητα αποθήκευσης άμεσης πρόσβασης ή DAS, από τα μέσα της δεκαετίας του ’60 και μετά. Αυτή η νέα τεχνολογία αντιπροσώπευε μια αντίθεση με τις προηγούμενες κάρτες διάτρησης και τα συστήματα με βάση την ταινία, επιτρέποντας κοινή διαδραστική χρήση και όχι καθημερινή παρτίδα. Δύο κύρια μοντέλα δεδομένων αναπτύχθηκαν – το μοντέλο δικτύου “CODASYL” (Συνέδριο για τη γλώσσα του συστήματος δεδομένων) και το ιεραρχικό μοντέλο “IMS” (Σύστημα Διαχείρισης Πληροφοριών).
Η πρώτη γενιά συστημάτων βάσεων δεδομένων ήταν «πλοήγηση, σε αντίθεση με τη διαδοχική πρόσβαση λόγω των προηγούμενων τεχνολογιών που χρησιμοποιήθηκαν για την αποθήκευση δεδομένων, δηλαδή ταινίες και κάρτες διάτρησης. Οι εφαρμογές συνήθως είχαν πρόσβαση στα δεδομένα ακολουθώντας δείκτες από τη μία εγγραφή στην άλλη. Τα στοιχεία αποθήκευσης εξαρτώνταν από τον τύπο των δεδομένων που θα αποθηκευτούν.
Η προσθήκη ενός επιπλέον πεδίου σε μια βάση δεδομένων απαιτούσε επανεγγραφή του υποκείμενου σχεδίου πρόσβασης/τροποποίησης. Έμφαση δόθηκε στα αρχεία που θα επεξεργαστούν και όχι στη συνολική δομή του συστήματος. Ένας χρήστης θα πρέπει να γνωρίζει τη φυσική δομή της βάσης δεδομένων για να ζητήσει πληροφορίες. Μια βάση δεδομένων που αποδείχθηκε εμπορική επιτυχία ήταν το σύστημα «SABER» που χρησιμοποιήθηκε από την IBM για να βοηθήσει τις American Airlines να διαχειριστούν τα δεδομένα των κρατήσεών της. Αυτό το σύστημα εξακολουθεί να χρησιμοποιείται από τις μεγάλες ταξιδιωτικές υπηρεσίες για τα συστήματα κρατήσεών τους.
Στη σύγχρονη τεχνολογία πληροφοριών, υπήρχε πάντα σύγχυση μεταξύ των χρηστών μεταξύ βάσεων δεδομένων και διαδικτυακών μηχανών αναζήτησης στο διαδίκτυο στα οποία έχουν πρόσβαση τα προγράμματα περιήγησης. Μια βάση δεδομένων περιέχει συνήθως δομημένα δεδομένα, σε αντίθεση με τον Παγκόσμιο Ιστό (www), που συνήθως περιέχει μη δομημένα δεδομένα. Ακόμα κι αν η ανάκτηση πληροφοριών τόσο από τις βάσεις δεδομένων όσο και από το “www” είναι απρόσκοπτη και μοιάζει παρόμοια, το περιεχόμενο και ο τρόπος με τον οποίο απευθύνονται τα ερωτήματα είναι εντελώς διαφορετικά. Τα δομημένα και μη δομημένα δεδομένα θα εξηγηθούν αργότερα σε αυτό το έγγραφο.
Κατανόηση του βασικού λεξιλογίου
Ορολογία
Όπως κάθε άλλη επιστήμη, η επιστήμη των υπολογιστών έχει τη δική της γλώσσα. Για να κατανοήσετε πλήρως τις πληροφορίες που θα παρέχονται σε αυτό το έγγραφο, είναι απαραίτητο να εξοικειωθείτε με το λεξιλόγιο που σχετίζεται με αυτό το θέμα.
Επιπλέον, η επικοινωνία με έναν DBA (Διαχειριστής βάσης δεδομένων) θα διευκολυνθεί. Όταν ένας Βιοχημικός θα πρέπει να εκφράσει τις ανάγκες του όσον αφορά τη δομή ή τη διαχείριση δεδομένων σε μια βάση δεδομένων, θα μπει στον πειρασμό να χρησιμοποιήσει τη δική του τεχνική γλώσσα. Στη συνέχεια, το DBA θα πρέπει να κατανοήσει το αίτημα και να το μετατρέψει σε γλώσσα υπολογιστή, η οποία θα είναι κατανοητή από τους βιοχημικούς.
Τι είναι τα δεδομένα στην υπολογιστική εποχή

Όπως αναφέρεται στην ενότητα 2.1, σύμφωνα με τον τομέα στον οποίο αναφέρεται, τα δεδομένα ενδέχεται να έχουν διαφορετική σημασία. Στην περίπτωση των υπολογιστών και των βάσεων δεδομένων, τα δεδομένα ορίζονται ως οποιαδήποτε ακολουθία ενός ή περισσοτέρων συμβόλων. Τα δεδομένα απαιτούν ερμηνεία για να γίνουν πληροφορίες. Στην τεχνολογία των πληροφοριών, το “bit” είναι η μικρότερη ποσότητα δεδομένων. Ένα κομμάτι είναι δυαδικό. Οι δυαδικοί αριθμοί είναι μια αναπαράσταση αριθμών που χρησιμοποιούν μόνο δύο ψηφία, 0 και 1 (Εικ. 2). Είναι ένα αριθμητικό σύστημα βάσης 2, δηλαδή:
- 0 0 0 1 = αριθμητική τιμή 20
- 0 0 1 0 = αριθμητική τιμή 21
- 0 1 0 0 = αριθμητική τιμή 22
- 1 0 0 0 = αριθμητική τιμή 23

Μια ακολουθία “bits” αποτελεί “Byte”. Τα bytes αποτελούνται από πολλαπλάσιο των 4 bits (ένα byte των 4 bits ονομάζεται Nibble) όπως στο παραπάνω παράδειγμα. Σήμερα, το byte είναι μια μονάδα ψηφιακών πληροφοριών που συνηθέστερα αποτελείται από οκτώ bit. Ιστορικά, το byte ήταν ο αριθμός των bit που χρησιμοποιήθηκαν για την κωδικοποίηση ενός χαρακτήρα κειμένου σε έναν υπολογιστή. Με ένα byte οκτώ bits, ο μέγιστος δεκαδικός αριθμός είναι 256. Ιστορικά, το byte είναι επίσης η μονάδα πληροφοριών υπολογιστή ή χωρητικότητας αποθήκευσης δεδομένων που χρησιμοποιείται για τη μέτρηση της ποσότητας δεδομένων (Πίνακας 1).

Ένα παράδειγμα χρήσης είναι ο πίνακας χαρακτήρων ASCII (American Standard Code for Information Interchange) που χρησιμοποιείται συνήθως για αλφαβητικούς χαρακτήρες (Πίνακας 2). Οι πρώτοι 32 χαρακτήρες ονομάζονται χαρακτήρες ελέγχου. Αρχικά, δεν σχεδιάστηκαν για να αντιπροσωπεύουν εκτυπώσιμες πληροφορίες, αλλά για τον έλεγχο συσκευών που χρησιμοποιούν κώδικα ASCII, όπως εκτυπωτές, ή για την παροχή μετα-πληροφοριών σχετικά με τις ροές δεδομένων, π.χ. αυτές που είναι αποθηκευμένες σε μαγνητική ταινία.
Τι είναι τα «μεταδεδομένα»

Τα μεταδεδομένα, ή, απλά, οι μετα-πληροφορίες, χρησιμοποιούνται για την αναφορά των δεδομένων σχετικά με τα δεδομένα. Η κατοχή δεδομένων δεν αρκεί για να τα θέσουμε απλά στο διαδίκτυο. Τα δεδομένα δεν μπορούν να χρησιμοποιηθούν έως ότου εξηγηθούν με τρόπο που μπορούν να επεξεργαστούν τόσο οι άνθρωποι όσο και οι υπολογιστές.
Τα μεταδεδομένα μπορεί να υπονοούνται, να καθορίζονται ή να δίνονται. Περιλαμβάνει δεδομένα που σχετίζονται με φυσικά γεγονότα ή διαδικασίες και θα έχει επίσης ένα χρονικό συστατικό. Σε όλες σχεδόν τις περιπτώσεις αυτό το χρονικό στοιχείο υπονοείται. Μπορεί να είναι λίγο δύσκολο να το καταλάβουμε, ωστόσο, το ακόλουθο παράδειγμα θα δώσει μια σαφέστερη εξήγηση αυτού του όρου.

Μεταδεδομένα της φωτογραφίας
Φανταστείτε ότι ταξιδεύετε με το αγαπημένο σας smartphone σε κάποιο παράδεισο νησί. Αρχίζετε να τραβάτε φωτογραφίες (Εικ. 3) για να κρατήσετε ωραία αρχεία του ταξιδιού σας. Μια εβδομάδα αργότερα, το ταξίδι σας φτάνει στο τέλος του και πρέπει να επιστρέψετε στο σπίτι.
Επιστρέφοντας στο σπίτι, καλείτε τους καλύτερους φίλους σας για ένα πάρτι και θέλετε να μοιραστείτε μαζί τους τις ομορφιές που έχετε δει κατά τη διάρκεια του ταξιδιού σας. Αρχίζετε να εμφανίζετε τις εικόνες, αλλά δεν μπορείτε να θυμηθείτε ποια μέρα, τι ώρα και πού τραβήχτηκαν μερικές από αυτές. Αυτό είναι όπου τα μεταδεδομένα των εικόνων μπορούν να βοηθήσουν. Με λίγα λόγια, είναι η περιγραφή των δεδομένων. Σε αυτό το παράδειγμα, η εικόνα είναι τα δεδομένα και η περιγραφή της εικόνας είναι τα μεταδεδομένα (Εικ. 4).
Στη Βιοτεχνολογία, πρέπει να καταλάβουμε ότι τα μεταδεδομένα είναι μακράν πιο σημαντικά από τα δεδομένα. Είναι πολύ απλό να κατανοήσουμε τον λόγο για τον οποίο τα μεταδεδομένα είναι ένα κρίσιμο συστατικό που σχετίζεται άμεσα με τα δεδομένα. Φανταστείτε ένα πείραμα που θα οδηγήσει σε ένα συγκεκριμένο αποτέλεσμα. Αυτό το πείραμα, για να είναι έγκυρο, πρέπει να τεκμηριωθεί. Αυτή η τεκμηρίωση πρέπει να περιλαμβάνει όλες τις συνθήκες, υπό τις οποίες πραγματοποιήθηκε το πείραμα. Αυτό μπορεί να περιλαμβάνει την περιγραφή του είδους της πρώτης ύλης που χρησιμοποιήθηκε, την πηγή της, υπό ποιες συνθήκες συλλέχθηκε, τους τύπους μηχανών για την επεξεργασία του πειράματος, τη θερμοκρασία, την ημερομηνία, την ώρα κ.λπ. Για να είναι το αποτέλεσμα αυτού του πειράματος συγκρίσιμο με άλλα αποτελέσματα παρόμοιων πειραμάτων, όλες οι συνθήκες πρέπει να είναι παρόμοιες. Τα ωμά δεδομένα χωρίς μεταδεδομένα είναι άχρηστα.
Η μεγαλύτερη πρόκληση στη βιοτεχνολογία, και σε οποιαδήποτε άλλη επιστήμη, είναι η τυποποίηση των μεταδεδομένων. Στις περισσότερες βάσεις δεδομένων της βιοτεχνολογίας, αυτό δεν τηρείται. Πρέπει κανείς να έχει απόλυτη συνείδηση αυτού του φαινομένου και να σέβεται πλήρως τα πρότυπα.
Τι είναι μια «Βάση δεδομέων»

Σε γενικές γραμμές, μια βάση δεδομένων ορίζεται ως μια συλλογή στοιχείων δεδομένων, όπως τηλεφωνικοί κατάλογοι, τιμοκατάλογοι, λίστες αποθεμάτων, διευθύνσεις πελατών κ.λπ. Ωστόσο, από τεχνική άποψη, μια βάση δεδομένων αναφέρεται ως «μια αυτο-περιγραφόμενη συλλογή ολοκληρωμένων ρεκόρ ». Υπονοεί τεχνολογία υπολογιστών, συμπληρωμένη με μια συγκεκριμένη γλώσσα υπολογιστών, όπως η SQL (Structured Query Language).
Μια βάση δεδομένων αποτελείται από πολλούς πίνακες (Εικ. 5) και από δεδομένα και μεταδεδομένα. Τα μεταδεδομένα είναι τα δεδομένα που περιγράφουν τη δομή των δεδομένων μέσα σε μια βάση δεδομένων. Εάν γνωρίζετε πώς είναι τακτοποιημένα τα δεδομένα σας, τότε μπορείτε να τα ανακτήσετε. Δεδομένου ότι η βάση δεδομένων περιέχει μια περιγραφή της δικής της δομής, αναφέρεται ως αυτο-περιγραφόμενη. Η βάση δεδομένων είναι ενσωματωμένη επειδή δεν περιλαμβάνει μόνο στοιχεία δεδομένων αλλά και τις σχέσεις μεταξύ τους.
Η βάση δεδομένων αποθηκεύει μεταδεδομένα σε μια περιοχή που ονομάζεται λεξικό δεδομένων, η οποία περιγράφει πίνακες, στήλες, ευρετήρια, περιορισμούς και άλλα στοιχεία που αποτελούν τη βάση δεδομένων.
Επειδή ένα επίπεδο αρχείο αρχείων, δηλαδή το “Spreadsheet” δεν έχει μεταδεδομένα, οι εφαρμογές που έχουν γραφτεί για να λειτουργούν με επίπεδα αρχεία πρέπει να περιέχουν το ισοδύναμο των μεταδεδομένων ως μέρος του προγράμματος εφαρμογής.
Τι είναι οι «Πίνακες» σε μια βάση δεδομένων
Ένας πίνακας είναι μια συλλογή σχετικών δεδομένων που διατηρούνται σε μορφή πίνακα που αποτελείται από στήλες και σειρές μέσα σε μια βάση δεδομένων. Μοιάζει με υπολογιστικό φύλλο (Εικ. 6).
Τι είναι οι «Στήλες» σε μια βάση δεδομένων

Μια στήλη είναι ένα σύνολο τιμών δεδομένων, όλες ενός τύπου, σε έναν πίνακα. Οι στήλες ορίζουν τα δεδομένα σε έναν πίνακα. Οι περισσότερες βάσεις δεδομένων επιτρέπουν στις στήλες να περιέχουν πολύπλοκα δεδομένα, όπως εικόνες, ολόκληρα έγγραφα ή ακόμη και βίντεο κλιπ. Επομένως, μια στήλη που επιτρέπει τιμές δεδομένων ενός τύπου δεν σημαίνει απαραίτητα ότι έχει μόνο απλές τιμές κειμένου. Ορισμένες βάσεις δεδομένων προχωρούν ακόμη περισσότερο και επιτρέπουν την αποθήκευση των δεδομένων ως αρχείο στο λειτουργικό σύστημα, ενώ τα δεδομένα της στήλης περιέχουν μόνο δείκτη ή σύνδεσμο προς το πραγματικό αρχείο. Αυτό γίνεται με σκοπό τη διατήρηση του συνολικού μεγέθους της βάσης δεδομένων – ένα μικρότερο μέγεθος βάσης δεδομένων σημαίνει λιγότερο χρόνο που απαιτείται για τη δημιουργία αντιγράφων ασφαλείας και λιγότερο χρόνο που απαιτείται για την αναζήτηση δεδομένων μέσα στη βάση δεδομένων.
Σε έναν πίνακα, σε κάθε στήλη εκχωρείται τυπικά ένας τύπος δεδομένων και άλλοι περιορισμοί, οι οποίοι καθορίζουν τον τύπο της τιμής που μπορεί να αποθηκευτεί σε αυτήν τη στήλη. Για παράδειγμα, μια στήλη ενδέχεται να δέχεται διευθύνσεις ηλεκτρονικού ταχυδρομείου και μια άλλη μπορεί να δέχεται αριθμούς τηλεφώνου με περιορισμό 10 ψηφίων.
Τι είναι μια «Εγγραφή»
Μια εγγραφή είναι μια αναπαράσταση ενός φυσικού ή εννοιολογικού αντικειμένου. Πείτε, για παράδειγμα, ότι θέλετε να παρακολουθείτε τους πελάτες μιας επιχείρησης. Εκχωρείτε μια εγγραφή για κάθε πελάτη. Κάθε εγγραφή έχει πολλά χαρακτηριστικά, όπως όνομα, διεύθυνση και αριθμό τηλεφώνου. Μεμονωμένα ονόματα, διευθύνσεις και ούτω καθεξής είναι τα δεδομένα.
Τι είναι τα «Ευρετήρια»

Τα δομημένα δεδομένα αποθηκεύονται με τη μορφή εγγραφών σε μια βάση δεδομένων. Κάθε εγγραφή έχει ένα βασικό πεδίο, το οποίο το βοηθά να αναγνωρίζεται μοναδικά, δηλαδή το αναγνωριστικό ενός ασθενούς. Κανένας άλλος ασθενής δεν μπορεί να έχει τον ίδιο αριθμό ταυτότητας, αλλά άλλος ασθενής μπορεί να έχει το ίδιο όνομα και επώνυμο.
Η ευρετηρίαση μιας βάσης δεδομένων είναι μια τεχνική για την αποτελεσματική ανάκτηση εγγραφών από τα αρχεία της βάσης δεδομένων, με βάση ορισμένα χαρακτηριστικά στα οποία έχει εκτελεστεί η ευρετηρίαση. Για να το κάνουμε απλό, η ευρετηρίαση στα συστήματα βάσεων δεδομένων είναι παρόμοια με αυτήν που συνήθως βλέπουμε στα βιβλία. Στην αρχή ή στο τέλος ενός βιβλίου, μπορεί να βρεθεί ένα ευρετήριο (το οποίο διαφέρει από έναν πίνακα περιεχομένων), το οποίο παρέχει όλους τους αριθμούς σελίδων για ένα συγκεκριμένο θέμα. Για παράδειγμα, ένας Άτλας μπορεί να χωριστεί σε κεφάλαια που περιέχουν χάρτες, κεφάλαια που περιέχουν δεδομένα για τον πληθυσμό και κεφάλαια αφιερωμένα σε δεδομένα παραγωγής ή γεωργίας χωρών. Εάν ψάχνετε για μια συγκεκριμένη χώρα και θα θέλατε να έχετε μια επισκόπηση όλων των δεδομένων που αφορούν τη συγκεκριμένη χώρα, το ευρετήριο μπορεί να είναι πολύ χρήσιμο καθώς θα σας δείχνει τη σελίδα που σχετίζεται με τη συγκεκριμένη χώρα σε κάθε κεφάλαιο (Εικ. 7).
Τι είναι ένα «Αντικείμενο»
Στην επιστήμη των υπολογιστών, ένα αντικείμενο μπορεί να είναι μια μεταβλητή, μια δομή δεδομένων, μια συνάρτηση ή μια μέθοδος και, ως εκ τούτου, είναι μια τιμή στη μνήμη που αναφέρεται από ένα αναγνωριστικό. Στο σχεσιακό μοντέλο διαχείρισης βάσης δεδομένων, ένα αντικείμενο μπορεί να είναι ένας πίνακας ή στήλη, ή μια συσχέτιση μεταξύ δεδομένων και οντότητας βάσης δεδομένων, όπως η σχέση ηλικίας ενός ατόμου με ένα συγκεκριμένο άτομο.
Δομημένα δεδομένα

Σύμφωνα με το SNIA (Storage Networking Industry Association), τα δομημένα δεδομένα ορίζονται ως:
«Δεδομένα που οργανώνονται και διαμορφώνονται με γνωστό και σταθερό τρόπο.»
Η μορφή και η οργάνωση ορίζονται συνήθως σε ένα σχήμα. Ο όρος δομημένα δεδομένα συνήθως νοείται ως δεδομένα που παράγονται και διατηρούνται από βάσεις δεδομένων και επιχειρηματικές εφαρμογές. ”
Απαιτούνται τρεις προϋποθέσεις για να περιγραφούν τα δεδομένα ως δομημένα:
- Πρέπει να συμμορφώνεται με ένα μοντέλο δεδομένων,
- Πρέπει να έχει μια καλά καθορισμένη δομή,
- Πρέπει να ακολουθεί μια συνεπή σειρά και να είναι εύκολα προσβάσιμη και να χρησιμοποιείται από ένα άτομο ή ένα πρόγραμμα υπολογιστή.
Τα δομημένα δεδομένα συνήθως αποθηκεύονται σε καλά καθορισμένα σχήματα όπως οι βάσεις δεδομένων. Γενικά είναι πίνακας με στήλες και σειρές που καθορίζουν σαφώς τα χαρακτηριστικά του (Εικ. 8).
Η SQL (γλώσσα δομημένου ερωτήματος) χρησιμοποιείται συχνά για τη διαχείριση δομημένων δεδομένων που είναι αποθηκευμένα σε βάσεις δεδομένων.
Αδόμητα δεδομένα

Οι πληροφορίες που δεν είναι οργανωμένες σε ένα προκαθορισμένο μοντέλο ονομάζονται μη δομημένα δεδομένα ή μη δομημένες πληροφορίες. Στην επιστήμη των υπολογιστών, αρχεία όπως αρχεία κειμένου, φωτογραφίες, αρχεία βίντεο, αρχεία ήχου και παρουσιάσεις θεωρούνται αρχεία χωρίς δομή. Συνήθως, ένα αρχείο PDF περιέχει μη δομημένα δεδομένα (Εικ. 9).
Υπολογίζεται ότι το 80 έως 90% των παγκόσμιων συνολικών αποϋλοποιημένων δεδομένων είναι αδόμητο. Οι συνηθισμένοι αλγόριθμοι ερωτημάτων δεν είναι σε θέση να εξαγάγουν απλά και αποτελεσματικά τις απαιτούμενες πληροφορίες από ένα μη δομημένο αρχείο, όπως στο παράδειγμα του σχήματος 9. Οι ίδιες πληροφορίες που περιέχονται στο σχήμα 9 μπορούν εύκολα να ανακτηθούν με ένα ερώτημα. Ωστόσο, σήμερα, διατίθενται μη δομημένα εργαλεία ανάλυσης δεδομένων που υποστηρίζονται από τεχνητή νοημοσύνη (AI), τα οποία δημιουργήθηκαν ειδικά για πρόσβαση στις διαθέσιμες πληροφορίες από μη δομημένα δεδομένα (βλ. 3.1.12 Analytics).
Μεγάλα δεδομένα (Big data)
Σύμφωνα με το SNIA (Storage Networking Industry Association), τα μεγάλα δεδομένα ορίζονται ως:
“Ένας χαρακτηρισμός συνόλων δεδομένων που είναι πολύ μεγάλα για να υποστούν αποτελεσματική επεξεργασία στο σύνολό τους από τις πιο ισχυρές τυπικές διαθέσιμες υπολογιστικές πλατφόρμες.”
Με άλλα λόγια, τα Big Data αναφέρονται σε τεράστιες ποσότητες δομημένων ή μη δομημένων δεδομένων που δεν μπορούν να υποβληθούν σε επεξεργασία από το συνηθισμένο λογισμικό ως παραδοσιακή γλώσσα ερωτήματος βάσης δεδομένων ή οποιοδήποτε άλλο είδος λήψης μηχανών.
Υπάρχει σύγχυση σχετικά με την τρέχουσα χρήση των όρων Big Data και Analytics. Τα Big Data είναι οι πληροφορίες, ενώ το Analytics είναι ο τρόπος εξαγωγής των επιθυμητών πληροφοριών από τεράστιες ποσότητες διαθέσιμων πληροφοριών.
Αναλυτικά στοιχεία (Analytics)
Στην τεχνολογία υπολογιστών, το Analytics είναι μια μέθοδος εξαγωγής αξίας από μεγάλα δεδομένα.
Στον τομέα της υγειονομικής περίθαλψης, η Big Data Analytics έχει οδηγήσει σε πολλές βελτιώσεις παρέχοντας εξατομικευμένη ιατρική και προγνωστικά αναλυτικά στοιχεία. Καθώς ο όγκος των δεδομένων αυξάνεται δραματικά, οι παραδοσιακές βάσεις δεδομένων και οι μηχανές αναζήτησης δεν θα είναι σε θέση να χειριστούν και να ανακτήσουν συγκεκριμένες πληροφορίες. Τα δεδομένα των ασθενών δημιουργούνται από μαγνητική τομογραφία, ακτίνες Χ, μηχανήματα αιματολογικών εξετάσεων, αισθητήρες παρακολούθησης και πολλές άλλες πηγές συμπλεγμάτων δεδομένων προς επεξεργασία. Εκτενείς πληροφορίες στον τομέα της υγειονομικής περίθαλψης είναι πλέον σε ηλεκτρονική μορφή. ταιριάζει κάτω από τη μεγάλη ομπρέλα δεδομένων καθώς τα περισσότερα είναι αδόμητα και δύσκολα στη χρήση.
Τα μεγάλα δεδομένα στην έρευνα για την υγεία είναι ιδιαίτερα ελπιδοφόρα όσον αφορά τη διερευνητική βιοϊατρική έρευνα, καθώς η ανάλυση βάσει δεδομένων μπορεί να προχωρήσει πιο γρήγορα από την έρευνα που βασίζεται σε υποθέσεις. Στη συνέχεια, οι τάσεις που παρατηρούνται στην ανάλυση δεδομένων μπορούν να δοκιμαστούν στην παραδοσιακή, βασισμένη σε υποθέσεις, βιολογική έρευνα και τελικά κλινική έρευνα.
Αποθήκευση
Ένα αποθετήριο δεδομένων ή μια αποθήκη δεδομένων είναι ένα κεντρικό μέρος για την αποθήκευση και τη διατήρηση δεδομένων. Ένα αποθετήριο δεδομένων μπορεί να αποτελείται από ένα ή περισσότερα δομημένα αρχεία δεδομένων, όπως βάσεις δεδομένων ή μη δομημένα αρχεία δεδομένων, τα οποία μπορούν να διανεμηθούν σε ένα δίκτυο και να διατηρηθούν μακροπρόθεσμα.
Βασική δομή μιας βάσης δεδομένων
Αυτό το τμήμα είναι αφιερωμένο στην επισκόπηση των κύριων δομικών στοιχείων που αποτελούν μια βάση δεδομένων.
Εισαγωγή
Από την εφεύρεση των υπολογιστών, η ποσότητα των δεδομένων που αποθηκεύονται και διαχειρίζονται ηλεκτρονικά έχει αυξηθεί δραστικά. Εκτιμάται ότι η ποσότητα των δεδομένων θα φτάσει τα 175 zettabytes (1021 Bytes) έως το 2025, αυξάνοντας από μερικά petabytes (1015 Bytes) το έτος 2000. Ένας κοινός τρόπος απλοποίησης της ζωής των χρηστών και αξιοποίησης των πόρων τους στο έπακρο είναι αποθήκευση και ανάκτηση του πιο αποτελεσματικά. Για παράδειγμα, ενώ ένα επίπεδο αρχείο λειτουργεί πολύ καλά για την αποθήκευση των προσωπικών σας δεδομένων, όπως ένα βιβλίο διευθύνσεων ή κάποιες συνταγές, δεν είναι τόσο κατάλληλο για την αποθήκευση ενός τηλεφωνικού καταλόγου πόλης ή, πιο συγκεκριμένα, των γονιδιωματικών δεδομένων στο πεδίο της βιοτεχνολογίας. Επιπλέον, εάν θέλετε να αποθηκεύσετε πολλά γονιδιωματικά είδη αξίας δεδομένων, είναι πολύ δύσκολο να αναζητήσετε και να ανακτήσετε δεδομένα από ένα επίπεδο αρχείο. Οι βάσεις δεδομένων προσφέρουν μια λύση σε αυτό το πρόβλημα κάνοντας την αποθήκευση, το χειρισμό και την ανάκτηση δεδομένων πολύ πιο εύκολη.
Το λογισμικό που χρησιμοποιείται για τη διαχείριση μιας βάσης δεδομένων ονομάζεται σύστημα διαχείρισης βάσεων δεδομένων (DBMS). Αυτό το εξειδικευμένο λογισμικό λειτουργεί ενδιάμεσα για να βοηθήσει τους τελικούς χρήστες να έχουν πρόσβαση στη βάση δεδομένων. Συνήθως, οι χρήστες δεν αλληλοεπιδρούν άμεσα με μια βάση δεδομένων, επειδή αυτό μπορεί να οδηγήσει σε αποδιοργάνωση της. Αντ ‘αυτού, χρησιμοποιούν ένα DBMS που διαβάζει δεδομένα από ή γράφει δεδομένα στη βάση δεδομένων.
Η αυξανόμενη πολυπλοκότητα μεγάλων ποσοτήτων δεδομένων απαιτούσε από ορισμένες εταιρείες να χρησιμοποιούν εργαλεία διαχείρισης δεδομένων με βάση το σχεσιακό μοντέλο, όπως το κλασικό RDMBS. Το RDBMS σημαίνει Σύστημα Διαχείρισης Σχεσιακών Βάσεων Δεδομένων. Παρ ‘όλα αυτά, μεγάλες εταιρείες Διαδικτύου, όπως η Google, η Yahoo και η Amazon ή όλα τα δημοφιλή Social Media, αντιμετώπισαν η κάθε μία πρόκληση στην αντιμετώπιση τεράστιων ποσοτήτων δεδομένων σε πραγματικό χρόνο, κάτι που οι συμβατικές λύσεις RDBMS δεν μπορούσαν να αντιμετωπίσουν. Αυτό εξηγεί την αυξανόμενη δημοτικότητα των συστημάτων βάσεων δεδομένων NoSQL που ξεπήδησαν παράλληλα.
Τα συστήματα NoSQL είναι κατανεμημένες, μη σχεσιακές βάσεις δεδομένων σχεδιασμένες για αποθήκευση δεδομένων μεγάλης κλίμακας και για μαζικά παράλληλη επεξεργασία δεδομένων υψηλής απόδοσης σε μεγάλο αριθμό διακομιστών βασικών προϊόντων. Προέκυψαν από την ανάγκη για ευκινησία, απόδοση και κλίμακα και μπορούν να υποστηρίξουν ένα ευρύ φάσμα περιπτώσεων χρήσης, συμπεριλαμβανομένων διερευνητικών και προγνωστικών αναλυτικών στοιχείων σε πραγματικό χρόνο. Χτισμένες από κορυφαίες εταιρείες Διαδικτύου για να συμβαδίζουν με τον κατακλυσμό δεδομένων, οι βάσεις δεδομένων NoSQL κλιμακώνονται οριζόντια και έχουν σχεδιαστεί για να κλιμακώνονται σε εκατοντάδες εκατομμύρια, ακόμη και δισεκατομμύρια χρήστες που εκτελούν ενημερώσεις καθώς και ανάγνωση.
Μερικές από τις κοινές εφαρμογές των βάσεων δεδομένων NoSQL είναι τα κοινωνικά μέσα, οι μεγάλης κλίμακας πάροχοι ηλεκτρονικού ταχυδρομείου και τα κυβερνητικά συστήματα υγειονομικής περίθαλψης.
Συνήθως, μια κοινωνική εφαρμογή μπορεί να κλιμακωθεί από μηδέν σε εκατομμύρια χρήστες σε λίγες εβδομάδες και για να διαχειριστεί καλύτερα αυτήν την ανάπτυξη, χρειάζεται κάποιος DB που μπορεί να διαχειριστεί τεράστιο αριθμό χρηστών και δεδομένων, αλλά μπορεί επίσης εύκολα να κλιμακωθεί οριζόντια.
Σε αυτό το μάθημα, θα εστιάσουμε μόνο στο DBMS και το RDBMS. Αυτά είναι τα δύο είδη βάσεων δεδομένων που χρησιμοποιούνται συνήθως στον κόσμο της βιοτεχνολογίας μέχρι σήμερα.
Επισκόπηση της αρχιτεκτονικής μιας βάσης δεδομένων

Οι βάσεις δεδομένων μπορούν να αποθηκεύσουν κάθε είδους πληροφορίες, από αριθμούς και κείμενο, έως email, περιεχόμενο στο διαδίκτυο, αρχεία τηλεφώνου, βιολογικά, γεωγραφικά δεδομένα κ.λπ. Οι βάσεις δεδομένων ταξινομούνται επίσημα ανάλογα με τον τρόπο που αποθηκεύουν αυτά τα δεδομένα. Σχετικές βάσεις δεδομένων αποθηκεύουν δεδομένα σε πίνακες. Οι αντικειμενοστραφείς βάσεις δεδομένων αποθηκεύουν δεδομένα σε κατηγορίες αντικειμένων και υποκατηγορίες. Θα επικεντρωθούμε στις σχεσιακές βάσεις δεδομένων, καθώς χρησιμοποιούνται συχνότερα. Ωστόσο, οι περισσότερες από τις βασικές τοπολογίες βάσεων δεδομένων πρέπει να έχουν διακομιστές backend για να φιλοξενήσουν το σύστημα διαχείρισης βάσεων δεδομένων, ένα σύστημα αποθήκευσης προσαρτημένο στους διακομιστές για την αποθήκευση της δομής και των δεδομένων της βάσης δεδομένων και, φυσικά, υπολογιστές, φορητούς υπολογιστές, επιτραπέζιους υπολογιστές ή τερματικά ως διεπαφή που επιτρέπει στους χρήστες να έχουν πρόσβαση στη βάση δεδομένων, στο σύστημα διαχείρισης και στο περιεχόμενό της. Απαιτείται επίσης ένα δίκτυο για ανταλλαγή μεταξύ όλων των στοιχείων υλικού και ένα συνημμένο Cloud που επιτρέπει στους απομακρυσμένους χρήστες να έχουν πρόσβαση στη βάση δεδομένων. Η Εικόνα 10 συνοψίζει με απλό τρόπο το ελάχιστο που απαιτείται για τη λειτουργία μιας βάσης δεδομένων.
Ένας άλλος βασικός τρόπος για να το περιγράψουμε, είναι να δείξουμε την αρχιτεκτονική τριών επιπέδων μιας βάσης δεδομένων. Είναι μια εικονική προβολή των απαραίτητων επιπέδων για να λειτουργήσει σωστά μια βάση δεδομένων. Η Εικόνα 11 παρουσιάζει την αρχιτεκτονική προβολής τριών επιπέδων. Ονομάζεται μοντέλο ANSI-SPARC. Παρ ‘όλα αυτά, παρά το γεγονός ότι αυτό το μοντέλο δεν έγινε ποτέ τυπικό πρότυπο, παρουσιάζει την ιδέα της λογικής ανεξαρτησίας δεδομένων που έχει υιοθετηθεί ευρέως.

Οι πληροφορίες που αποθηκεύονται μέσα σε μια σχεσιακή βάση δεδομένων περιέχονται σε πίνακες. Αυτοί οι πίνακες αποτελούνται από σειρές δεδομένων και κάθε γραμμή περιέχει πεδία ή στήλες. Σε έναν καλά σχεδιασμένο ορισμό βάσης δεδομένων, που ονομάζεται σχήμα, μόνο παρόμοια δεδομένα αποθηκεύονται σε κάθε πίνακα και οι διπλές στήλες διατηρούνται στο ελάχιστο. Οι προγραμματιστές μπορούν να συνδέσουν ή να ενώσουν δεδομένα από δύο πίνακες για να συνδέσουν διαφορετικούς τύπους πληροφοριών μεταξύ τους.
Τα ευρετήρια μπορούν να δημιουργηθούν σε πεδία στον πίνακα βάσεων δεδομένων για να διευκολυνθεί η ανάκτηση δεδομένων από το DBMS. Τα ευρετήρια διαμορφώνονται συνήθως για στήλες που αναζητούνται συχνά, όπως το όνομα ενός ατόμου ή μια τιμή ημερομηνίας. Το μειονέκτημα της χρήσης ευρετηρίων είναι ότι καταλαμβάνουν χώρο στο δίσκο αποθήκευσης και μπορούν να επιβραδύνουν τα πράγματα, αν διατηρηθούν πάρα πολλά από αυτά, επειδή κάθε φορά που ενημερώνεται μια σειρά στη βάση δεδομένων, πρέπει επίσης να ενημερώνεται το ευρετήριο.
Οι περισσότερες βάσεις δεδομένων υποστηρίζουν Structured Query Language (SQL), μια τυπική γλώσσα για αλληλεπίδραση με πληροφορίες που περιέχονται σε μια βάση δεδομένων. Το SQL επιτρέπει στους χρήστες και τις εφαρμογές να αλληλοεπιδρούν με συγκεκριμένα υποσύνολα δεδομένων από έναν ή περισσότερους πίνακες χρησιμοποιώντας διάφορες προτάσεις ως SELECT, INSERT, UPDATE και DELETE.
Οι σχεσιακές βάσεις δεδομένων παρέχουν επίσης μια πολυεπίπεδη προσέγγιση στην αποθήκευση, επιτρέποντας τον ορισμό του τι αντικείμενα βάσης δεδομένων βρίσκονται σε συγκεκριμένα αρχεία δεδομένων και πού αυτά τα αρχεία δεδομένων τοποθετούνται στη δομή αρχείων του λειτουργικού συστήματος. Εκτός από τη διαχείριση της φυσικής θέσης αποθήκευσης αντικειμένων βάσης δεδομένων, πολλά συστήματα βάσεων δεδομένων δίνουν κάποιο έλεγχο στον τρόπο αποθήκευσης των δεδομένων στα αρχεία δεδομένων.
Κοινές ορολογίες των βάσεων δεδομένων
Ορισμένοι όροι βάσης δεδομένων προέρχονται από τρόπους με τους οποίους οι βάσεις δεδομένων αυτοματοποιούν ενέργειες εγγραφής. Οι προγραμματιστές βάσεων δεδομένων συχνά αυτοματοποιούν τη γραφή σε ορισμένα πεδία ή άλλους πίνακες, όπως η εγγραφή ενός αντιγράφου της σειράς που εισάγεται – μαζί με μια χρονική σήμανση ή ένα όνομα χρήστη – σε έναν πίνακα ιστορικού ή ελέγχου. Τα περισσότερα συστήματα DBMS παρέχουν διάφορους τρόπους για την αυτόματη διαχείριση ενεργειών εγγραφής βάσης δεδομένων.
Οι ενεργοποιητές βάσης δεδομένων είναι η πιο συνηθισμένη μέθοδος ανάληψης ενεργειών στα δεδομένα καθώς γράφονται στη βάση δεδομένων. Οι ενεργοποιητές συνήθως σχετίζονται με έναν συγκεκριμένο πίνακα και διαμορφώνονται ώστε να εκτελούνται σε ένα συγκεκριμένο σημείο κατά τη διάρκεια μιας συγκεκριμένης ενέργειας εγγραφής, όπως πριν ή μετά από μια ενημέρωση ή μετά την εισαγωγή μιας σειράς. Οι ενεργοποιητές μπορούν να χρησιμοποιηθούν για τη μορφοποίηση δεδομένων, τη συμπλήρωση μιας στήλης με δεδομένα που προέρχονται από υπάρχουσες πληροφορίες ή ακόμα και την εγγραφή σε έναν άλλο πίνακα με βάση τη γραμμή που εισάγεται ή ενημερώνεται.
Μια αποθηκευμένη διαδικασία είναι ένας άλλος τρόπος αλληλεπίδρασης με μια σχεσιακή βάση δεδομένων. Οι αποθηκευμένες διαδικασίες είναι πιο περίπλοκες από τις ενεργοποιήσεις και δεν συνδέονται με έναν συγκεκριμένο πίνακα. Συνήθως δημιουργούνται από προγραμματιστή, χρησιμοποιούν συνδυασμό SQL και γλώσσας προγραμματισμού, όπως Java ή SQL (ανάλογα με την πλατφόρμα της βάσης δεδομένων). Οι αποθηκευμένες διαδικασίες παρέχουν στους προγραμματιστές πολύ έλεγχο στον τρόπο επικύρωσης ή μασάζ των δεδομένων από μια εφαρμογή. Μια αποθηκευμένη διαδικασία θα μπορούσε να χρησιμοποιηθεί για τη διαχείριση του τρόπου σύνδεσης ενός χρήστη σε μια εφαρμογή. Η διαδικασία μπορεί πρώτα να επικυρώσει το όνομα χρήστη και τον κωδικό πρόσβασης και, στη συνέχεια, να καταγράψει την επιτυχία ή την αποτυχία της προσπάθειας σε έναν άλλο πίνακα, μαζί με άλλες πληροφορίες, συμπεριλαμβανομένου του ονόματος του υπολογιστή και μιας χρονικής σήμανσης. Θα μπορούσε ακόμη και να σταλεί μια ειδοποίηση στον χρήστη που θα τον ενημερώνει ότι ο κωδικός πρόσβασης έχει λήξει και πρέπει να αλλάξει.
Οι συναρτήσεις είναι απλούστερες από την αποθηκευμένη διαδικασία και μερικές φορές μπορούν να χρησιμοποιηθούν ακόμη και μέσα από ερωτήματα SQL. Οι συναρτήσεις χρησιμοποιούνται συνήθως σε μια βάση δεδομένων για την εκτέλεση ενός συνόλου ενεργειών που επιστρέφουν μία ή περισσότερες τιμές, όπως ο υπολογισμός του αθροίσματος μιας στήλης για γραμμές που ταιριάζουν με μια συγκεκριμένη συνθήκη. Ενώ αυτές οι ενέργειες μπορούν να εκτελεστούν χρησιμοποιώντας SQL, η ενσωμάτωσή τους σε μια συνάρτηση μπορεί να τις κάνει πιο εύχρηστες σε άλλους κώδικες. Τόσο οι λειτουργίες όσο και οι αποθηκευμένες διαδικασίες μπορούν να εκτελέσουν κοινές ενέργειες με βελτιωμένο και συνεπή τρόπο, διευκολύνοντας τον φόρτο εργασίας για τους διαχειριστές και τους προγραμματιστές βάσεων δεδομένων.
Ποια είναι η διαφορά μεταξύ των κύριων συστημάτων DBMS;
Το DBMS γενικά καθορίζεται από αυτό που χρειάζονται οι εφαρμογές χρήστη για να υποστηρίξουν. Τούτου λεχθέντος, εδώ είναι μια σύντομη σύγκριση των τριών πιο ευρέως χρησιμοποιούμενων πλατφορμών.
Ο Microsoft SQL Server χρησιμοποιείται ευρέως σε εταιρικές εφαρμογές και ενσωματώνεται εύκολα με άλλα εργαλεία της Microsoft. Ο Microsoft SQL Server 2019 Express είναι η τελευταία έκδοση της δωρεάν προσφοράς της Microsoft και συχνά συνοδεύεται από εφαρμογές που χρησιμοποιούν SQL Server.
Το MySQL ήταν το αγαπημένο για προγραμματιστές ανοιχτού κώδικα για το μεγαλύτερο μέρος δύο δεκαετιών. Συχνά χρησιμοποιείται ως back-end για blog ανοιχτού κώδικα ή συστήματα διαχείρισης περιεχομένου, η MySQL έχει μια τεράστια εγκατεστημένη βάση σε όλο τον κόσμο. Το 2008, η MySQL AB εξαγοράστηκε από την Sun Microsystems, η οποία εξαγοράστηκε η ίδια από την Oracle Corp. το 2009, φέρνοντας την MySQL υπό την ομπρέλα ενός από τους μεγαλύτερους ανταγωνιστές της. Ωστόσο, η MySQL Community Edition παραμένει δωρεάν και υποστηρίζεται καλά από την κοινότητα. Το MySQL είναι διαθέσιμο για πολλά λειτουργικά συστήματα, όπως Linux, UNIX, Mac OS X και Windows.
Η βάση δεδομένων Oracle θεωρείται από πολλούς ως το πρότυπο σε πλατφόρμες βάσεων δεδομένων σε επίπεδο επιχείρησης και υποστηρίζει πολυάριθμες εταιρικές εφαρμογές. Το Oracle Database Express Edition διατίθεται δωρεάν και διατίθεται επίσης δωρεάν (αν και δεν είναι τεχνικά δωρεάν λογισμικό), καθιστώντας το μια άλλη δημοφιλής επιλογή για προγραμματιστές ή χομπίστες σε Windows ή Linux.
Τώρα που μάθατε τους βασικούς όρους και έννοιες της βάσης δεδομένων, είστε πολύ πιο κοντά στο να μιλάτε την ίδια γλώσσα με τους προγραμματιστές βάσεων δεδομένων του οργανισμού σας.
Βάσεις δεδομένων στον επιστημονικό κόσμο
Αυτό το μέρος ασχολείται με τα βασικά των βάσεων δεδομένων που χρησιμοποιούνται στον επιστημονικό κόσμο.
Εισαγωγή σε υπάρχουσες βάσεις δεδομένων αφιερωμένες στην επιστήμη
Αυτή η ενότητα είναι αφιερωμένη στην επισκόπηση των πιο κοινών βάσεων δεδομένων ανοικτής πρόσβασης που χρησιμοποιούνται στην επιστήμη.
Οι συνεχείς εξελίξεις στους τομείς της βιοτεχνολογίας και της τεχνολογίας των πληροφοριών έχουν οδηγήσει στην εκθετική αύξηση των δεδομένων. Μελέτες που διεξήχθησαν από ερευνητές στο Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής (EMBL-EBI) έδειξαν ότι αυτή η αύξηση των πληροφοριών διπλασιάζεται περίπου κάθε χρόνο. Αυτές οι εκτεταμένες ποσότητες δεδομένων αποθηκεύονται, οργανώνονται και ενημερώνονται συνεχώς σε επιστημονικές βάσεις δεδομένων, όπου είναι άμεσα διαθέσιμες για επιστήμονες, συμπεριλαμβανομένων βιολόγων και βιοπληροφορικών, για ερευνητικούς σκοπούς. Οι πληροφορίες που είναι διαθέσιμες σε βιολογικές βάσεις δεδομένων λαμβάνονται από μια σειρά επιστημονικών πεδίων, συμπεριλαμβανομένων των μεταβολικών, της έκφρασης του γονιδίου της μικροσυστοιχίας και της πρωτεομικής. Εκτός από την αποθήκευση, την οργάνωση και την κοινή χρήση τεράστιου όγκου δεδομένων, ο κύριος στόχος των βιολογικών βάσεων δεδομένων είναι να προσφέρουν διεπαφές προγραμματισμού εφαρμογών Ιστού (API) για υπολογιστές για ανταλλαγή και ενσωμάτωση δεδομένων από πολλούς διαφορετικούς πόρους βάσεων δεδομένων μέσω αυτοματοποιημένης μεθόδου.

Οι βιολογικές βάσεις δεδομένων μπορούν να οριστούν ως συλλογές δεδομένων, οι οποίες είναι δομημένες με τέτοιο τρόπο ώστε να είναι εύκολο να εξερευνήσετε, να χειριστείτε και να ενημερώσετε το περιεχόμενό τους. Παραδείγματα τέτοιων βάσεων δεδομένων παρουσιάζονται στην Εικόνα 12. Το 1972, δημιουργήθηκε η πρώτη βάση δεδομένων πρωτεϊνικής δομής, γνωστή ως Τράπεζα Δεδομένων Πρωτεϊνών (PDB). Αυτή η βάση δεδομένων περιείχε αρχικά μόνο 10 καταχωρήσεις, η οποία τώρα έχει επεκταθεί και περιέχει περισσότερες από 10.000 καταχωρήσεις, υποδηλώνοντας την ταχεία ανάπτυξη βιολογικών δεδομένων. Μια βιολογική βάση δεδομένων μπορεί να περιέχει διάφορους τύπους δεδομένων, συμπεριλαμβανομένων αλληλουχιών πρωτεϊνών, περιγραφών κειμένου, χαρακτηριστικών και δεδομένων πίνακα. Γενικά, μπορούν να χωριστούν σε πρωτογενείς, δευτερεύουσες και σύνθετες βάσεις δεδομένων. Οι πρωτογενείς βάσεις δεδομένων περιλαμβάνουν δεδομένα μόνο για την ακολουθία ή τη δομή, ενώ οι δευτερεύουσες βάσεις δεδομένων περιλαμβάνουν δεδομένα που προέρχονται από την κύρια βάση δεδομένων. Δεδομένα, όπως η διατηρημένη αλληλουχία και τα υπολείμματα ενεργών θέσεων των οικογενειών πρωτεϊνών, μπορούν να βρεθούν σε βάσεις δεδομένων δευτερεύουσας δομής. Επιπλέον, καταχωρήσεις του ΠΣΠ, που είναι μια κύρια βάση δεδομένων, μπορούν να βρεθούν σε βάσεις δεδομένων δευτερεύουσας δομής, αποθηκευμένες με οργανωμένο τρόπο.
Σε γενικές γραμμές, οι βιολογικές βάσεις δεδομένων μπορούν να κατηγοριοποιηθούν σε βάσεις δεδομένων ακολουθίας, δομής και διαδρομής:
- Βάσεις δεδομένων ακολουθίας: Οι πιο συχνά χρησιμοποιούμενες βιολογικές βάσεις δεδομένων. Αυτές περιλαμβάνουν βάσεις δεδομένων πρωτεϊνών και νουκλεοτιδικών αλληλουχιών, οι οποίες περιέχουν αποτελέσματα υγρού εργαστηρίου και αποτελούν την κύρια πηγή πειραματικών αποτελεσμάτων. Τα GenBank και EMBL είναι παραδείγματα βάσεων δεδομένων ακολουθίας.
- Βάσεις δεδομένων δομής: Αυτές οι βάσεις δεδομένων περιέχουν πληροφορίες σχετικά με τη δομή της πρωτεΐνης και τις μοριακές αλληλεπιδράσεις. Το PDB είναι ένα παράδειγμα δομής βάσης δεδομένων.
- Βάσεις δεδομένων διαδρομής: Αυτές οι βάσεις δεδομένων βασίζονται σε δεδομένα που προέρχονται από τη συγκριτική μελέτη των μεταβολικών οδών. ΗKyoco Encyclopedia of Genes and Genomes (KEGG) και η Biocyc είναι δύο ενδεικτικές βάσεις δεδομένων.
Μια τυπική αναζήτηση σε μια βάση δεδομένων αλληλουχιών νουκλεοτιδίων μπορεί, για παράδειγμα, να δημιουργήσει δεδομένα σχετικά με την επιστημονική ονομασία του οργανισμού προέλευσης από τον οποίο απομονώθηκε, όνομα επαφής, αλληλουχία εισόδου με λεπτομέρειες τύπου μορίου και, συχνά, βιβλιογραφικές αναφορές που σχετίζονται με αλληλουχία.
Ορισμένα εργαλεία έχουν αναπτυχθεί για να διευκολύνουν τους επιστήμονες στην επεξεργασία και ανάκτηση δεδομένων από βιολογικές βάσεις δεδομένων. Αυτά τα εργαλεία, τα οποία ονομάζονται εργαλεία βιοπληροφορικής, είναι προγράμματα λογισμικού που δημιουργήθηκαν για την εξαγωγή σημαντικών δεδομένων από τον τεράστιο αριθμό βιολογικών βάσεων δεδομένων και για τη διεξαγωγή ακολουθίας ή δομικής ανάλυσης. Τα εργαλεία βιοπληροφορικής χρησιμοποιούνται για τη λήψη δεδομένων από βάσεις δεδομένων γονιδιωματικής αλληλουχίας και για την οπτικοποίηση, ανάλυση και ανάκτηση ημερομηνίας από πρωτεϊμικές βάσεις δεδομένων. Αυτά τα εργαλεία χωρίζονται σε μεγάλο βαθμό σε:
- Εργαλεία ομολογίας και ομοιότητας: Αυτά τα εργαλεία χρησιμοποιούνται για τον εντοπισμό ομοιότητας μεταξύ των αλληλουχιών άγνωστων δομικών και λειτουργικών αλληλουχιών, των οποίων η λειτουργία και η δομή είναι ήδη γνωστές.
- Εργαλεία ανάλυσης λειτουργίας πρωτεΐνης: Προγράμματα που εφαρμόζονται για τη σύγκριση μιας αλληλουχίας πρωτεΐνης με μια δευτερεύουσα (ή παράγωγη) πρωτεΐνη, τα οποία επιτρέπουν την εκτίμηση της βιοχημικής λειτουργίας μιας πρωτεΐνης ερωτήματος.
- Εργαλεία δομικής ανάλυσης: Αυτά τα εργαλεία επιτρέπουν τη σύγκριση δομών με τις γνωστές βάσεις δεδομένων δομής και τη δημιουργία της δομής 2D/3D μιας πρωτεΐνης.
- Εργαλεία ανάλυσης αλληλουχίας: Προγράμματα που χρησιμοποιούνται για την επιπρόσθετη, πιο ολοκληρωμένη αξιολόγηση μιας ακολουθίας ερωτήματος, που περιλαμβάνει εξελικτική ανάλυση και προσδιορισμό μεταλλάξεων.
Οι βιολογικές βάσεις δεδομένων μπορούν επίσης να κατηγοριοποιηθούν, με βάση το εύρος της κάλυψης δεδομένων, σε:
- Ολοκληρωμένες βάσεις δεδομένων: Αυτές οι βάσεις δεδομένων περιλαμβάνουν διάφορους τύπους δεδομένων από διάφορα είδη. Παραδείγματα ολοκληρωμένων βάσεων δεδομένων είναι η GenBankκαι η EMBL.
- Εξειδικευμένες βάσεις δεδομένων: Αυτές οι βάσεις δεδομένων περιλαμβάνουν συγκεκριμένους τύπους δεδομένων ή δεδομένα από συγκεκριμένους οργανισμούς. Ένα παράδειγμα εξειδικευμένων βάσεων δεδομένων είναι το WormBase, το οποίο περιέχει πληροφορίες σχετικά με τη βιολογία νηματωδών και τη γονιδιωματική.
Σε σχέση με το επίπεδο βιοαπόδοσης, το οποίο ορίζεται ως η δραστηριότητα οργάνωσης, επίδειξης και διάθεσης βιολογικών πληροφοριών άμεσα σε ανθρώπους και υπολογιστές, οι βιολογικές βάσεις δεδομένων ταξινομούνται ως πρωτογενείς και δευτερεύουσες ή παράγωγες βάσεις δεδομένων. Οι πρωτογενείς βάσεις δεδομένων αποτελούνται από ακατέργαστα δεδομένα ως αποθετήριο αρχείων, ενώ δευτερεύουσες ή παράγωγες βάσεις δεδομένων αποτελούν επιμελημένες πληροφορίες ως προστιθέμενη αξία. Όσον αφορά τη μέθοδο που χρησιμοποιείται για την επιμέλεια των δεδομένων, οι βιολογικές βάσεις δεδομένων μπορούν να ταξινομηθούν περαιτέρω ως βάσεις δεδομένων με επιμέλεια εμπειρογνωμόνων ή βάσεις δεδομένων με επιμέλεια της κοινότητας, οι οποίες επιμελούνται με συνεργατικό τρόπο από πολυάριθμους ερευνητές.
Επιπλέον κατηγοριοποίηση βιολογικών βάσεων δεδομένων μπορεί επίσης να γίνει με βάση τον τύπο δεδομένων. Οι τύποι δεδομένων που ταξινομούν ανάλογα τις βάσεις δεδομένων περιλαμβάνουν DNA, RNA, πρωτεΐνη, έκφραση, οδό, ασθένεια, ονοματολογία, βιβλιογραφία και πρότυπο και οντολογία. Μερικές από τις πιο σημαντικές και ευρέως χρησιμοποιούμενες βιολογικές βάσεις δεδομένων είναι οι ακόλουθες: GenBank, το UCSC Genome Browser και Ensembl, οι οποίες είναι βάσεις δεδομένων/πύλες ακολουθίας. WormBase και The Arabidopsis Information Resource (TAIR), οι οποίες είναι πρότυπα βάσεων δεδομένων οργανισμών. και το PDB, Online Mendelian Inheritance in Man (OMIM), MetaCyc και KEGG, τα οποία χαρακτηρίζονται ως βάσεις δεδομένων που δεν βασίζονται στην ακολουθία.
Η χειραγώγηση δεδομένων αποτελεί ουσιαστικό μέρος της πειραματικής διαδικασίας όλων των μελετών, ανεξάρτητα από την κλίμακα τους. Η διαδικτυακή διαθεσιμότητα βιολογικών δεδομένων σε συνδυασμό με το μειωμένο κόστος των αυτοματοποιημένων αλληλουχιών γονιδιώματος επέτρεψαν στα μικρά εργαστήρια βιολογίας να γίνουν γεννήτριες μεγάλων δεδομένων. Ακόμα κι αν ένα εργαστήριο δεν είναι εξοπλισμένο με τέτοια όργανα, μπορεί να γίνει χρήστης μεγάλων δεδομένων αποκτώντας πρόσβαση σε δημόσια αποθετήρια που περιέχουν βιολογικά δεδομένα, όπως το Εθνικό Κέντρο Πληροφοριών Βιοτεχνολογίας των ΗΠΑ στην Bethesda. Ένα μεγάλο μέρος της κατασκευής στη βιολογία των μεγάλων δεδομένων είναι εικονικό, βασισμένο σε υπολογιστικό νέφος, στο οποίο τα δεδομένα και το λογισμικό βρίσκονται σε τεράστια, εκτός κέντρου κέντρα στα οποία είναι προσβάσιμα κατόπιν αιτήματος. Επομένως, δεν είναι απαραίτητο οι χρήστες να αγοράζουν το δικό τους υλικό. Το σύστημα υπολογιστικού νέφους επιτρέπει στους πιθανούς χρήστες να δημιουργούν εικονικούς χώρους για δεδομένα, λογισμικό και αποτελέσματα που είναι ελεύθερα προσβάσιμα από όλους ή να διατηρούν τους χώρους κλειδωμένους πίσω από ένα τείχος προστασίας που επιτρέπει την πρόσβαση σε μια επιλεγμένη ομάδα συνεργατών.
Η χρήση βιολογικών βάσεων δεδομένων μπορεί να είναι επωφελής σε διάφορους τομείς έρευνας. Για παράδειγμα, οι βάσεις δεδομένων μπορούν να βοηθήσουν τον πειραματικό σχεδιασμό επιτρέποντας την αυτόματη ανάλυση και εύκολη επεξεργασία πειραματικών δεδομένων και καθιστώντας την εξέταση των πειραματικών αποτελεσμάτων απλή και γρήγορη. Η ανακάλυψη ναρκωτικών είναι ένας άλλος τομέας που μπορεί να απλοποιηθεί με τη χρήση βάσεων δεδομένων. Σε αυτόν τον συγκεκριμένο τομέα, οι βάσεις δεδομένων μπορούν να σαρωθούν προκειμένου να βρεθούν νέοι υποψήφιοι για φάρμακα εκπαιδεύοντας έναν ταξινομητή σε ένα σύνολο δεδομένων όπου έχουν εντοπιστεί λειτουργικά και μη λειτουργικά φάρμακα. Επιπλέον, τεχνικές μηχανικής μάθησης μπορούν να εφαρμοστούν για τον σχεδιασμό εικονικών αναλύσεων που είναι σε θέση να προσδιορίσουν πολλά υποσχόμενα νέα φάρμακα, τα οποία μπορούν στη συνέχεια να αναλυθούν σε εργαστηριακό περιβάλλον. Και το πιο σημαντικό, μπορούν να πραγματοποιηθούν νέα επιστημονικά πειράματα και να προκύψουν νέα αποτελέσματα αναλύοντας υπάρχοντα σύνολα δεδομένων.
Χωρίς την ύπαρξη βάσεων δεδομένων, η ανταλλαγή και η ενσωμάτωση μεγάλων ποσοτήτων δεδομένων θα ήταν ουσιαστικά αδύνατη. Αν και πολλοί επιστήμονες ζωής έχουν προηγμένες υπολογιστικές δεξιότητες, ένα μεγάλο ποσοστό δεν είναι εξοικειωμένοι με την ανάπτυξη ή την προσαρμογή του σχετικού λογισμικού. Παρ ‘όλα αυτά, η συμμετοχή των επιστημόνων της ζωής σε αυτή τη διαδικασία είναι ζωτικής σημασίας, καθώς μπορούν να παρέχουν ανατροφοδότηση στους ειδικούς της πληροφορικής με επίκεντρο τις διαφορετικές ανάγκες και προσεγγίσεις της επιστήμης. Η δυνατότητα πρόσβασης στα πραγματικά σύνολα δεδομένων που χρησιμοποιήθηκαν αρχικά σε μια συγκεκριμένη μελέτη παρέχει στους ερευνητές την ευκαιρία να αναπαράγουν και να επεκτείνουν τη μελέτη αυτή. Αυτός είναι ο λόγος για τον οποίο είναι σημαντικό τα δεδομένα να είναι ελεύθερα διαθέσιμα στους επιστήμονες ανά πάσα στιγμή χωρίς περιορισμούς, μια έννοια που υποστηρίζεται από την Open Science και πολλές σχετικές πρωτοβουλίες. Μία από αυτές τις πρωτοβουλίες είναι γνωστή ως ELIXIR, ένα έργο που σχεδιάστηκε για να βοηθήσει τους επιστήμονες σε όλη την Ευρώπη να διαφυλάξουν και να μοιραστούν τα δεδομένα τους και να ενισχύσουν τους τρέχοντες πόρους, συμπεριλαμβανομένων των βάσεων δεδομένων και των υπολογιστικών εγκαταστάσεων, σε μεμονωμένες χώρες.
Παρόλο που η δημιουργία βιολογικών βάσεων δεδομένων έχει επιφέρει πολλά οφέλη, όπως η προώθηση της επιστημονικής ποιότητας παραγωγής που ενεργοποιείται με τη δικτύωση, εξακολουθούν να απαιτούν βελτίωση όσον αφορά τη βελτιστοποίηση της γνώσης. Είναι ζωτικής σημασίας η διαχείριση της διεπιστημονικής γνώσης με τέτοιο τρόπο που θα οδηγήσει σε αύξηση της ποιότητας και της ποσότητας της. Η ετερογένεια των δεδομένων είναι ένα άλλο κοινό ζήτημα που αντιμετωπίζει η ενσωμάτωση βιολογικών δεδομένων. Στον τομέα της βιολογίας, υπάρχουν διάφορες διαφορετικές μέθοδοι για την αναπαράσταση παρόμοιων δεδομένων. Αυτό περιπλέκει την ενσωμάτωση και την επεξεργασία δεδομένων, γεγονός που με τη σειρά του καθιστά δυσκολότερη την απόκτηση ενοποιημένων απόψεων αυτών των δεδομένων. Ένα παράδειγμα αυτού του προβλήματος είναι η χρήση διαφόρων εναλλακτικών ονομάτων όταν γίνεται αναφορά σε γονίδια, ανεξάρτητα από την ύπαρξη πλήρων κατευθυντήριων γραμμών που εκδόθηκαν το 1979 και προτείνουν την υιοθέτηση του προτύπου ονοματολογίας γονιδίων, οδηγώντας σε δυσκολίες στην ανταλλαγή δεδομένων. Η εφαρμογή προτύπων επιτρέπει την επαναχρησιμοποίηση των δεδομένων, ωστόσο, η απουσία τους προκαλεί σημαντική απώλεια της παραγωγικότητας και συμβάλλει στη μείωση των δεδομένων που είναι προσβάσιμα από τους ερευνητές. Ως εκ τούτου, είναι επιτακτική ανάγκη να βρεθεί μια λύση σε αυτό το θέμα, προκειμένου να εξαλειφθούν οι προκλήσεις που αντιμετωπίζουν οι επιστήμονες όταν χρησιμοποιούν βιολογικές βάσεις δεδομένων για τη διεξαγωγή της έρευνάς τους.

Τελικές σκέψεις
Dealing with data implies a drastic discipline to keep access on a long term to the stored information. Technology evolves, which means that the hardware and software used today is not the standard of tomorrow. This means that to be able to read any data written today we will have to execute two different kinds of migrations. A logical migration and a technological migration. Logical migration is related to the kind of format in which the data is stored. Technological migration is related to the kind of hardware used. As an example, if you try to open a Word file written in 1993 with Word version 6 with the latest version Word 2019, it will not work. This example shows a lack of logical compatibility. To avoid this issue and keep an ascended compatibility, the file should have been migrated by the time to the latest version in order to keep it up to date and readable with the latest versions of software.
The same thing applies to hardware, i.e. servers, storage, networks, etc… Another example could be the kind of server and operating system used to run a database. In case you decide to change your hardware and to migrate from, let’s say, Windows to UNIX, a different kind of hardware will be needed to run UNIX and a different version of database to run on UNIX. Windows run on Intel based platforms (and Intel like) and Unix runs on SPARC based platforms, which means that you will have to migrate to a UNIX – SPARC compatible version of the database.
Keeping in mind this constant evolution of hardware, operating systems, software and formats, performing the appropriate logical and technological migrations on time could save you a lot of time and troubles.
Last but not least, it is important to keep backing up your data. Once every three to six months, perform a restore test to see if you are capable of retrieving your backups. This is crucial for two reasons:
- It will keep you up to date on how to restore your data
- It is the best testing method to see if your data was properly backed up
Η αντιμετώπιση δεδομένων συνεπάγεται μια δραστική πειθαρχία για να διατηρηθεί η μακροπρόθεσμη πρόσβαση στις αποθηκευμένες πληροφορίες. Η τεχνολογία εξελίσσεται, πράγμα που σημαίνει ότι το υλικό και το λογισμικό που χρησιμοποιούνται σήμερα δεν είναι το πρότυπο του αύριο. Αυτό σημαίνει ότι για να μπορέσουμε να διαβάσουμε όλα τα δεδομένα που γράφτηκαν σήμερα, θα πρέπει να εκτελέσουμε δύο διαφορετικά είδη μετακινήσεων. Μια λογική μετανάστευση και μια τεχνολογική μετανάστευση. Η λογική μετεγκατάσταση σχετίζεται με το είδος της μορφής στην οποία αποθηκεύονται τα δεδομένα. Η τεχνολογική μετάβαση σχετίζεται με το είδος του υλικού που χρησιμοποιείται. Για παράδειγμα, εάν προσπαθήσετε να ανοίξετε ένα αρχείο Word που γράφτηκε το 1993 με την έκδοση του Word 6 με την τελευταία έκδοση του Word 2019, δεν θα λειτουργήσει. Αυτό το παράδειγμα δείχνει έλλειψη λογικής συμβατότητας. Για να αποφύγετε αυτό το ζήτημα και να διατηρήσετε μια ανερχόμενη συμβατότητα, το αρχείο θα έπρεπε να έχει μεταφερθεί μέχρι τότε στην πιο πρόσφατη έκδοση, προκειμένου να διατηρείται ενημερωμένο και ευανάγνωστο με τις πιο πρόσφατες εκδόσεις λογισμικού.
Το ίδιο ισχύει για το υλικό, δηλαδή διακομιστές, χώρο αποθήκευσης, δίκτυα κλπ … Ένα άλλο παράδειγμα θα μπορούσε να είναι το είδος του διακομιστή και του λειτουργικού συστήματος που χρησιμοποιούνται για την εκτέλεση μιας βάσης δεδομένων. Σε περίπτωση που αποφασίσετε να αλλάξετε το υλικό σας και να μετακινηθείτε από, ας πούμε, τα Windows στο UNIX, θα χρειαστεί ένα διαφορετικό είδος υλικού για την εκτέλεση του UNIX και μια διαφορετική έκδοση της βάσης δεδομένων για εκτέλεση στο UNIX. Τα Windows εκτελούνται σε πλατφόρμες που βασίζονται στην Intel (και Intel όπως) και το Unix εκτελείται σε πλατφόρμες που βασίζονται σε SPARC, πράγμα που σημαίνει ότι θα πρέπει να μεταβείτε σε μια συμβατή έκδοση της βάσης δεδομένων με UNIX – SPARC.
Λαμβάνοντας υπόψη αυτή τη συνεχή εξέλιξη του υλικού, των λειτουργικών συστημάτων, του λογισμικού και των μορφών, η έγκαιρη εκτέλεση των κατάλληλων λογικών και τεχνολογικών μετακινήσεων θα μπορούσε να σας εξοικονομήσει πολύ χρόνο και προβλήματα.
Τέλος, είναι σημαντικό να συνεχίζετε να δημιουργείτε αντίγραφα ασφαλείας των δεδομένων σας. Μία φορά κάθε τρεις έως έξι μήνες, εκτελέστε μια δοκιμή επαναφοράς για να δείτε εάν είστε σε θέση να ανακτήσετε τα αντίγραφα ασφαλείας σας. Αυτό είναι κρίσιμο για δύο λόγους:
- Θα σας κρατά ενήμερους για τον τρόπο επαναφοράς των δεδομένων σας
- Είναι η καλύτερη μέθοδος δοκιμής για να διαπιστώσετε εάν δημιουργήθηκαν αντίγραφα ασφαλείας των δεδομένων σας
Test: LO5 Αρχάριο επίπεδο
Βιβλιογραφικές αναφορές
- Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
- Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
- Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
- Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
- Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
- Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
- Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
- Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
- Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
- Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
- Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
- Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
- Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
- Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
- Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
- Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
- Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
- Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
- Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
- Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
- Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
- Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
- Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
Επιστημονικοί πόροι ανοικτής πρόσβασης: Ψηφιακές βάσεις δεδομένων
ΠΡΟΧΩΡΗΜΕΝΟ ΕΠΙΠΕΔΟ
Αυτό το μέρος ασχολείται με τον προηγμένο σχεδιασμό μιας βάσης δεδομένων. Εξηγεί τη δομή μιας βάσης δεδομένων και τον τρόπο δημιουργίας σχέσεων μεταξύ πινάκων βάσης δεδομένων.
Προηγμένη δομή βάσης δεδομένων
Αυτό το μέρος ασχολείται με τον προηγμένο σχεδιασμό μιας βάσης δεδομένων. Εξηγεί τη δομή μιας βάσης δεδομένων και τον τρόπο δημιουργίας σχέσεων μεταξύ πινάκων βάσης δεδομένων. Παρουσιάζει επίσης τη συγκεκριμένη γλώσσα που χρησιμοποιείται για τη δημιουργία ερωτημάτων (SQL) για την ανάκτηση δεδομένων από μια βάση δεδομένων.
Συστήματα Διαχείρισης Βάσεων Δεδομένων
Μια σύγχρονη βάση δεδομένων μπορεί να οριστεί ως μια δομημένη συλλογή πληροφοριών (δεδομένων) που είναι αντιπροσωπευτική του πραγματικού κόσμου. Τα συστήματα διαχείρισης βάσεων δεδομένων (DBMS) χρησιμοποιούνται για τη δημιουργία, τη διαχείριση και το ερώτημα βάσεων δεδομένων. Προς το παρόν, τα συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων (RDBMS) είναι τα πιο ώριμα και ευρέως χρησιμοποιούμενα συστήματα βάσεων δεδομένων που παράγονται. Σχεδόν όλες οι διαδικτυακές συναλλαγές και τα περισσότερα διαδικτυακά συστήματα διαχείρισης περιεχομένου (π.χ. ιστολόγια και κοινωνικά δίκτυα) βασίζονται σε αυτούς τους τύπους συστημάτων βάσεων δεδομένων, τα οποία είναι κεντρικά στην παγκόσμια υποδομή εφαρμογών. Το κεντρικό σημείο ενός DBMS είναι η συλλογή υπηρεσιών που προσφέρουν την εμμονή των δεδομένων στη βάση δεδομένων και τη λειτουργικότητα για να διασφαλιστεί ότι τα δεδομένα είναι σωστά και συνεπή και ότι οι συναλλαγές ακολουθούν τις ιδιότητες ACID. Το ACID αναφέρεται σε τέσσερις βασικές ιδιότητες μιας συναλλαγής:
- Ατομικότητα
- Συνέπεια
- Απομόνωση
- Ανθεκτικότητα
Γλώσσες μοντέλων βάσεων δεδομένων
Όλα τα μοντέλα βάσεων δεδομένων έχουν μια γλώσσα για την προδιαγραφή της δομής και του περιεχομένου της βάσης δεδομένων. Η προδιαγραφή είναι γνωστή ως ο σχεδιασμός σχήματος και αντιπροσωπεύει τη λογική άποψη των πληροφοριών που θα διαχειρίζονται από ένα συγκεκριμένο DBMS. Αυτή η γλώσσα προδιαγραφών βάσης δεδομένων πρέπει να είναι ευέλικτη ώστε να είναι χρήσιμη και διαρκής. Το πιο ορατό στοιχείο μιας βάσης δεδομένων, το οποίο είναι αναγνωρίσιμο από επαγγελματίες βάσης δεδομένων και προγραμματιστές εφαρμογών, είναι η γλώσσα χειρισμού δεδομένων. Μπορεί να εμφανίσει πολλές μορφές, με πιο συνηθισμένη τη διεπαφή που μοιάζει με γλώσσα προγραμματισμού. Σήμερα, οι γλώσσες κειμένου και διαδικασίας, συμπεριλαμβανομένης της γλώσσας δομημένης ερώτησης (SQL) και της γλώσσας ερωτήματος αντικειμένου (OQL), παραμένουν οι πιο διαδεδομένες μορφές γλώσσας χειραγώγησης δεδομένων.
Χαρακτηριστικά βάσεων δεδομένων
Μια βάση δεδομένων μπορεί να χαρακτηριστεί ως συνεκτική, λογική και εσωτερικά συνεπής. Μπορεί επίσης να χαρακτηριστεί ως αυτο-περιγραφόμενος, καθώς περιλαμβάνει μεταδεδομένα, τα οποία ορίζουν και περιγράφουν τα δεδομένα και τις σχέσεις μεταξύ πινάκων στη βάση δεδομένων. Έχει σχεδιαστεί για να περιέχει δεδομένα για συγκεκριμένο σκοπό. Κάθε στοιχείο δεδομένων αποθηκεύεται σε ένα πεδίο. Ένας συνδυασμός πεδίων αναφέρεται ως πίνακας. Ένας αριθμός πινάκων μπορεί να υπάρχει σε μια βάση δεδομένων.
Σε αντίθεση με το σύστημα που βασίζεται σε αρχεία, στα συστήματα βάσεων δεδομένων η δομή δεδομένων αποθηκεύεται στον κατάλογο του συστήματος και όχι στα προγράμματα εφαρμογών. Αυτός ο διαχωρισμός μεταξύ προγραμμάτων και δεδομένων ονομάζεται ανεξαρτησία δεδομένων προγράμματος.
Η αρχιτεκτονική ενός συστήματος βάσεων δεδομένων αποτελείται από ένα σύνολο υπηρεσιών που κατασκευάζονται πάνω από βασικές υπηρεσίες λειτουργικού συστήματος, υπηρεσίες αποθήκευσης αρχείων συστήματος και υπηρεσίες διαχείρισης προσωρινής μνήμης. Αυτό το σύνολο υπηρεσιών αποτελείται από τα ακόλουθα: διαχείριση καταλόγου, διαχείριση ακεραιότητας, διαχείριση συναλλαγών, έλεγχος ταυτόχρονης λειτουργίας, διαχείριση κλειδώματος, διαχείριση αδιεξόδων, διαχείριση ανάκτησης, διαχείριση ασφάλειας, επεξεργασία ερωτήματος, διαχείριση επικοινωνιών και διαχείριση αρχείων καταγραφής.
Τύποι μοντέλων βάσης δεδομένων
Τα μοντέλα δεδομένων μπορούν να χωριστούν σε δύο τύπους:
- Μοντέλα εννοιολογικών δεδομένων υψηλού επιπέδου
- Καταγραφή μοντέλων λογικών δεδομένων
Μοντέλα εννοιολογικών δεδομένων υψηλού επιπέδου προτείνουν έννοιες για την παρουσίαση δεδομένων με τρόπους παρόμοιους με τον τρόπο με τον οποίο οι άνθρωποι αντιλαμβάνονται τα δεδομένα. Ένα παράδειγμα αυτού του μοντέλου δεδομένων είναι το μοντέλο οντότητας-σχέσης (ER), το οποίο βασίζεται σε έννοιες, όπως οντότητες, χαρακτηριστικά και σχέσεις. Μια οντότητα αντιστοιχεί σε ένα πραγματικό αντικείμενο, τα χαρακτηριστικά αντιπροσωπεύουν ιδιότητες της οντότητας και μια σχέση υποδηλώνει μια συσχέτιση μεταξύ οντοτήτων.
Τα μοντέλα λογικών δεδομένων που βασίζονται στην εγγραφή προτείνουν έννοιες που οι χρήστες μπορούν να κατανοήσουν, αλλά είναι παρόμοιες με τον τρόπο που αποθηκεύονται τα δεδομένα στον υπολογιστή. Τα μοντέλα σχέσεων δεδομένων, τα μοντέλα δεδομένων δικτύου και τα μοντέλα ιεραρχικών δεδομένων είναι τρία από τα πιο διαδεδομένα μοντέλα λογικών δεδομένων που βασίζονται σε εγγραφές.
- Στο σχεσιακό μοντέλο, τα δεδομένα αναπαρίστανται με τη μορφή σχέσεων ή πινάκων.
- Στο μοντέλο δικτύου, τα δεδομένα αναπαρίστανται ως τύποι εγγραφών. Επίσης αντιπροσωπεύεται από αυτό το μοντέλο είναι ένας τύπος συνόλου, που ορίζεται ως ένας περιορισμένος τύπος σχέσεων ενός προς πολλά.
- Στο ιεραρχικό μοντέλο, τα δεδομένα αναπαρίστανται ως μια ιεραρχική δομή δέντρου, κάθε κλάδος της οποίας αντιπροσωπεύει έναν αριθμό σχετικών εγγραφών.
Φάσεις σχεδιασμού βάσης δεδομένων
Η μοντελοποίηση δεδομένων αποτελεί το πρώτο βήμα του σχεδιασμού της βάσης δεδομένων. Αυτό το βήμα ενίοτε πρόκειται να είναι μια φάση σχεδιασμού υψηλού επιπέδου και αφηρημένη, γνωστή ως εννοιολογικό σχέδιο. Αυτή η φάση στοχεύει να περιγράψει τα ακόλουθα:
- Τα δεδομένα που υπάρχουν στη βάση δεδομένων
- Οι σχέσεις μεταξύ στοιχείων δεδομένων
- Οι περιορισμοί στα δεδομένα
Σε αυτή την αρχική φάση της διαδικασίας σχεδιασμού της βάσης δεδομένων, η ανάλυση απαιτήσεων πληροφοριών είναι απαραίτητη. Είναι η πιο σημαντική φάση επειδή η συνολική αποτελεσματικότητα του συστήματος βασίζεται στο πόσο ακριβείς είναι οι απαιτήσεις πληροφοριών και οι απόψεις των χρηστών στην αρχή. Οι προδιαγραφές σχετικά με τις απαιτήσεις πληροφοριών που γίνονται σε αυτό το στάδιο επηρεάζουν την τελική μορφή και το περιεχόμενο του συστήματος βάσης δεδομένων.
Αφού καθοριστούν και αναπτυχθούν οι προδιαγραφές, πρέπει να δομηθούν σε ένα ολοκληρωμένο, συνεκτικό σύστημα, μια διαδικασία που ονομάζεται λογικός σχεδιασμός. Ο λογικός σχεδιασμός περιλαμβάνει τα ακόλουθα βήματα:
- ανάπτυξη ενός μοντέλου δεδομένων για κάθε προβολή χρήστη
- ενσωμάτωση των οντοτήτων, των χαρακτηριστικών και των σχέσεων σε ένα σύνθετο λογικό σχήμα που περιγράφει τη βάση δεδομένων για αυτήν την ενότητα με όρους που δεν σχετίζονται με το πακέτο λογισμικού που χρησιμοποιείται
- μετατροπή του λογικού σχήματος σε σχήμα λογισμικού που εκφράζεται στη γλώσσα του επιλεγμένου πακέτου διαχείρισης βάσης δεδομένων
Το τελευταίο βήμα για τον σχεδιασμό μιας βάσης δεδομένων είναι ο φυσικός σχεδιασμός. Αυτό το βήμα απαιτείται για να αλλάξει το σχήμα λογισμικού σε μια μορφή που μπορεί να εφαρμοστεί με το συγκεκριμένο υλικό, λειτουργικό σύστημα και σύστημα διαχείρισης βάσεων δεδομένων ενός οργανισμού. Στο φυσικό σχεδιασμό εμπλέκεται η εφαρμογή των απαιτήσεων ακεραιότητας και ασφάλειας και ο σχεδιασμός διαδρομών πλοήγησης.
Βαθμός αφαίρεσης
Η αφαίρεση δεδομένων υποδηλώνει την απόκρυψη ορισμένων λεπτομερειών του τρόπου αποθήκευσης και συντήρησης των δεδομένων. Όσον αφορά τον βαθμό αφαίρεσής τους, τα μοντέλα βάσεων δεδομένων μπορούν να χωριστούν σε τρία επίπεδα, τα οποία είναι:
- Το εξωτερικό ή το επίπεδο προβολής, το οποίο είναι το υψηλότερο επίπεδο αφαίρεσης και αντιπροσωπεύει μόνο μέρος ολόκληρης της βάσης δεδομένων
- Το λογικό επίπεδο, το οποίο περιγράφει ποια δεδομένα είναι αποθηκευμένα σε ολόκληρη τη βάση δεδομένων
Το φυσικό επίπεδο, το οποίο είναι το χαμηλότερο επίπεδο αφαίρεσης και περιγράφει τον τρόπο αποθήκευσης των δεδομένων στη βάση δεδομένων
Σχήματα βάσεων δεδομένων
Το σχήμα βάσης δεδομένων μπορεί να οριστεί ως η περιγραφή βάσης δεδομένων πρώιμου σταδίου που δεν αναμένεται να αλλάζει συχνά. Υπάρχουν πολλά σχήματα σε ένα σύστημα βάσης δεδομένων. Η αρχιτεκτονική της βάσης δεδομένων αποτελείται από τρία επίπεδα σχημάτων.
Εξωτερικό επίπεδο
Αυτό είναι το υψηλότερο επίπεδο σχημάτων. Η προβολή δεδομένων εξωτερικού επιπέδου συγκεντρώνεται σε συγκεκριμένες εφαρμογές επεξεργασίας δεδομένων ή προβολές χρηστών. Περιέχει πολλές προβολές και αντιπροσωπεύει ένα τμήμα της πραγματικής βάσης δεδομένων. Κάθε προβολή προσφέρεται για έναν χρήστη ή ομάδα χρηστών έτσι ώστε να διευκολύνει την αλληλεπίδραση μεταξύ του χρήστη και του συστήματος.
Εννοιολογικό επίπεδο
Αυτό το επίπεδο περιγράφει τη λογική δομή ολόκληρης της βάσης δεδομένων, η οποία, με τη σειρά της, περιγράφεται από απλές λογικές έννοιες, συμπεριλαμβανομένων των αντικειμένων, των ιδιοτήτων ή των σχέσεών τους. Επομένως, η πολυπλοκότητα των λεπτομερειών εφαρμογής των δεδομένων δεν θα είναι ορατή από τους χρήστες. Στη βάση δεδομένων διατηρείται μόνο μία εννοιολογική προβολή επιπέδου. Για να αναφέρονται οντότητες ή χαρακτηριστικά στο σύστημα βάσης δεδομένων, πρέπει πρώτα να οριστούν στην εννοιολογική προβολή επιπέδου, που τυπικά περιγράφεται ως το λογικό σχήμα. Αυτή η άποψη επιπέδου πρέπει να είναι εξαιρετικά σταθερή, δεδομένου ότι θεωρείται ότι αποτελεί τη βάση για την ανάπτυξη εξωτερικών και εσωτερικών απόψεων επιπέδου.
Εσωτερικό επίπεδο
Ο τρόπος αποθήκευσης των δεδομένων και ο τρόπος πρόσβασης στα δεδομένα περιγράφονται σε αυτό το σχήμα. Το εσωτερικό επίπεδο αντιπροσωπεύει την εσωτερική ή φυσική κατάσταση της βάσης δεδομένων. Στόχος του είναι να αυξήσει την αποδοτικότητα του συστήματος βάσεων δεδομένων, ενώ παράλληλα καλύπτει τις απαιτούμενες ανάγκες.
Ανεξαρτησία δεδομένων
Η ανεξαρτησία δεδομένων αναφέρεται στην ικανότητα των εφαρμογών των χρηστών να παραμένουν ανεπηρέαστες από τις αλλαγές που γίνονται στον ορισμό και την οργάνωση των δεδομένων. Υπάρχουν δύο τύποι ανεξαρτησίας δεδομένων: η λογική και η φυσική.
Η ανεξαρτησία των λογικών δεδομένων είναι η δυνατότητα αλλαγής του λογικού (εννοιολογικού) σχήματος χωρίς να επηρεάζεται το εξωτερικό σχήμα ή η προβολή χρήστη. Οι προσαρμογές στο λογικό σχήμα, όπως οι αλλαγές στη δομή της βάσης δεδομένων, όπως η προσθήκη πινάκων, δεν θα πρέπει να έχουν επίδραση στη λειτουργία της εφαρμογής (εξωτερικές προβολές).
Η ανεξαρτησία των φυσικών δεδομένων είναι η ικανότητα του σχήματος εννοιολογικού επιπέδου να μην επηρεάζεται από τις αλλαγές που γίνονται στο εσωτερικό σχήμα. Οι αλλαγές στην οργάνωση αρχείων ή τις δομές αποθήκευσης, τις συσκευές αποθήκευσης ή τη στρατηγική ευρετηρίασης δεν επιφέρουν αλλαγές στο εννοιολογικό επίπεδο.
Το μοντέλο σχεσιακών δεδομένων
Το μοντέλο σχεσιακών δεδομένων αναπτύχθηκε από τον Δρ Έντγκαρ Φ. Κοντ το 1970. Αντιπροσωπεύει δεδομένα σε μορφή πίνακα, ο οποίος είναι γνωστός σε πολλούς για την αναπαράσταση των δεδομένων. Η λογική απλότητα των επίπεδων δομών αρχείων διατηρείται σε αυτό το μοντέλο. Το σχεσιακό μοντέλο βασίζεται σε μια θεωρία συνόλων, η οποία παρέχει τη βάση για αρκετές από τις λειτουργίες που εκτελούνται στις σχέσεις. Προσφέρει την πιο ευέλικτη πρόσβαση στα δεδομένα και, ως εκ τούτου, είναι χρήσιμη σε δυναμικά περιβάλλοντα λήψης αποφάσεων.
Βασικά στοιχεία του μοντέλου σχεσιακών δεδομένων
Πίνακας 1. Βασικά στοιχεία του μοντέλου σχεσιακών δεδομένων
| Στοιχείο βάσης δεδομένων | Περιγραφή |
|---|---|
| Πίνακας | περιλαμβάνει στήλες και σειρές, ένα υποσύνολο του καρτεσιανού προϊόντος μιας λίστας τομέων που χαρακτηρίζονται από ένα όνομα |
| Στήλες | κύριες μονάδες αποθήκευσης, περιέχουν τα βασικά στοιχεία δεδομένων στα οποία μπορεί να διαιρεθεί το περιεχόμενο |
| Σειρές | περιέχουν στήλες που σχετίζονται μαζί με τις στήλες αποτελούν τη βάση όλων των βάσεων δεδομένων |
| Τομέας | ένα σύνολο αποδεκτών τιμών που μπορούν να συμπεριληφθούν σε μια στήλη |
| Βαθμοί | Ο αριθμός των στηλών σε έναν πίνακα |
Μια σχέση, η οποία ονομάζεται επίσης πίνακας ή αρχείο, μπορεί να χαρακτηριστεί ως δισδιάστατος πίνακας που αποτελείται από δεδομένα που αφορούν μια κλάση οντότητας ή τις σχέσεις μεταξύ των κλάσεων οντοτήτων. Σε κάθε γραμμή ενός πίνακα, περιλαμβάνονται δεδομένα που αναφέρονται σε μια συγκεκριμένη οντότητα και, σε κάθε στήλη, περιλαμβάνεται ένα συγκεκριμένο χαρακτηριστικό. Οι σειρές ή οι εγγραφές μιας σχέσης μπορούν να αναφέρονται ως πλειάδες. Μια εγγραφή μέσα σε έναν πίνακα αντιπροσωπεύει μια παρουσία μιας οντότητας. Ο αριθμός των γραμμών σε μια σχέση είναι ενδεικτικός της καρδιλότητάς του. Ο αριθμός των στηλών, επίσης γνωστών ως πεδία ή χαρακτηριστικά, σε μια σχέση αντιστοιχεί στον βαθμό της σχέσης. Τα βασικά στοιχεία ενός μοντέλου σχεσιακών δεδομένων περιγράφονται στον Πίνακα 1. Μια ενιαία σχέση αποτελείται μόνο από ένα χαρακτηριστικό. μια δυαδική σχέση αποτελείται από δύο μόνο χαρακτηριστικά. μια τριμερής σχέση αποτελείται μόνο από τρία χαρακτηριστικά.
Χαρακτηριστικά ενός πίνακα
- Κάθε πίνακας σε μια βάση δεδομένων έχει ένα μοναδικό όνομα
- Δεν υπάρχουν διπλές σειρές. κάθε σειρά είναι διαφορετική
- Κάθε σειρά έχει διαφορετικό όνομα
- Η σειρά των γραμμών και των στηλών δεν είναι σημαντική
- Οι καταχωρίσεις από στήλες προέρχονται από τον ίδιο τομέα ανάλογα με τον τύπο δεδομένων τους, συμπεριλαμβανομένων: ημερομηνίας, λογικής (αληθούς/ψευδούς), χαρακτήρα (συμβολοσειράς) και αριθμού (αριθμητικός, ακέραιος, πλωτήρας,…)
Διαφοροποιητικά χαρακτηριστικά του μοντέλου σχεσιακής βάσης δεδομένων
Ουσιαστικότητα: Μια δομή δεδομένων θεωρείται απαραίτητη εάν έχει ως αποτέλεσμα την απώλεια πληροφοριών στη βάση δεδομένων, όταν αφαιρεθούν.
Κανόνες ακεραιότητας: Αυτοί διασφαλίζουν ότι το περιεχόμενο της βάσης δεδομένων παραμένει ακριβές και συνεπές. Υπάρχουν δύο τύποι ακεραιότητας:
- Ακεραιότητα οντότητας: Επιτρέπει τον μοναδικό προσδιορισμό κάθε οντότητας στη σχεσιακή βάση δεδομένων. Αυτή η δυνατότητα διασφαλίζει την πρόσβαση σε όλα τα δεδομένα. Απαιτεί ότι κανένα πρωτεύον κλειδί δεν έχει μηδενική τιμή.
- Αναφορική ακεραιότητα: Επιτρέπει την αναφορά πλειάδων που χρησιμοποιούν ξένα κλειδιά. Απαιτεί οι τιμές που αναλαμβάνονται από ένα ξένο κλειδί είτε να ταιριάζουν με ένα πρωτεύον κλειδί που υπάρχει στη βάση δεδομένων είτε να είναι εντελώς μηδενικά.
Χειρισμός δεδομένων: Μια μέθοδος χειρισμού των δεδομένων. κύρια προσέγγιση για τη δημιουργία πληροφοριών για τη λήψη αποφάσεων.
Το μοντέλο σχέσης οντότητας
Το μοντέλο δεδομένων οντότητας-σχέσης (ΕΚ) είναι διαθέσιμο για περισσότερα από 35 χρόνια. Είναι σχετικά αφηρημένο και εύκολο να εξηγηθεί. Τα μοντέλα ER μεταφράζονται εύκολα σε σχέσεις και αντιπροσωπεύονται από διαγράμματα ER. Οι σχέσεις και οι οντότητες είναι οι βασικές αρχές αυτού του μοντέλου. Μια οντότητα μπορεί να είναι ένα αντικείμενο που υπάρχει φυσικά ή έχει εννοιολογική ύπαρξη. Εάν οι πίνακές του εξαρτώνται από την ύπαρξη, τότε μια οντότητα χαρακτηρίζεται ως αδύναμη. Αντίθετα, εάν μπορεί να υπάρχει ξεχωριστά από όλες τις συνδεδεμένες οντότητες, τότε μια οντότητα αναφέρεται ως ισχυρή.
Υπάρχουν διάφορα είδη οντοτήτων:
- Ανεξάρτητες οντότητες ή πυρήνες: Τα δομικά στοιχεία της βάσης δεδομένων. Είναι ισχυρές οντότητες. Το κύριο κλειδί δεν είναι ξένο κλειδί και μπορεί να είναι απλό ή σύνθετο. Οι διαφορετικοί τύποι κλειδιών περιγράφονται στον Πίνακα 2.
- Εξαρτώμενες ή παράγωγες οντότητες: Εξαρτώνται από την ύπαρξη σε δύο ή περισσότερους πίνακες. Χρησιμοποιούνται για να φέρουν μαζί δύο πυρήνες και μπορεί να περιλαμβάνουν άλλα χαρακτηριστικά. Κάθε σχετικός πίνακας προσδιορίζεται με το ξένο κλειδί. Τρεις επιλογές είναι διαθέσιμες για το κύριο κλειδί: i) χρήση σύνθετου ξένου κλειδιού σχετικών πινάκων, εάν είναι μοναδικό, ii) χρήση σύνθετου ξένου κλειδιού και στήλης που πληροί τις προϋποθέσεις, ή iii) δημιουργία νέου απλού πρωτογενούς κλειδιού.
- Χαρακτηριστικές οντότητες: Αυτές οι οντότητες προσφέρουν πρόσθετες πληροφορίες για έναν άλλο πίνακα. Περιγράφουν άλλες οντότητες και αντιπροσωπεύουν χαρακτηριστικά πολλαπλών τιμών. Το ξένο κλειδί χρησιμοποιείται για περαιτέρω αναγνώριση του χαρακτηρισμένου πίνακα. Δύο επιλογές είναι διαθέσιμες για το κύριο κλειδί: i) χρήση σύνθετου ξένου κλειδιού και κατάλληλης στήλης, ή ii) δημιουργία νέου απλού κύριου κλειδιού.
Πίνακας 2. Τύποι κλειδιών.
| Τύποι κλειδιών | Description |
|---|---|
| Κλειδί υποψηφίου | απλό ή σύνθετο κλειδί που είναι μοναδικό, επειδή καμία γραμμή σε έναν πίνακα δεν μπορεί να έχει την ίδια τιμή ανά πάσα στιγμή και ελάχιστη, αφού κάθε στήλη χρειάζεται για να επιτευχθεί η μοναδικότητα |
| Σύνθετο κλειδί | πρέπει να είναι ελάχιστο, αποτελείται από δύο ή περισσότερα χαρακτηριστικά |
| Πρωταρχικό κλειδί | υποψήφιο κλειδί που επιλέγεται από τον σχεδιαστή βάσης δεδομένων για χρήση ως μηχανισμός αναγνώρισης για ολόκληρο το σύνολο οντοτήτων, πρέπει να προσδιορίζει μοναδικά τις πλειάδες σε έναν πίνακα και να μην είναι null. υποδεικνύεται στο μοντέλο ER υπογραμμίζοντας το χαρακτηριστικό |
| Δευτερεύων κλειδί | χαρακτηριστικό που χρησιμοποιείται αυστηρά για σκοπούς ανάκτησης, μπορεί να είναι σύνθετο |
| Εναλλακτικό κλειδί | όλα τα υποψήφια κλειδιά δεν έχουν επιλεγεί ως κύριο κλειδί |
| Ξένο κλειδί | χαρακτηριστικό σε έναν πίνακα που παραπέμπει στο κύριο κλειδί σε έναν άλλο πίνακα ή μπορεί να είναι μηδενικό |
Μηδενικές τιμές: Διαφορετικές από μηδενικές ή κενές τιμές, δεν εξαρτώνται από τον τύπο δεδομένων. Μια μηδενική τιμή σημαίνει ότι είτε η πραγματική τιμή είναι άγνωστη είτε ότι το χαρακτηριστικό δεν είναι εφαρμόσιμο.
Παραδείγματα τύπων οντοτήτων και σχέσεων σε βιολογικές βάσεις δεδομένων
Ένας τύπος οντότητας περιγράφει τα χαρακτηριστικά που μοιράζονται μια συλλογή οντοτήτων σε έναν τομέα. Για παράδειγμα, η πρωτεΐνη μπορεί να θεωρηθεί ως τύπος οντότητας, με χαρακτηριστικά, τα οποία περιλαμβάνουν την ακολουθία, το όνομα, το μοριακό βάρος, το είδος και τον αριθμό πρόσβασης. Ένας τύπος οντότητας πιθανότατα θα έχει πολλές περιπτώσεις, καθεμία από τις οποίες παρέχει τιμές στα χαρακτηριστικά που καθορίζονται στον αντίστοιχο τύπο. Για παράδειγμα, τα ονόματα δύο περιπτώσεων πρωτεΐνης τύπου οντότητας είναι ανθρώπινη α-αιμοσφαιρίνη και μυοσφαιρίνη φάλαινας. Οι τιμές των ειδών τους θα είναι ανθρώπινες και φάλαινες, αντίστοιχα.
Οι σχέσεις υποδεικνύουν ότι συσχετίζονται δύο ή περισσότεροι τύποι οντοτήτων. Για παράδειγμα, μια πρωτεΐνη μπορεί να αλληλοεπιδρά με πολλές άλλες πρωτεΐνες ή μπορεί να είναι μέλος μιας οικογένειας. Διαφορετικές κατηγορίες σχέσεων μπορεί να περιγράφουν τη φύση της σχέσης. Για παράδειγμα, ένας τύπος οντότητας θα μπορούσε να αναπαρασταθεί ως μέρος ενός άλλου (π.χ. ένας κλώνος Beta είναι μέρος ενός φύλλου στη δευτερεύουσα δομή μιας πρωτεΐνης) ή ως ένα είδος άλλης (π.χ. ένα ένζυμο είναι ένα είδος πρωτεΐνης).
Ανωμαλίες τροποποίησης
Ενδέχεται να προκύψουν ακούσια λάθη σε μια βάση δεδομένων κατά τη διαδικασία εισαγωγής, διαγραφής ή τροποποίησης δεδομένων. Εάν το λάθος είναι αποτέλεσμα του σχεδιασμού της βάσης δεδομένων, τότε αυτό ονομάζεται ανωμαλία τροποποίησης.
Υπάρχουν τρεις τύποι ανωμαλιών τροποποίησης:
- Ανωμαλία διαγραφής: η αφαίρεση μιας λογικής οντότητας που οδηγεί σε απώλεια πληροφοριών σχετικά με μια άσχετη λογική οντότητα
- Ανωμαλία εισαγωγής: η εισαγωγή δεδομένων για μια λογική οντότητα που απαιτεί την εισαγωγή δεδομένων για μια άσχετη λογική οντότητα
- Ανωμαλία ενημέρωσης: η αλλαγή των πληροφοριών για μια λογική οντότητα που απαιτεί περισσότερες από μία αλλαγές σε μια σχέση.
Βασικοί ορισμοί
Κεντρικό σύστημα βάσης δεδομένων: τα δεδομένα σε αυτό το σύστημα αποθηκεύονται σε έναν μόνο ιστότοπο
Διανεμημένο σύστημα βάσεων δεδομένων: η βάση δεδομένων και το λογισμικό DBMS διανέμονται σε διαφορετικούς ιστότοπους που συνδέονται με ένα δίκτυο υπολογιστών.
Βάση δεδομένων: μια κοινή συλλογή σχετικών δεδομένων που θα χρησιμοποιηθούν για την υποστήριξη των δραστηριοτήτων των οργανισμών.
Γλώσσα ορισμού δεδομένων (DDL): χρησιμοποιείται για τον καθορισμό των εννοιολογικών και εσωτερικών σχημάτων
Σύστημα Διαχείρισης Βάσεων Δεδομένων (DBMS): προγράμματα υπολογιστών που χρησιμοποιούνται για τη δημιουργία, διαχείριση και αναζήτηση βάσεων δεδομένων
Μοντέλο δεδομένων: μια συλλογή εννοιών που χρησιμοποιούνται για την περιγραφή της δομής της βάσης δεδομένων
Πλεονασμός δεδομένων: αποθήκευση του ίδιου κομματιού δεδομένων σε δύο ή περισσότερες θέσεις στο σύστημα βάσης δεδομένων
Κανονικοποίηση: μια μέθοδος που δομεί τα δεδομένα με τέτοιο τρόπο ώστε τα προβλήματα να μειώνονται ή να αποφεύγονται
Ανάκτηση: η διαδικασία χρήσης αρχείων καταγραφής και εφεδρικών αντιγράφων για την αναδημιουργία μιας βάσης δεδομένων που έχει υποστεί ζημιά
Structured Query Language (SQL)
Το SQL σημαίνει Structured Query Language, η οποία είναι γλώσσα υπολογιστή για αποθήκευση, χειρισμό και ανάκτηση δεδομένων που είναι αποθηκευμένα σε σχεσιακή βάση δεδομένων. Είναι η πιο διαδεδομένη γλώσσα βάσεων δεδομένων. Προσφέρει τρόπους κατασκευής σχέσεων και χειρισμού δεδομένων. Η SQL είναι η τυπική γλώσσα για συστήματα σχεσιακών βάσεων δεδομένων. Όλα τα Συσχετικά Συστήματα Διαχείρισης Βάσεων Δεδομένων (RDMS), όπως MySQL, MS Access, Oracle, Sybase, Informix, Postgres και SQL Server, χρησιμοποιούν την SQL ως την τυπική γλώσσα βάσης δεδομένων, αν και χρησιμοποιούν διαφορετικές «διαλέκτους»:
- Ο MS SQL Server χρησιμοποιεί T-SQL
- Η Oracle χρησιμοποιεί PL/SQL
- Το MS Access χρησιμοποιεί μια έκδοση SQL που ονομάζεται JET SQL (εγγενής μορφή) κ.λπ.
SQL λίστα εντολών
Ακολουθεί μια λίστα εντολών SQL που καλύπτει όλες τις απαραίτητες ενέργειες με βάσεις δεδομένων SQL. Ωστόσο, όπως αναφέρθηκε προηγουμένως, ενδέχεται να υπάρχουν διαφορές μεταξύ διαφορετικών τύπων βάσεων δεδομένων, συμπεριλαμβανομένης της χρήσης διαφορετικών «διαλέκτων». Κάθε εντολή SQL παρέχεται με τη σύνταξη και την περιγραφή της.
Οι εντολές στο SQL ονομάζονται ερωτήματα και είναι δύο τύπων:
- Ερώτημα ορισμού δεδομένων: Οι προτάσεις που ορίζουν τη δομή μιας βάσης δεδομένων, δημιουργούν πίνακες, καθορίζουν τα κλειδιά τους, τους ευρετήρια και ούτω καθεξής,
- Ερωτήματα χειραγώγησης δεδομένων: Αυτά είναι τα ερωτήματα που μπορούν να επεξεργαστούν.
SQL λίστα εντολών1:
| Εντολή | Σύνταξη | Περιγραφή |
|---|---|---|
| ALTER table | ALTER TABLE table_name ADD column_name datatype; | Χρησιμοποιείται για την προσθήκη στηλών σε έναν πίνακα σε μια βάση δεδομένων |
| AND | SELECT column_name(s)FROM table_nameWHERE column_1 = value_1 AND column_2 = value_2; | Είναι ένας τελεστής που χρησιμοποιείται για να συνδυάσει δύο συνθήκες |
| AS | SELECT column_name AS ‘Alias’FROM table_name; | Είναι μια λέξη -κλειδί στο SQL που χρησιμοποιείται για να μετονομάσει μια στήλη ή έναν πίνακα χρησιμοποιώντας ένα ψευδώνυμο |
| AVG | SELECT AVG(column_name)FROM table_name; | Χρησιμοποιείται για τη συγκέντρωση μιας αριθμητικής στήλης και την επιστροφή του μέσου όρου της |
| BETWEEN | all candidate keys not selected as the primary key | Είναι ένας τελεστής που χρησιμοποιείται για να φιλτράρει το αποτέλεσμα μέσα σε ένα συγκεκριμένο εύρος |
| CASE | attribute in a table that references the primary key in another table OR it can be null | Είναι μια δήλωση που χρησιμοποιείται για τη δημιουργία διαφορετικών εξόδων μέσα σε μια δήλωση SELECT |
| COUNT | all candidate keys not selected as the primary key | Είναι μια συνάρτηση που παίρνει το όνομα μιας στήλης ως όρισμα και μετρά τον αριθμό των γραμμών όταν η στήλη δεν είναι NULL |
| Create TABLE | attribute in a table that references the primary key in another table OR it can be null | Χρησιμοποιείται για τη δημιουργία ενός νέου πίνακα σε μια βάση δεδομένων και τον καθορισμό του ονόματος του πίνακα και των στηλών μέσα σε αυτόν |
| DELETE | all candidate keys not selected as the primary key | Χρησιμοποιείται για την αφαίρεση των γραμμών από έναν πίνακα |
| GROUP BY | attribute in a table that references the primary key in another table OR it can be null | Είναι μια ρήτρα στο SQL που χρησιμοποιείται για συγκεντρωτικές συναρτήσεις σε συνεργασία με τη δήλωση SELECT |
| HAVING | all candidate keys not selected as the primary key | Χρησιμοποιείται στο SQL επειδή η λέξη -κλειδί WHERE δεν μπορεί να χρησιμοποιηθεί στη συγκέντρωση συναρτήσεων |
| INNER JOIN | attribute in a table that references the primary key in another table OR it can be null | Χρησιμοποιείται για να συνδυάσει γραμμές από διαφορετικούς πίνακες εάν η συνθήκη JOIN γίνει TRUE |
| INSERT | all candidate keys not selected as the primary key | Χρησιμοποιείται για την προσθήκη νέων σειρών σε έναν πίνακα |
| IS NULL/ IS NOT NULL | attribute in a table that references the primary key in another table OR it can be null | Είναι ένας τελεστής που χρησιμοποιείται με τη ρήτρα WHERE για να ελέγξει τις κενές τιμές |
| LIKE | all candidate keys not selected as the primary key | Είναι ένας ειδικός τελεστής που χρησιμοποιείται με τη ρήτρα WHERE για να αναζητήσει ένα συγκεκριμένο μοτίβο σε μια στήλη |
| LIMIT | attribute in a table that references the primary key in another table OR it can be null | Είναι μια ρήτρα για τον καθορισμό του μέγιστου αριθμού σειρών που πρέπει να έχει το σύνολο αποτελεσμάτων |
| MAX | all candidate keys not selected as the primary key | Είναι μια συνάρτηση που λαμβάνει αριθμό στηλών ως όρισμα και επιστρέφει τη μεγαλύτερη τιμή μεταξύ τους |
| MIN | attribute in a table that references the primary key in another table OR it can be null | Είναι μια συνάρτηση που παίρνει αριθμό στηλών ως όρισμα και επιστρέφει τη μικρότερη τιμή μεταξύ τους |
| OR | primary key | Είναι ένας τελεστής που χρησιμοποιείται για να φιλτράρει το σύνολο αποτελεσμάτων ώστε να περιέχει μόνο τις γραμμές όπου οποιαδήποτε συνθήκη είναι TRUE |
| ORDER BY | attribute in a table that references the primary key in another table OR it can be null | Είναι μια ρήτρα που χρησιμοποιείται για να ταξινομήσει το αποτέλεσμα που έχει οριστεί από μια συγκεκριμένη στήλη αριθμητικά ή αλφαβητικά |
| OUTER JOIN | all candidate keys not selected as the primary key | Χρησιμοποιείται για τον συνδυασμό σειρών από διαφορετικούς πίνακες, ακόμη και αν η συνθήκη δεν είναι TRUE |
| ROUND | attribute in a table that references the primary key in another table OR it can be null | Είναι μια συνάρτηση που παίρνει το όνομα της στήλης και έναν ακέραιο ως όρισμα και στρογγυλοποιεί τις τιμές σε μια στήλη στον αριθμό των δεκαδικών ψηφίων που καθορίζονται από έναν ακέραιο |
| SELECT | all candidate keys not selected as the primary key | Είναι μια δήλωση που χρησιμοποιείται για την ανάκτηση δεδομένων από μια βάση δεδομένων |
| SELECT DISTINCT | attribute in a table that references the primary key in another table OR it can be null | Χρησιμοποιείται για να καθορίσει ότι η δήλωση είναι ένα ερώτημα που επιστρέφει μοναδικές τιμές σε καθορισμένες στήλες |
| SUM | all candidate keys not selected as the primary key | Χρησιμοποιείται για να επιστρέψει το άθροισμα των τιμών από μια συγκεκριμένη στήλη |
| UPDATE | attribute in a table that references the primary key in another table OR it can be null | Χρησιμοποιείται για την επεξεργασία γραμμών σε έναν πίνακα |
| WHERE | all candidate keys not selected as the primary key | Είναι μια ρήτρα που χρησιμοποιείται για το φιλτράρισμα του συνόλου αποτελεσμάτων ώστε να περιλαμβάνει τις γραμμές στις οποίες η συνθήκη WHERE είναι TRUE |
| WITH | WITH temporary_name AS (SELECT *FROM table_name)SELECT *FROM temporary_nameWHERE column_name operator value; | Χρησιμοποιείται για την αποθήκευση του αποτελέσματος ενός συγκεκριμένου ερωτήματος σε έναν προσωρινό πίνακα χρησιμοποιώντας ένα ψευδώνυμο |
Εντολές και σύνταξη για ερώτηση δεδομένων από έναν πίνακα ή πολλούς πίνακες2 :
| Μοναδικός πίνακας | Πολλαπλός πίνακας |
|---|---|
| SELECT c1 FROM t To select the data in Column c1 from table t |
SELECT c1, c2 FROM t1 INNER JOIN t2 on conditionSelect column c1 and c2 from table t1 and perform an inner join between t1 and t2 |
| SELECT * FROM t To select all rows and columns from table t |
SELECT c1, c2 FROM t1 LEFT JOIN t2 on condition Select column c1 and c2 from table t1 and perform a left join between t1 and t2 |
| SELECT c1 FROM t WHERE c1 = ‘test’ To select data in column c1 from table t, where c1=test |
SELECT c1, c2 FROM t1 RIGHT JOIN t2 on condition Select column c1 and c2 from table t1 and perform a right join between t1 and t2 |
| SELECT c1 FROM t ORDER BY c1 ASC (DESC) To select data in column c1 from table t either in ascending or descending order |
SELECT c1, c2 FROM t1 FULL OUTER JOIN t2 on condition Select column c1 and c2 from table t1 and perform a full outer join between t1 and t2 |
| SELECT c1 FROM t ORDER BY c1LIMIT n OFFSET offset To skip the offset of rows and return the next n rows |
SELECT c1, c2 FROM t1 CROSS JOIN t2 Select column c1 and c2 from table t1 and produce a Cartesian product of rows in a table |
| SELECT c1, aggregate(c2) FROM t GROUP BY c1 To group rows using an aggregate function |
SELECT c1, c2 FROM t1, t2Select column c1 and c2 from table t1 and produce a Cartesian product of rows in a table |
| SELECT c1, aggregate(c2) FROM t GROUP BY c1HAVING condition Group rows using an aggregate function and filter these groups using ‘HAVING’ clause |
SELECT c1, c2 FROM t1 A INNER JOIN t2 B on condition Select column c1 and c2 from table t1 and join it to itself using INNER JOIN clause |
Εμπορικές και δωρεάν βάσεις δεδομένων που χρησιμοποιούνται στον πραγματικό κόσμο

Εικόνα 1: Μη εξαντλητικός κατάλογος των διαθέσιμων βάσεων δεδομένων
Αυτό το μέρος ασχολείται με τις κοινές βάσεις δεδομένων που βρίσκονται στην αγορά, είτε είναι δωρεάν είτε είναι ιδιόκτητες. Ωστόσο, υπάρχουν τόσες πολλές διαθέσιμες βάσεις δεδομένων (εικόνα 1) που δεν μπορούμε να τις αναφέρουμε όλες. Έπρεπε να γίνει μια επιλογή και αυτά που παρουσιάζονται παρακάτω είναι τα «πιο δημοφιλή» ή τα «πιο συχνά χρησιμοποιούμενα».
Commercial Databases
From the vast number of databases available on the market, we chose to present three commercial databases commonly used by the major companies and organisations.
SAP HANA
![]()
Αυτή η βάση δεδομένων έχει σχεδιαστεί από την ευρωπαϊκή εταιρεία SAP SE, που ιδρύθηκε στη Γερμανία. Το SAP HANA είναι μηχανή βάσης δεδομένων που είναι προσανατολισμένη στη στήλη και μπορεί να χειριστεί δεδομένα SAP και μη SAP. Ο κινητήρας έχει σχεδιαστεί για να αποθηκεύει και να ανακτά δεδομένα από εφαρμογές και άλλες πηγές σε πολλαπλά επίπεδα αποθήκευσης. Το SAP HANA μπορεί να αναπτυχθεί εσωτερικά ή στο cloud από διάφορους παρόχους υπηρεσιών cloud. Αυτή η βάση δεδομένων επιλέγεται συνήθως από οργανισμούς που αντλούν δεδομένα από εφαρμογές και δεν υπόκεινται σε τρομερά περιορισμένο προϋπολογισμό.
Τα κύρια χαρακτηριστικά του είναι:
- Υποστηρίζει SQL, OLTP και OLAP.
- Ο κινητήρας μειώνει τις απαιτήσεις σε πόρους μέσω συμπίεσης.
- Τα δεδομένα αποθηκεύονται στη μνήμη, μειώνοντας σημαντικά τους χρόνους πρόσβασης, σε ορισμένες περιπτώσεις.
- Διατίθενται αναφορές σε πραγματικό χρόνο και διαχείριση αποθεμάτων.
- Μπορεί να διασυνδεθεί με μια σειρά άλλων εφαρμογών.
Από τον Ιανουάριο του 2021, οι τρέχουσες υποστηριζόμενες πλατφόρμες3 υλικού για το SAP HANA είναι:
- Πλατφόρμες υλικού που βασίζονται στην Intel
- IBM Power Systems
Από τον Ιανουάριο του 2021, τα τρέχοντα υποστηριζόμενα λειτουργικά συστήματα3 για το SAP HANA είναι:
- Linux SUSE
Linux Red Hat
Βαση δεδομένων IBM Db2
![]()
Η βάση δεδομένων IBM Db2 εντοπίζει τις ρίζες της στις αρχές της δεκαετίας του 1970 όταν ο Edgar F. Codd, ερευνητής που εργάζεται για την εταιρεία, περιέγραψε τη θεωρία των σχεσιακών βάσεων δεδομένων και τον Ιούνιο του 1970 δημοσίευσε το μοντέλο για τη χειραγώγηση δεδομένων. Σήμερα, είναι μια μηχανή βάσης δεδομένων που διαθέτει δυνατότητες NoSQL και μπορεί να διαβάσει αρχεία JSON και XML.
Η τρέχουσα έκδοση του DB2 είναι το LUW 11.1, το οποίο προσφέρει μια ποικιλία βελτιώσεων. Ένα, συγκεκριμένα, ήταν η βελτίωση της επιτάχυνσης BLU (BLink Ultra ή Big Data, Lightning fast και Ultra-easy), η οποία έχει σχεδιαστεί για να κάνει αυτόν τον κινητήρα βάσης δεδομένων να λειτουργεί γρηγορότερα μέσω της τεχνολογίας παράκαμψης δεδομένων. Η παράλειψη δεδομένων έχει σχεδιαστεί για να βελτιώνει την ταχύτητα των συστημάτων με περισσότερα δεδομένα από όσα μπορούν να χωρέσουν στη μνήμη. Η τελευταία έκδοση του Db2 παρέχει επίσης βελτιωμένες λειτουργίες ανάκτησης καταστροφών, συμβατότητας και αναλύσεων.
Τα κύρια χαρακτηριστικά του είναι:
- Η επιτάχυνση BLU μπορεί να αξιοποιήσει στο έπακρο τους διαθέσιμους πόρους για τεράστιες βάσεις δεδομένων.
- Μπορεί να φιλοξενηθεί από το cloud, φυσικός διακομιστής ή και τα δύο ταυτόχρονα.
- Πολλαπλές εργασίες μπορούν να εκτελεστούν ταυτόχρονα με τη χρήση του χρονοδιαγράμματος εργασιών.
- Οι κωδικοί σφαλμάτων και οι κωδικοί εξόδου μπορούν να καθορίσουν ποιες εργασίες εκτελούνται μέσω του Task Scheduler.
Οι τρέχουσες υποστηριζόμενες πλατφόρμες υλικού από τον Ιανουάριο του 2021 για το IBM Db2 είναι:
- IBM z/Architecture mainframe
- Πλατφόρμεςυλικούπου βασίζονται στην Intel
Από τον Ιανουάριο του 2021, τα τρέχοντα υποστηριζόμενα λειτουργικά συστήματα3 για το IBM Db2 είναι:
- z/OS
- Unix
- Linux
- Windows
Βάση δεδομένων Oracle
![]()
Η βάση δεδομένων Oracle χρησιμοποιείται συνήθως για την εκτέλεση διαδικτυακής επεξεργασίας συναλλαγών (OLTP) ή αποθήκευσης δεδομένων (DW). Μπορεί επίσης να αναμίξει φόρτους εργασίας βάσης δεδομένων OLTP και DW. Η βάση δεδομένων Oracle είναι διαθέσιμη σε εγκαταστάσεις, σε cloud ή ως υβριδική εγκατάσταση cloud. Μπορεί να εκτελεστεί σε διακομιστές τρίτων κατασκευαστών, καθώς και σε υλικό Oracle Exadata εντός του χώρου, στο Oracle Cloud ή σε ιδιωτικό Cloud στις εγκαταστάσεις των πελατών.
Η πρώτη έκδοση κυκλοφόρησε το 1979 και η ανάπτυξή της επηρεάστηκε από την έρευνα του Edgar F. Codd για το σχεδιασμό σχεσιακής βάσης δεδομένων.
Τα κύρια χαρακτηριστικά του είναι:
- Είναι μια βάση δεδομένων πολλαπλών πλατφορμών. Μπορεί να τρέξει σε διάφορα υλικά σε λειτουργικά συστήματα, συμπεριλαμβανομένων των WindowsServer, Unixκαι διάφορες διανομές GNU/Linux.
- Έχει τη στοίβα δικτύωσης που επιτρέπει σε εφαρμογές από διαφορετική πλατφόρμα να επικοινωνούν ομαλά με τη βάση δεδομένων Oracle, π.χ. εφαρμογές που εκτελούνται σε Windowsμπορούν να συνδεθούν με τη βάση δεδομένων Oracleπου εκτελείται στο Unix.
- Είναι μια βάση δεδομένων συμβατή με το ACIDπου βοηθά στη διατήρηση της ακεραιότητας και της αξιοπιστίας των δεδομένων.
Οι τρέχουσες υποστηριζόμενες πλατφόρμες υλικού είναι:
- Ιδιόκτητο Oracle Database Appliance
- Sparc
- IBM Power Systems
- Πλατφόρμες υλικού που βασίζονται σε X64
Οι τρέχουσες υποστηριζόμενες πλατφόρμες υλικού είναι:
- Unix
- Linux
- Windows
Δωρεαν Βάσεις δεδομένων4
Εάν μια βάση δεδομένων είναι δωρεάν, αυτό δεν σημαίνει απαραίτητα ότι δεν χρεώνονται τέλη στον χρήστη. Ισχύει για ορισμένες από τις ακόλουθες βάσεις δεδομένων, ωστόσο, ορισμένοι προγραμματιστές επιλέγουν να περιορίσουν ορισμένες δυνατότητες και να χρεώσουν μια αμοιβή για να μπορέσουν να ξεκλειδώσουν αυτές τις δυνατότητες (ανατρέξτε στην πρώτη μονάδα του Βασικού Επιπέδου).
MySQL

Η MySQL είναι μια σχεσιακή βάση δεδομένων ανοιχτού κώδικα, η οποία λειτουργεί σε πολλές διαφορετικές πλατφόρμες, συμπεριλαμβανομένων των Windows, Linux, macOS, κλπ. Μια έκδοση cloud. Το MySQL μπορεί να χρησιμοποιηθεί για πακέτο λογισμικού, συστήματα κρίσιμα για επιχειρήσεις και ιστότοπους μεγάλου όγκου.
Τα κύρια χαρακτηριστικά του είναι:
- Παρέχει επεκτασιμότητα και ευελιξία
- Το εργαλείο διαθέτει πλεονεκτήματα αποθήκης Ιστού και δεδομένων
- Παρέχει υψηλή απόδοση
Διαθέτει ισχυρή συναλλακτική υποστήριξη
PostgreSQL

Το PostgreSQL είναι ένα σύστημα διαχείρισης βάσεων δεδομένων ανοιχτού κώδικα επιχειρήσεων. Υποστηρίζει τόσο SQL για σχέσεις όσο και JSON για μη σχεσιακά ερωτήματα. Υποστηρίζεται από μια έμπειρη κοινότητα προγραμματιστών που έχουν κάνει τεράστια συμβολή στο να καταστεί ένα εξαιρετικά αξιόπιστο λογισμικό διαχείρισης βάσεων δεδομένων. Λειτουργεί σε τρεις διαφορετικές πλατφόρμες, συγκεκριμένα Windows, Linux και macOS. Μια έκδοση cloud δεν είναι διαθέσιμη. Η PostgreSQL επιτρέπει τη δημιουργία προσαρμοσμένων τύπων δεδομένων και μια σειρά μεθόδων ερωτήματος. Μια αποθηκευμένη διαδικασία μπορεί να εκτελεστεί σε διαφορετικές γλώσσες προγραμματισμού.
Τα κύρια χαρακτηριστικά του είναι:
- Είναι συμβατό με διάφορες πλατφόρμες που χρησιμοποιούν όλες τις κύριες γλώσσες και το ενδιάμεσο λογισμικό
- Διακομιστής αναμονής και υψηλή διαθεσιμότητα
- Το εργαλείο διαθέτει ώριμες λειτουργίες προγραμματισμού από την πλευρά του διακομιστή
- SSL αναπαραγωγής βάσει καταγραφής και ενεργοποίησης
- Προσφέρει έναν πιο εξελιγμένο μηχανισμό κλειδώματος
- Υποστήριξη για έλεγχο ταυτότητας πολλαπλών εκδόσεων
- Παρέχει υποστήριξη για αρχιτεκτονική δικτύου πελάτη-διακομιστή
- Το εργαλείο είναι αντικειμενοστρεφές και συμβατό με ANSI-SQL2008
- Η PostgreSQL επιτρέπει τη σύνδεση με άλλα καταστήματα δεδομένων, όπως το NoSQL, τα οποία λειτουργούν ως ομοσπονδιακός κόμβος για βάσεις δεδομένων πολλαπλών γλωσσών.
Microsoft SQL

Ο SQL Server είναι ένα RDBMS που αναπτύχθηκε από τη Microsoft. Υποστηρίζει ANSI SQL, η οποία είναι η τυπική γλώσσα SQL (Structured Query Language). Ωστόσο, ο SQL Server έρχεται με την εφαρμογή της γλώσσας SQL, T-SQL (Transact-SQL). Λειτουργεί σε Docker Engine, Ubuntu, SUSE Linux Enterprise Server και Red Hat Enterprise Linux. Διατίθεται έκδοση cloud.
Τα κύρια χαρακτηριστικά του είναι:
- Παρέχει ενσωμάτωση δομημένων και μη δομημένων δεδομένων με τη δύναμη του SQL Server και του Spark.
- Το εργαλείο προσφέρει επεκτασιμότητα, απόδοση και διαθεσιμότητα για κρίσιμες αποστολές, έξυπνες εφαρμογές, αποθήκες δεδομένων και λίμνες δεδομένων.
- Προσφέρει προηγμένες δυνατότητες ασφαλείας για την προστασία των δεδομένων σας.
- Πρόσβαση σε πλούσιες, διαδραστικές αναφορές Power BI, για τη λήψη ταχύτερης και καλύτερης απόφασης.
MariaDB

Το MariaDB είναι ένα δίκρανο του συστήματος διαχείρισης βάσεων δεδομένων MySQL. Δημιουργήθηκε από τους αρχικούς προγραμματιστές του. Αυτό το εργαλείο DBMS παρέχει δυνατότητες επεξεργασίας δεδομένων τόσο για μικρές όσο και για εταιρικές εργασίες. Λειτουργεί σε τρεις πλατφόρμες, συγκεκριμένα Windows, Linux και macOS. Διατίθεται έκδοση cloud. Το MariaDB είναι εναλλακτικό λογισμικό της MySQL. Παρέχει υψηλή επεκτασιμότητα μέσω εύκολης ενσωμάτωσης.
Τα κύρια χαρακτηριστικά του είναι:
- Λειτουργεί με άδειες GPL, BSD ή LGPL.
- Έρχεται με πολλούς κινητήρες αποθήκευσης, συμπεριλαμβανομένων των μηχανών υψηλής απόδοσης που μπορούν να ενσωματωθούν με άλλα συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων.
- Παρέχει την τεχνολογία συμπλέγματος Galera.
- Το MariaDB μπορεί να τρέξει σε διαφορετικά λειτουργικά συστήματα και υποστηρίζει πολλές γλώσσες προγραμματισμού.
Oracle
![]()
Η Oracle είναι μια βάση δεδομένων με αυτοεπιδιόρθωση, αυτοσφάλιση και αυτο-οδήγηση που έχει σχεδιαστεί για να εξαλείψει τη χειροκίνητη διαχείριση δεδομένων. Είναι μια έξυπνη, ασφαλής και εξαιρετικά διαθέσιμη βάση δεδομένων στο cloud που βοηθά τις επιχειρήσεις να αναπτυχθούν. Λειτουργεί σε δύο πλατφόρμες, δηλαδή Windows και Linux. Διατίθεται επίσης έκδοση cloud.
Τα κύρια χαρακτηριστικά του είναι:
- Το Oracle Cloud είναι βελτιστοποιημένο για φόρτους εργασίας βάσης δεδομένων υψηλής απόδοσης, φόρτους εργασίας συνεχούς ροής και υπερμεγέθη μεγάλα δεδομένα.
- Μπορείτε εύκολα να μετεγκαταστήσετε στο Cloud.
- Παρέχει τις υπηρεσίες με βάση τον τρόπο που θέλετε να λειτουργείτε, προκειμένου να εκτελέσετε το Oracle Cloud στο κέντρο δεδομένων σας.
Firebirdsql
![]()
Το Firebird είναι ένα SQL RDBMS ανοιχτού κώδικα που τρέχει σε Microsoft Windows, macOS, Linux και πολλές πλατφόρμες Unix, συμπεριλαμβανομένων των HP-UX, Solaris και AIX. Διατίθεται έκδοση cloud. Το Firebird διαθέτει φιλική προς την ανάπτυξη γλωσσική υποστήριξη, αποθηκευμένες διαδικασίες και ενεργοποιητές.
Τα κύρια χαρακτηριστικά του είναι:
- Το Firebird σάς επιτρέπει να δημιουργήσετε μια προσαρμοσμένη έκδοση.
- Είναι δωρεάν για λήψη, εγγραφή και ανάπτυξη.
- Το εργαλείο έχει βελτιωμένο RDBMS πολλαπλών πλατφορμών.
- Παρέχει μια ποικιλία επιλογών χρηματοδότησης από τις συνδρομές firebird έως τις δεσμεύσεις χορηγίας.
Βάσεις δεδομένων στην προηγμένη ενότητα του επιστημονικού κόσμου
Αυτή η ενότητα είναι αφιερωμένη στην περαιτέρω διερεύνηση των βάσεων δεδομένων ανοικτής πρόσβασης που χρησιμοποιούνται στην επιστήμη και στον τρόπο χρήσης και αξιοποίησης της υπάρχουσας γνώσης.
Επισκόπηση βάσεων δεδομένων στον επιστημονικό κόσμο
Υφιστάμενες βάσεις δεδομένων αφιερωμένες στην επιστήμη και πώς να τις χρησιμοποιήσετε
Όπως αναφέρθηκε προηγουμένως, η ανταλλαγή, η ενσωμάτωση και ο σχολιασμός δεδομένων είναι ένα κρίσιμο μέρος της βιολογικής έρευνας καθώς επιτρέπει στους ερευνητές να αναπαράγουν την εξέταση και την ερμηνεία των πειραματικών ευρημάτων. Παρόλο που πιστεύεται ότι οι βιοπληροφορικοί και οι επιστήμονες των υπολογιστών είναι υπεύθυνοι για αυτές τις ενέργειες, οι επιστήμονες της ζωής έχουν τον ίδιο ρόλο στην προώθηση της ενσωμάτωσης δεδομένων, αφού αυτοί είναι που παράγουν αυτούς τους τύπους δεδομένων και είναι συνήθως οι τελικοί χρήστες.
Η ενσωμάτωση δεδομένων ορίζεται ως η διαδικασία συνδυασμού δεδομένων από διαφορετικές πηγές προκειμένου να προσφέρει στους χρήστες μια ενιαία εικόνα αυτών των δεδομένων. Στις υπολογιστικές επιστήμες, τα θεωρητικά πλαίσια για την ενσωμάτωση δεδομένων έχουν κατηγοριοποιηθεί, με βάση τη μέθοδο που χρησιμοποιείται για την ενσωμάτωση των δεδομένων, σε «πρόθυμους» και «τεμπέληδες». Σύμφωνα με την πρόθυμη μέθοδο, η οποία είναι επίσης γνωστή ως αποθήκη, τα δεδομένα αντιγράφονται σε ένα γενικό σχήμα και αποθηκεύονται σε μια κεντρική αποθήκη δεδομένων. Ο όρος «σχήμα» αναφέρεται σε μια οργανωμένη και «ερωτήσιμη» προσέγγιση για την αποθήκευση δεδομένων. Στη μέθοδο της τεμπέλης, τα δεδομένα βρίσκονται σε κατανεμημένες πηγές και ενσωματώνονται κατά παραγγελία σύμφωνα με ένα γενικό σχήμα που χρησιμοποιείται για τη χαρτογράφηση των δεδομένων μεταξύ των πηγών. Ο όγκος των δεδομένων, ο κάτοχος των δεδομένων και η υπάρχουσα υποδομή είναι οι κύριοι παράγοντες που τελικά καθορίζουν ποια από τις δύο μεθόδους θα χρησιμοποιηθεί για την ενσωμάτωση δεδομένων. Επιπλέον, στις βιολογικές επιστήμες, αυτές οι μέθοδοι μπορούν να εφαρμοστούν με διάφορους τρόπους και να χρησιμοποιηθούν σε διάφορα επίπεδα. Ως αποτέλεσμα, έχουν διατυπωθεί έξι διακριτά και ευρέως χρησιμοποιούμενα σχήματα για την ενσωμάτωση δεδομένων:
- Συγκέντρωση δεδομένων: Τα δεδομένα βρίσκονται σε συγκεντρωτικούς πόρους. Τα UniProt και GenBank είναι δύο παραδείγματα βάσεων δεδομένων που ακολουθούν αυτήν τη μέθοδο.
- Αποθήκευση δεδομένων: δεδομένα από διάφορες πηγές βρίσκονται σε ένα κεντρικό αποθετήριο. Το Pathway commons είναι μια βάση δεδομένων που ακολουθεί αυτήν την προσέγγιση για την ενσωμάτωση δεδομένων.
- Ενσωμάτωση δεδομένων: Οι εσωτερικές ροές εργασίας έχουν πρόσβαση σε βάσεις δεδομένων που διανέμονται και πραγματοποιούν λήψη δεδομένων σε ένα τοπικό αποθετήριο.
- Υπερσύνδεσμοι: Αυτή η προσέγγιση επιτρέπει στους χρήστες να έχουν πρόσβαση σε βάσεις δεδομένων και εργαλεία σε διάφορους τομείς της επιστήμης της ζωής, προωθώντας έτσι τη διαλειτουργικότητα. Το EXPASy είναι ένα ενδεικτικό παράδειγμα μιας πύλης που βασίζεται σε αυτήν τη μεθοδολογία ενσωμάτωσης δεδομένων.
- Ομοσπονδιακές βάσεις δεδομένων: Απαιτείται μεταφραστικό επίπεδο για να ενσωματωθούν τα δεδομένα μεταξύ ετερογενών βάσεων δεδομένων. Αυτό σημαίνει ότι τα δεδομένα από τη βάση δεδομένων μετατρέπονται σε μια κοινά αποδεκτή μορφή με τέτοιο τρόπο ώστε να μπορούν να ερμηνευτούν με τον ίδιο τρόπο από μια υπηρεσία χαρτογράφησης. Το Distributed Annotation System (DAS), το οποίο είναι σύστημα πελάτη-διακομιστή, αποτελεί ενδεικτικό παράδειγμα.
- Συνδεδεμένα δεδομένα: Ένα δίκτυο διασυνδεδεμένων δεδομένων προσβάσιμο στο διαδίκτυο. Γραφικές διεπαφές χρήστη (GUI) που αποτελούνται από υπερσυνδέσμους, οι οποίες συνδέουν σχετικά δεδομένα από πολυάριθμους παρόχους δεδομένων και, ως εκ τούτου, αποτελούν ένα μεγάλο σύστημα Συνδεδεμένων Δεδομένων. ΤοBIO2RDF είναιένα ενδεικτικό παράδειγμα βάσης δεδομένων που χρησιμοποιεί αυτήν την προσέγγιση ως βάση για την ενσωμάτωση δεδομένων.Data centralisation, data warehousing and dataset integration are based on the “eager” theoretical framework, whereas hyperlinks, federated databases and linked data are based on the “lazy” theoretical framework regarding the way that is selected for data integration.
Οι μορφές δεδομένων περιγράφονται ως οργανωμένος τρόπος για την επίδειξη δεδομένων και μεταδεδομένων σε ένα αρχείο. Οι επιστήμονες άρχισαν να αποθηκεύουν βιολογικά δεδομένα σε μορφοποιημένα αρχεία επειδή η εκθετική αύξηση των δεδομένων δημιούργησε την ανάγκη να τα αναλύσουμε χρησιμοποιώντας συστήματα υπολογιστών και βάσεις δεδομένων. Ένα πρόβλημα που προέκυψε σε σχέση με τη μορφοποίηση αρχείων είναι η εμφάνιση διαφόρων μορφών, ακόμη και για την αναπαράσταση του ίδιου τύπου δεδομένων. Σε ορισμένες περιπτώσεις, έχει παρατηρηθεί ότι μπορούν να χρησιμοποιηθούν περισσότερες από μία κλάσεις μορφής για την αναπαράσταση των δεδομένων και των μεταδεδομένων σε ένα μόνο αρχείο. Επιπλέον, η έρευνα απέδειξε ότι οι πιο ευρέως χρησιμοποιούμενες κατηγορίες μορφών είναι: i) πίνακες, ii) FASTA-like, iii) tag-δομημένοι και iv) GenBank-like. Η ιδανική λύση σε αυτό το ζήτημα θα ήταν οι επιστήμονες να συμφωνήσουν στη χρήση περιορισμένου αριθμού συγκεκριμένων μορφών, ώστε να απλοποιηθεί η διαδικασία ενσωμάτωσης δεδομένων. Ο σχεδιασμός μετατροπέων που έχουν τη δυνατότητα να μεταφράζουν όλες τις διαφορετικές κατηγορίες μορφών θα παρείχε επίσης μια χρήσιμη λύση.
Επί του παρόντος, πάνω από 1.700 βάσεις δεδομένων που περιλαμβάνουν δεδομένα βιολογικού ενδιαφέροντος χρησιμοποιούνται, σύμφωνα με τον μη εξαντλητικό κατάλογο που επιμελήθηκε το περιοδικό Nucleic Acids Research. Για να θεωρηθούν πολύτιμα για συγκεκριμένο σκοπό, όλα τα σύνολα δεδομένων που υπάρχουν σε μια βάση δεδομένων πρέπει να ενσωματωθούν και να δομηθούν. Οι υπάρχουσες βιολογικές βάσεις δεδομένων περιέχουν πληροφορίες για ένα ευρύ φάσμα ερευνητικών θεμάτων βιολογίας, όπως γονιδιωματικά μη σπονδυλωτών, αλληλουχία πρωτεϊνών, ανθρώπινα γονίδια και ασθένειες, αλληλουχία νουκλεοτιδίων DNA, κυτταρική βιολογία, ανοσολογία, μεταβολικές και σηματοδοτικές οδούς, πρωτεομικά κ.λπ.
Όπως αναφέρθηκε προηγουμένως στο Αρχάριο Επίπεδο, η ταξινόμηση των βιολογικών βάσεων δεδομένων εξαρτάται από διάφορους παράγοντες, συμπεριλαμβανομένου του εύρους της κάλυψης των δεδομένων και του επιπέδου της βιοκάλυψης. Ωστόσο, η ταξινόμησή τους σύμφωνα με τον τύπο των δεδομένων είναι ένας από τους απλούστερους και πιο περιεκτικούς τρόπους κατηγοριοποίησης των βιολογικών βάσεων δεδομένων. Επομένως, στην επόμενη ενότητα, αυτά θα περιγραφούν ως βάσεις δεδομένων DNA, RNA, πρωτεϊνών, ασθενειών, έκφρασης και οδών.
Βάσεις δεδομένων DNA
Οι βάσεις δεδομένων DNA επικεντρώνονται στον χειρισμό δεδομένων DNA από πολλά ή μερικά συγκεκριμένα είδη. Ο κύριος σκοπός των βάσεων δεδομένων ανθρώπινου DNA είναι να δημιουργήσουν το γονιδίωμα αναφοράς, να πραγματοποιήσουν προφίλ της ανθρώπινης γενετικής παραλλαγής, να συσχετίσουν τον γονότυπο με τον φαινότυπο και να εντοπίσουν μεταγονίδια ανθρώπινου μικροβιώματος. Ένα παράδειγμα βάσης δεδομένων DNA είναι η GenBank, μια δημόσια διαθέσιμη συλλογή όλων των μελετημένων αλληλουχιών DNA. Από τον Φεβρουάριο του 2021, πάνω από 776 δισεκατομμύρια βάσεις νουκλεοτιδίων σε περισσότερες από 226 εκατομμύρια αλληλουχίες είναι διαθέσιμες στη GenBank (http://www.ncbi.nlm.nih.gov/genbank/statistics).
Βάσεις δεδομένων RNA
Αυτές οι βάσεις δεδομένων περιλαμβάνουν πληροφορίες για μη κωδικοποιητικά RNA (ncRNA), όπως microRNA και μακρά μη κωδικοποιητικά RNA (lncRNA), τα οποία δεν κωδικοποιούν πρωτεΐνες. Ο σκοπός των βάσεων δεδομένων RNA είναι να αποκωδικοποιήσουν τα ncRNA, από τα οποία τα lncRNA είναι τα πιο συχνά μελετημένα και να περιγράψουν τις λειτουργίες και τις αλληλεπιδράσεις τους. Ένα παράδειγμα βάσης δεδομένων RNA είναι το RNAcentral, το οποίο αποτελείται από μια ενοποιημένη προβολή δεδομένων αλληλουχίας ncRNA που προέρχονται από μια σειρά βάσεων δεδομένων, μερικές από τις οποίες είναι Rfam, miRBase και lncRNAdb.
Βάσεις δεδομένων πρωτεϊνών
Οι βάσεις δεδομένων πρωτεϊνών αναπτύχθηκαν με σκοπό τη δημιουργία μιας τεράστιας συλλογής καθολικών πρωτεϊνών, τον εντοπισμό οικογενειών και τομέων πρωτεϊνών, την ανασυγκρότηση φυλογενετικών δέντρων και τη διεξαγωγή προφίλ πρωτεϊνικών δομών. Το PDB, το οποίο αποτελείται από χιλιάδες δομές βιολογικών μακρομορίων, είναι ένα ενδεικτικό παράδειγμα βάσεων δεδομένων πρωτεϊνών.
Βάσεις δεδομένων ασθενειών
Εξ ορισμού, οι βάσεις δεδομένων ασθενειών περιλαμβάνουν πληροφορίες για διαφορετικούς τύπους ασθενειών, αλλά επικεντρώνονται κυρίως στην παροχή δεδομένων που αφορούν διάφορους τύπους καρκίνου. Ένα από τα σημαντικότερα έργα καρκίνου που έχει αναπτυχθεί είναι ο Άτλας του Γονιδιώματος του Καρκίνου (TCGA), στόχος του οποίου είναι να συγκεντρώσει ένα ευρύ φάσμα δεδομένων omics, όπως mRNA, SNP και μεθυλίωση, για πάνω από είκοσι διαφορετικές μορφές ανθρώπινου καρκίνου Το
Βάσεις δεδομένων έκφρασης
Οι βάσεις δεδομένων έκφρασης μπορούν να χρησιμοποιηθούν για μια σειρά εργασιών, όπως η μελέτη της έκφρασης και της ρύθμισης των ειδικών για τον ιστό, η αποθήκευση δεδομένων έκφρασης, η ανίχνευση της διαφορικής και της βασικής έκφρασης και η εξέταση και η επανεξέταση των πληροφοριών έκφρασης που λαμβάνονται από δεδομένα RNA και πρωτεΐνης. Ως βάση δεδομένων έκφρασης, ο Άτλαντας Ανθρώπινης Πρωτεΐνης ενσωματώνει προφίλ έκφρασης για ένα σημαντικό ποσοστό ανθρώπινων γονιδίων που κωδικοποιούν πρωτεΐνες που προέρχονται από δεδομένα RNA και πρωτεΐνης.
Βάσεις δεδομένων διαδρομής (pathway)
Οι βάσεις δεδομένων Pathway περιλαμβάνουν δεδομένα σχετικά με βιολογικές οδούς που μπορούν να χρησιμοποιηθούν από τους ερευνητές για την ανάλυση μεταβολικών, ρυθμιστικών και σηματοδοτικών οδών. Χαρακτηριστικό παράδειγμα βάσεων δεδομένων διαδρομών είναι το KEGG PATHWAY, το οποίο περιέχει πληροφορίες σχετικά με μοριακά δίκτυα αλληλεπίδρασης και αντίδρασης.
Το Εθνικό Κέντρο Πληροφοριών Βιοτεχνολογίας (NCBI), μέρος της Εθνικής Ιατρικής Βιβλιοθήκης των ΗΠΑ στο Εθνικό Ινστιτούτο Υγείας, έχει αναπτύξει ένα ολοκληρωμένο σύστημα ανάκτησης βάσεων δεδομένων, το οποίο προσφέρει πρόσβαση σε 34 διαφορετικές βάσεις δεδομένων που περιέχουν συλλογικά 3,0 δισεκατομμύρια αρχεία, με το όνομα Entrez. Η καθολική σελίδα αναζήτησης του Entrez (https://www.ncbi.nlm.nih.gov/search/) παρέχει συνδέσμους προς την πύλη ιστού για καθεμία από τις 34 βάσεις δεδομένων. Το σύστημα Entrez είναι εύκολο στη χρήση επειδή επιτρέπει στους χρήστες να κατεβάζουν δεδομένα σε διάφορες μορφές και να πραγματοποιούν αναζήτηση κειμένου χρησιμοποιώντας απλά ερωτήματα Boolean. Τα αρχεία συνδέονται μεταξύ βάσεων δεδομένων βάσει ισχυρισμένων σχέσεων. Αυτές οι εγγραφές μπορούν να αναπαρασταθούν σε διάφορες μορφές. Επιπλέον, οι χρήστες του Entrez έχουν τη δυνατότητα να κατεβάσουν μεμονωμένες εγγραφές ή παρτίδες δίσκων. Μερικές από τις 34 βάσεις δεδομένων που αποτελούν μέρος του Entrez είναι οι ακόλουθες: PubMed (https://pubmed.ncbi.nlm.nih.gov), η οποία περιέχει επιστημονικές και ιατρικές περιλήψεις/παραπομπές. BioSample (https://www.ncbi.nlm.nih.gov/biosample), το οποίο περιλαμβάνει περιγραφές βιολογικών πηγών υλικών. To pροφίλ GEO (https://www.ncbi.nlm.nih.gov/geoprofiles), το οποίο περιλαμβάνει έκφραση γονιδίων και προφίλ μοριακής αφθονίας. και, dbVar (https://www.ncbi.nlm.nih.gov/dbvar), το οποίο περιέχει δεδομένα από μελέτες δομικής παραλλαγής γονιδιώματος.
Τα δεδομένα που υποβάλλονται στο NCBI προέρχονται από τρεις πηγές: i) απευθείας από ερευνητές, ii) εθνικές και διεθνείς συμπράξεις ή συμφωνίες με παρόχους δεδομένων και ερευνητικές κοινοπραξίες, και iii) εσωτερικές προσπάθειες επιμέλειας. Αξίζει να σημειωθεί ότι η NCBI είναι υπεύθυνη για τη διαχείριση της βάσης δεδομένων GenBank και συμμετέχει στη Διεθνή Συνεργασία Βάσεων Δεδομένων Νουκλεοτιδίων (INSDC) σε συνεργασία με το Ευρωπαϊκό Αρχείο Νουκλεοτιδίων EMBL-EBI (ENA) και την Τράπεζα Δεδομένων DNA της Ιαπωνίας (DDBJ).
Καθώς οι βάσεις δεδομένων έχουν αποδειχθεί χρήσιμο εργαλείο σε πολλούς επιστημονικούς τομείς, η χρήση τους κερδίζει σταθερά έδαφος στον τομέα της υγειονομικής περίθαλψης. Σήμερα, οι τεχνολογικές εξελίξεις στον τομέα της επιστήμης των δεδομένων έχουν επιτρέψει στους επαγγελματίες του τομέα της υγειονομικής περίθαλψης να συλλέγουν, να επεξεργάζονται και να αναλύουν δεδομένα που σχετίζονται με την υγεία, οδηγώντας στη βελτίωση όχι μόνο της παροχής φροντίδας, αλλά και της ασφάλειας των ασθενών και των καταναλωτών. Για να γίνουν αυτές οι βελτιώσεις, πρέπει να συλλέγονται, να αποθηκεύονται και να αναλύονται τα σχετικά δεδομένα με αποτελεσματικό και ασφαλή τρόπο και να ανταλλάσσονται σε διάφορα επίπεδα υπηρεσιών που υπάρχουν σε ένα σύστημα υγειονομικής περίθαλψης. Αυτό οδήγησε στην ανάπτυξη των Ηλεκτρονικών Αρχείων Υγείας (EHR), βάσεων δεδομένων που αποθηκεύουν δεδομένα ασθενών στα οποία μπορούν να έχουν πρόσβαση και να χρησιμοποιηθούν από επαγγελματίες υγείας.
Τα EHR μπορούν να οριστούν ως ιατρικές βάσεις δεδομένων που προσφέρουν στους χρήστες, οι οποίοι στην περίπτωση αυτή είναι επαγγελματίες υγείας και διοικητικό προσωπικό, πρόσβαση σε αρχεία υγείας. Οι πιο διακριτοί τύποι EHR είναι το Ηλεκτρονικό Ιατρικό Αρχείο (EMR) και το Personal Health Record (PHR). Τα ΗΜΥ αποτελούνται από πληροφορίες, οι οποίες υποβάλλονται από ένα μόνο νοσοκομειακό τμήμα, ολόκληρο νοσοκομείο ή τμήματα του νοσοκομείου. Μπορούν επίσης να περιέχουν πληροφορίες από διάφορα νοσοκομεία. Πληροφορίες σε αυτόν τον τύπο ΗΕΥ συνήθως προστίθενται μόνο από το προσωπικό του νοσοκομείου. Αντίθετα, οι PHR διαχειρίζονται οι ασθενείς, οι οποίοι είναι σε θέση να εισάγουν πληροφορίες. Τα PHR περιγράφονται ως ηλεκτρονικές εφαρμογές που παρέχουν μια ασφαλή πλατφόρμα στους ασθενείς για τον έλεγχο και την κοινή χρήση των δεδομένων υγείας τους. Η κύρια διαφορά μεταξύ των δύο τύπων συστημάτων EHR είναι ότι, στα PHR, τα αρχεία υγείας πρέπει να παρουσιάζονται με τρόπο κατανοητό από τον ασθενή, ενώ, στα EMR, ο τρόπος παρουσίασης των αρχείων υγείας μοιάζει με αρχεία υγείας σε χαρτιά, αφού έχουν πρόσβαση μόνο από τους παρόχους υγειονομικής περίθαλψης.
Το πρώτο σύστημα EHR έγινε διαθέσιμο τη δεκαετία του 1960 κυρίως λόγω της συσσώρευσης αδόμητων και αχρησιμοποίητων πληροφοριών ασθενών σε διάστημα αρκετών δεκαετιών. Οι μεγάλοι οργανισμοί άρχισαν να δημιουργούν συστήματα βάσεων δεδομένων προκειμένου να αποθηκεύουν και να δομούν δεδομένα σε κεντρικά αποθετήρια. Αυτές οι βάσεις δεδομένων επέτρεψαν την οργάνωση και τη συλλογή δεδομένων από πολλές διαφορετικές πηγές, συμπεριλαμβανομένων φαρμακείων, εργαστηρίων, κλινικών μελετών και συστατικών της κλινικής περίθαλψης, όπως τα αρχεία χορήγησης φαρμάκων. Επί του παρόντος, η εφαρμογή συστημάτων EHR παρατηρείται κυρίως σε χώρες υψηλού εισοδήματος. Για παράδειγμα, το Health Information Technology for Economic and Clinical Health Act (HITECH Act of 2009) προκάλεσε την ψηφιοποίηση του συστήματος παροχής υγειονομικής περίθαλψης στις ΗΠΑ και την επακόλουθη ανάπτυξη των προγραμμάτων κινήτρων Medicare και Medicaid EHR.
Ο πρωταρχικός σκοπός για τη δημιουργία EHR ήταν η ανάγκη αρχειοθέτησης και δομής αρχείων ασθενών. Αργότερα ορίστηκαν για λόγους χρέωσης και βελτίωσης της ποιότητας. Καθώς σημειώθηκαν τεχνολογικές εξελίξεις, με την πάροδο των ετών τα EHR έγιναν πιο περιεκτικά, δυναμικά και αλληλένδετα. Παρ ‘όλα αυτά, σε σύγκριση με άλλες βιομηχανίες, τα μεγάλα δεδομένα δεν έχουν χρησιμοποιηθεί για το καλύτερο δυνατό στην ιατρική βιομηχανία. Αυτό συνέβη κυρίως λόγω της κακής ποιότητας των δεδομένων που συλλέχθηκαν και των κακώς δομημένων συνόλων δεδομένων. Πριν από την ανάπτυξη των EHR, η ιατρική έρευνα βασίστηκε σε μητρώα ασθενειών ή συστήματα διαχείρισης χρόνιων ασθενειών (CDMS). Αυτά τα αποθετήρια έχουν σημαντικούς περιορισμούς, αφού αποτελούνται από συλλογές δεδομένων που συχνά σχετίζονται με μία μόνο ασθένεια. Επιπλέον, δεν μπορούν να μεταφράσουν τα δεδομένα ή τα συμπεράσματα σε άλλες ασθένειες και μπορεί να περιλαμβάνουν πληροφορίες από μια ομάδα ασθενών σε μια συγκεκριμένη γεωγραφική περιοχή. Από την άλλη πλευρά, τα δεδομένα EHR ποικίλλουν σε μεγάλο βαθμό, διευκολύνοντας έτσι την ανάλυση σύνθετων κλινικών αλληλεπιδράσεων και αποφάσεων.
Τα συστατικά των EHR είναι διαφορετικοί τύποι ιατρικών δεδομένων, που κυμαίνονται από αρχεία υγείας έως ακατέργαστα αισθητήρια δεδομένα. Τα ιατρικά δεδομένα μπορούν να κατηγοριοποιηθούν σε ευαίσθητα δεδομένα ή μη ευαίσθητα δεδομένα. Τα ευαίσθητα δεδομένα περιλαμβάνουν πληροφορίες για τον ασθενή ή μπορεί να σχετίζονται με έναν ασθενή. Τα μη ευαίσθητα δεδομένα περιλαμβάνουν αισθητήρια δεδομένα, τα οποία ονομάζονται επίσης δεδομένα μέτρησης λόγω του γεγονότος ότι αποτελούνται μόνο από δείγματα αισθητήρων, όπως δείγματα μέτρησης ΗΕΓ. Τα δεδομένα που είναι αποθηκευμένα σε ιατρική βάση δεδομένων αναφέρονται ως μεταδεδομένα. Ο πιο συνηθισμένος τύπος βάσης δεδομένων που χρησιμοποιείται για την αποθήκευση ιατρικών δεδομένων είναι η σχεσιακή βάση δεδομένων, η οποία παρουσιάζει δεδομένα με τη μορφή πινάκων που αποτελούνται από σειρές και έναν καθορισμένο αριθμό στηλών. Ορισμένες βάσεις δεδομένων μπορεί να περιλαμβάνουν πληροφορίες για τον ασθενή, όπως το ιατρικό ιστορικό ενός ασθενούς ή ανώνυμα δεδομένα που μπορούν να χρησιμοποιηθούν σε μελέτες.
Τα ιατρικά δεδομένα μπορούν να χωριστούν σε διάφορες κατηγορίες όπως περιγράφονται παρακάτω:
- Ιατρικά και εργαστηριακά δεδομένα: Οι εργαζόμενοι στον τομέα της υγειονομικής περίθαλψης μπορούν να υποβάλουν παραγγελίες για φαρμακευτική αγωγή ή εργαστηριακές μελέτες σε ένα σύστημα εισαγωγής ιατρικής εντολής, οι οποίες στη συνέχεια πραγματοποιούνται από εργαστήριο ή νοσηλευτικό προσωπικό. Παραδείγματα αυτής της κατηγορίας δεδομένων είναι οι συνταγές για φάρμακα και αποτελέσματα μικροβιολογίας.
- Δεδομένα χρέωσης: Αυτή η κατηγορία ιατρικών δεδομένων αποτελείται από κωδικούς που χρησιμοποιούνται από τα νοσοκομεία για την υποβολή αιτήσεων στους ασφαλιστικούς τους φορείς. Η Διεθνής Ταξινόμηση Νοσημάτων, που κατασκευάστηκε από τον ΠΟΥ και η τρέχουσα διαδικαστική ορολογία, που υποστηρίζεται από την Αμερικανική Ιατρική Ένωση, είναι τα πιο δημοφιλή συστήματα κωδικοποίησης.
- Εικόνες: Αυτές μπορεί να είναι ακτινογραφικές εικόνες που προκύπτουν από ακτινογραφίες, υπερηχοκαρδιογράφημα και σαρώσεις υπολογιστικής τομογραφίας (CT).
- Σημειώσεις και αναφορές: Αυτές μπορεί να σχετίζονται με την πρόοδο των ασθενών. Σε αυτήν την κατηγορία ανήκουν και οι περιλήψεις απαλλαγής. Τα ευρήματα από απεικονιστικές μελέτες περιγράφονται συνήθως σε χειρουργικές αναφορές. Οι σημειώσεις πρέπει να είναι μερικώς δομημένες χρησιμοποιώντας ένα πρότυπο σύστημα.
- Φυσιολογικά δεδομένα: Αυτή η κατηγορία ιατρικών δεδομένων περιέχει ζωτικά σημεία, όπως καρδιακό ρυθμό και αρτηριακή πίεση, καθώς και κυματομορφές ΗΚΓ και ΗΕΓ.
Οι σχεσιακές βάσεις δεδομένων χρησιμοποιούνται συχνότερα για τη διαχείριση και την αποθήκευση ιατρικών δεδομένων. Μπορούν να αναφέρονται ως μια συλλογή πινάκων που συνδέονται με κοινά κλειδιά. Ένα σχήμα βάσης δεδομένων καθορίζει πώς θα δομηθούν οι πίνακες και οι σχέσεις τους. Μια απλή ιατρική βάση δεδομένων μπορεί να περιέχει τέσσερις πίνακες:
- Πίνακας 1: λίστα ασθενών
- Πίνακας 2: ημερολόγιο εισαγωγών σε νοσοκομείο
- Πίνακας 3: μια λίστα με μετρήσεις ζωτικών σημείων
- Πίνακας 4: λεξικό κωδικών ζωτικής σημασίας και σχετικών
Μπορούν να χρησιμοποιηθούν κύρια και ξένα κλειδιά για τη σύνδεση των τεσσάρων πινάκων.
Η υπεροχή των βάσεων δεδομένων υγειονομικής περίθαλψης παρέχει περιορισμένη πρόσβαση σε δεδομένα για διάφορους λόγους, συμπεριλαμβανομένων προβλημάτων απορρήτου και σχέδια για τη δημιουργία εσόδων από τα δεδομένα. Παρ ‘όλα αυτά, μια σειρά από βάσεις δεδομένων υγείας ανοιχτής πρόσβασης είναι διαθέσιμες για δημόσια χρήση, μερικές από τις οποίες περιγράφονται παρακάτω.
Βάση δεδομένων Ιατρικών πληροφοριών Mart for Intensive Care (MIMIC)
Η βάση δεδομένων MIMIC (http://mimic.physionet.org) δημιουργήθηκε το 2003 ως αποτέλεσμα συνεργασίας μεταξύ του MIT, της Philips Medical Systems και του Ιατρικού Κέντρου Beth Israel Deaconess (BIDMC). Τα δεδομένα που εισάγονται σε αυτή τη βάση δεδομένων προέρχονται από ιατρικούς και χειρουργικούς ασθενείς που εισήχθησαν σε όλες τις Μονάδες Εντατικής Θεραπείας στο BIDMC. Αποτελείται από πληροφορίες από πάνω από σαράντα χιλιάδες ασθενείς, λεπτομερή φυσιολογικά και κλινικά δεδομένα και είναι απροσδιόριστη και ανοιχτά προσβάσιμη στους ερευνητές. Δύο τύποι δεδομένων υπάρχουν σε αυτήν τη βάση δεδομένων: κλινικά δεδομένα που προέρχονται από EHR, τα οποία αποθηκεύονται σε μια σχεσιακή βάση δεδομένων που περιλαμβάνει περίπου 50 πίνακες, και κυματομορφές παρακολούθησης κομοδίνου αποθηκευμένες σε επίπεδα δυαδικά αρχεία. Στόχος αυτής της συνεργασίας είναι η παραγωγή και αξιολόγηση προηγμένων συστημάτων παρακολούθησης ασθενών και υποστήριξης αποφάσεων των ΜΕΘ που θα κάνουν τελικά τη διαδικασία λήψης αποφάσεων στην κρίσιμη περίθαλψη πιο αποτελεσματική, γρηγορότερη και ακριβέστερη.
PCORnet
Το PCORnet, το Εθνικό Κέντρο Κλινικής Έρευνας με επίκεντρο τον ασθενή, είναι μια πρωτοβουλία που ξεκίνησε το 2013 με στόχο την ενσωμάτωση δεδομένων από διάφορα δίκτυα έρευνας κλινικών δεδομένων και ερευνητικά δίκτυα που υποστηρίζονται από ασθενείς. Περιέχει 29 δίκτυα που θα διευκολύνουν την πρόσβαση σε τεράστιες έρευνες. Συλλέγει δεδομένα από τις συνήθεις επισκέψεις ασθενών και δεδομένα που κοινοποιούνται από μεμονωμένους ασθενείς μέσω προσωπικών αρχείων υγείας ή κοινοτικών δικτύων με άλλους ασθενείς.
Open NHS
Οι Εθνικές Υπηρεσίες Υγείας (NHS England) διατηρούν ένα από τα μεγαλύτερα αποθετήρια στον κόσμο που περιέχουν δεδομένα σχετικά με την υγεία των ανθρώπων. Το Open NHS είναι μια βάση δεδομένων ανοιχτού κώδικα που παρέχει πρόσβαση σε πληροφορίες που διατίθενται στο κοινό από την κυβέρνηση ή άλλους δημόσιους φορείς. Αυτό το έργο δημιουργήθηκε με σκοπό την αύξηση της διαφάνειας και την παρακολούθηση της αποτελεσματικότητας του βρετανικού τομέα υγειονομικής περίθαλψης. Στους ασθενείς, στους εργαζόμενους στον τομέα της υγειονομικής περίθαλψης και στους επιτρόπους δίνεται η ευκαιρία να συγκρίνουν την ποιότητα της περίθαλψης σε διάφορες τοποθεσίες της χώρας απλώς αποκτώντας πρόσβαση στα διαθέσιμα δεδομένα στην ειδικά σχεδιασμένη βάση δεδομένων.
Απο-ταυτοποίηση βάσης δεδομένων
Ένα από τα βασικά βήματα για τη δημιουργία μιας βάσης δεδομένων EHR είναι η απο-αναγνώριση. Πριν γίνει διαθέσιμη μια βάση δεδομένων για χρήση από ερευνητές και εφαρμογές, είναι απαραίτητο να ληφθούν μέτρα προκειμένου να διασφαλιστεί ότι ακολουθούνται οι πολιτικές και οι κανονισμοί απορρήτου. Για δομημένα δεδομένα, όπως στήλες ενός πίνακα, η απο-αναγνώριση βασίζεται στην κατηγοριοποίηση των δεδομένων και στην επακόλουθη διαγραφή ή κρυπτογραφία αυτών που επισημαίνονται ως προστατευμένα. Για μη δομημένα δεδομένα, όπως περιλήψεις απαλλαγής, χρησιμοποιούνται διαφορετικές τεχνικές επεξεργασίας φυσικής γλώσσας, από απλές κανονικές εκφράσεις έως πολύπλοκα νευρωνικά δίκτυα, τα οποία προσπαθούν να βρουν όλες τις πληροφορίες που προστατεύονται σε όλο το ελεύθερο κείμενο για να εκτελέσουν διαγραφή ή κρυπτογραφία.
Η εφαρμογή του blockchain στην ψηφιακή υγεία
Η τεχνολογία Blockchain βασίζεται στην ιδέα της ύπαρξης ενός αποκεντρωμένου συστήματος αποθήκευσης δεδομένων, όπου ένα αντίγραφο του βιβλίου των εκτελούμενων συναλλαγών θα παρέχεται σε κάθε συμμετέχοντα/κόμβο. Αυτό καταστεί αδύνατο για κάποιον να τροποποιήσει τα δεδομένα χωρίς να ενημερώνονται οι άλλοι συμμετέχοντες. Ισχυρές συγκεντρωτικές οντότητες θα επωφεληθούν από την εφαρμογή του blockchain. Οι εφαρμογές της ψηφιακής υγείας εξαρτώνται σε μεγάλο βαθμό από τα κεντρικά συστήματα. Επομένως, το blockchain έχει τη δυνατότητα να μεταμορφώσει την ψηφιακή υγεία αλλάζοντας τον τρόπο αποθήκευσης και ασφάλειας των δεδομένων. Για την εφαρμογή του έχουν προταθεί διάφοροι τομείς, συμπεριλαμβανομένων των αλυσίδων εφοδιασμού, της επαλήθευσης φαρμάκων, της επιστροφής απαιτήσεων, του ελέγχου πρόσβασης και των κλινικών δοκιμών.
Τα ιατρικά δεδομένα διαπιστώθηκε ότι είναι τα πιο πολύτιμα δεδομένα από τους χάκερ, καθώς πρόσφατες μελέτες έχουν εκτιμήσει ότι ένα ενιαίο αρχείο υγείας μπορεί να κοστίσει έως και 400 δολάρια ΗΠΑ. Αυτό σημαίνει ότι η διατήρηση των δεδομένων με ασφάλεια στις ιατρικές βάσεις δεδομένων είναι υψίστης σημασίας. Το Blockchain μπορεί να δώσει μια λύση σε αυτό το ζήτημα, διασφαλίζοντας το απόρρητο, την ακεραιότητα, τον έλεγχο ταυτότητας και την εξουσιοδότηση δεδομένων. Τα δεδομένα Blockchain είναι κρυπτογραφημένα και αν κάποιος πρέπει να διαγράψει ή να κάνει τα δεδομένα του άχρηστα, του παρέχεται αυτή η δυνατότητα εφαρμόζοντας έναν μηχανισμό καταστροφής κλειδιού, όπου το κλειδί που χρησιμοποιήθηκε αρχικά για την κρυπτογράφηση του μηνύματος θα καταστραφεί ή θα καταστεί άχρηστο. Στη συνέχεια, τα δεδομένα που είναι αποθηκευμένα στο blockchain δεν θα είναι προσβάσιμα για ανάγνωση.
Το Blockchain είναι σε θέση να καλύψει δύο βασικές ανάγκες σχετικά με την κοινή χρήση δεδομένων: την ακεραιότητα και τη μη αποκήρυξη. Η ακεραιότητα σημαίνει ότι το ερώτημα και τα δεδομένα που ανακτήθηκαν δεν μπορούν να τροποποιηθούν, μόλις ολοκληρωθεί η λειτουργία ανάκτησης. Η μη απόρριψη σημαίνει ότι η υπηρεσία ανάκτησης γνώσης δεν έχει τη δυνατότητα να αρνηθεί ότι τα συγκεκριμένα δεδομένα έχουν παραδοθεί από την υπηρεσία ως απάντηση σε ένα δεδομένο ερώτημα σε μια συγκεκριμένη στιγμή. Το Blockchain μπορεί να οριστεί ως κατανεμημένο σύστημα διαχείρισης συναλλαγών που δεν μπορεί να καταστραφεί. Μπορεί να εφαρμοστεί για ενσωμάτωση EHR, κοινή χρήση και έλεγχο πρόσβασης, διατήρηση και διαχείριση.
Μια θεωρητική υπηρεσία συμβολαιογραφικών ερωτήσεων που βασίζεται σε blockchain μπορεί να αποτελείται από τρία υπολογιστικά επίπεδα:
- ένα καταναλωτικό κοινό front-end
- μια διεπαφή επικοινωνίας με διεπαφές βιοϊατρικής βάσης δεδομένων, και
- η μηχανή συμβολαίου, η οποία οργανώνει το ερώτημα και επιστρέφει τα ανακτημένα αποτελέσματα στον καταναλωτή, εκτελεί και προετοιμάζει συναλλαγές και διαχειρίζεται συμβάσεις και μεταδεδομένα τους
Δύο διαφορετικά σχήματα μπορούν να χρησιμοποιηθούν για την εφαρμογή της συμβολαιογραφικής υπηρεσίας: το βασικό σχήμα και το σχέδιο έκδοσης. Το βασικό σχήμα εφαρμόζει ένα καθολικό απόκρισης ερωτήματος με το οποίο ο χρήστης λαμβάνει μια σφραγισμένη απόδειξη που επιβεβαιώνει ότι σε μια συγκεκριμένη στιγμή ένα συγκεκριμένο ερώτημα έχει τοποθετηθεί σε μια βιοϊατρική βάση δεδομένων, η οποία επέστρεψε συγκεκριμένα αποτελέσματα. Αυτό το σχήμα μπορεί να χρησιμοποιηθεί για να διασφαλίσει την ακεραιότητα και τη μη απόρριψη ενός ερωτήματος, όταν μια ζωτική βιοϊατρική εργασία βασίζεται στο συγκεκριμένο ερώτημα. Το σχέδιο έκδοσης επιτρέπει τη μη έγκυρη έκδοση δεδομένων που ανακτήθηκαν από μια δυναμικά εξελισσόμενη βιοϊατρική βάση δεδομένων σε πολλές περιπτώσεις στο χρόνο, χρησιμοποιώντας πάντα το ίδιο ερώτημα. Αυτό το σχήμα μπορεί να εφαρμοστεί για την επιβεβαίωση διαφορετικών εκδόσεων αλλαγής ιατρικών στοιχείων όπως ανακτήθηκαν από μια βιοϊατρική βάση δεδομένων με περιεχόμενο που ενημερώνεται συχνά.
Η ενσωμάτωση της τεχνολογίας blockchain σε φαρμακευτικές εφαρμογές ή εφαρμογές επιστήμης ζωής έχει την ικανότητα να αποκεντρώνει τη διεπαφή και την κοινή χρήση δεδομένων, οδηγώντας σε αυξημένη απόδοση, υψηλότερες ταχύτητες και απεριόριστη επεκτασιμότητα. Το Blockchain καθιστά τα δεδομένα αμετάβλητα, τα οποία θα ήταν χρήσιμα σε κλινικές δοκιμές για να διασφαλιστεί ότι τα κλινικά δεδομένα δεν μπορούν να χειριστούν από τους ερευνητές αργότερα. Μπορεί επίσης να χρησιμοποιηθεί στη διαδικασία ταυτοποίησης, ανίχνευσης και επαλήθευσης φαρμάκων. Υπάρχουν ορισμένοι κίνδυνοι που σχετίζονται με την εφαρμογή του blockchain, όπως ανησυχίες για το απόρρητο, συναλλαγές εκτός αλυσίδας και αμφιβολίες σχετικά με αυτήν την τεχνολογία λόγω έλλειψης υιοθέτησης. Παρ ‘όλα αυτά, τα οφέλη της τεχνολογίας blockchain υπερτερούν κατά πολύ των πιθανών μειονεκτημάτων και θα μπορούσαν να έχουν σημαντικό ρόλο στον περιορισμό των μεθόδων που χρησιμοποιούνται για παράνομες δραστηριότητες.
Test: LO5 ΠΡΟΧΩΡΗΜΕΝΟ ΕΠΙΠΕΔΟ
Βιβλιογραφικές αναφορές
- Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
- Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
- Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
- Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
- Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
- Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
- Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
- Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
- Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
- Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
- Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
- Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
- Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
- Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
- Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
- Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
- Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
- Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
- Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
- Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
- Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
- Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
- Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
- Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
- Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
- Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
- Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
- Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
- Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
- Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
- The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
- Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
- Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.
- Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
- Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
- Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
- Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
- Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
- Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
- Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
- Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
- Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
- Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
- Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
- Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
- Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
- Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
- Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
- Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
- Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
- Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
- Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
- Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
- Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
- Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
- Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
- Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
- Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
- Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
- Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
- Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
- Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
- Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
- Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
- Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
- Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
- Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
- The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
- Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
- Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
- Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
- Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.
1 Πηγή https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/
2 Πηγή https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/
3 Πηγή https://support.oracle.com/knowledge/Oracle%20Database%20Products/1369107_1.html
4 Πηγή https://www.guru99.com/free-database-software.html updated on 2021


