Общодостъпни научни ресурси: Дигитални бази данни

ОСНОВНО НИВО

Общият (отворен) достъп, или OД, е набор от принципи и практики, чрез които научните резултати се разпространяват онлайн, безплатно и без допълнителни ограничения.

Съдържание

 

Общодостъпни научни ресурси

Въведение в „Общодостъпните“ ресурси

Общият (отворен) достъп, или OД, е набор от принципи и практики, чрез които научните резултати се разпространяват онлайн, безплатно и без допълнителни ограничения. Чрез прилагането на лиценз за авторски права към тях, в рамките на строго дефинирания общ достъп (съгласно определението от 2001 г.), или безплатен отворен достъп, се намаляват или премахват ограниченията пред тяхното копиране и повторна употреба.

Основен фокус на общия достъп до данни е „рецензираната научна литература“. В исторически план, общият достъп възниква с печатните академични списания. Докато конвенционалните (без общ достъп) списания покриват своите разходи за публикуване чрез такси за достъп като абонаменти, лицензи за сайт или такси за достъп, списанията с общ достъп се характеризират с финансиране, което не изисква четящият да заплаща за достъп до съдържанието на списанието. Общият достъп може да бъде приложен към всички форми на публикувани научни резултати, включително рецензирани и не рецензирани статии в академични списания, доклади от конференции, дисертации, глави от книги, монографии и снимки.

Все пак обаче, когато става въпрос за „отворен” достъп, трябва да се разграничи  „безплатен” (gratis) от „свободен” (libre) достъп.

За да се отразят реалните различия в степента на отворен достъп, разграничаването между безплатен отворен достъп и свободен отворен достъп е дефинирано през 2006 г. от Хитър Субер и Стивън Харнад, двама от основателите на Будапещенската инициатива за отворен достъп  (Budapest Open Access Initiative, BOAI). Безплатен отворен достъп се отнася към безплатен онлайн достъп до материали, докато свободния отворен достъп се отнася към безплатен онлайн достъп плюс някои допълнителни права за повторно използване на материалите. Свободният отворен достъп е еквивалентен на отворения достъп съгласно дефиницията на BOAI, Становището от Бъдезда за отворен достъп до публикувани данни и Декларацията от Берлин за отворен достъп до знания в областта на природните и хуманитарните науки. Правата за повторно използване на данни в рамките на свободния отворен достъп често се определят от различни специфични “Creative Commons” (авторско-общи) лицензи, като почти всички от тях изискват признаване на авторство на първоначалните източници на данни.

Документът, публикуван през февруари 2002 г. от BOAI съдържа следната широко използвана дефиниция:

  • Под“отворен достъп“ до литература, се има предвид нейната безплатна достъпност в публичното интернет пространство, позволяваща на всички потребители да четат,  изтеглят, копират, разпространяват, отпечатват, търсят или правят връзки към пълния текст на статиите, индексират, използват ги като данни за софтуер или други законни цели, без финансови, правни или технически ограничения, различни от тези, които са неделима част от получаването на достъп до интернет. Единственото ограничение за възпроизвеждането и разпространението на данни са авторските права, които дават възможност на авторите да контролират целостта на тяхната разработка и да определят необходимостта да бъде признато тяхното авторство и да бъдат цитирани.

Имайки предвид горната информация, използването на общодостъпните научни ресурси трябва да следва общи правила. При публикуването на научни ресурси с отворен достъп трябва ясно да бъде определено дали те са свободни или безплатни, както и трябва да бъде споменат техния първоначален автор.

Въведение в данните (основно ниво)

Какво са „данни”

Съгласно речника на Мериам-Уебстър, съществуват три различни определения за данни:

  1. Фактическа информация, такава като измервания или статистика, въз основа на която се разсъждава, дискутира или се правят изчисления.
  2. Информация в числов вид, която може да се предава или обработва.
  3. Информация от сензорно устройство или апарат, която съдържа както необходима, така и неподходяща или излишна информация, и която трябва да се обработи, за да придобие смисъл.

В този материал ще разгледаме повече от тези три определения.

Кратка история на данните

Откакто хората са започнали да комуникират, те изпитвали необходимост да съхраняват информацията за дълъг период от време. Съхраняването на информация било необходимо на нашите предци, за да осигури тяхното оцеляване. Предаването на информация между поколенията позволявало да се помнят местата, криещи потенциална опасност, а също и тези, които били най-подходящи за събирането на храна, риболов, където живеели най-добрите животни за лов, както и местата, предлагащи най-добрите укрития. Цялата тази информация се предавала устно. С развитието на знанията и изобретяването на писмеността, нашите предци започнали да съхраняват информацията на трайни носители.

Без да навлизаме в подробности относно развитието на начина на представяне на информация, ще бъдат представени някои важни примери, имащи значение за структурирането на мисленето, което от своя страна е довело до откриването на компютърните инструменти използвани ежедневно.

Данните преди изобретяването на компютрите

С възникването на човешкото общество, колективната мотивираност за развитие на писмеността се ръководела от прагматична необходимост. Тази необходимост се определяла от това обществото да бъде организирано и ръководено чрез създаването на правни системи, договори, актове за собственост, данъчно облагане, търговски споразумения, спогодби, регистри от преброяване, водене на история, поддържане на културата, проследяване на научни открития, кодифициране на знания чрез курсове за обучение и набор от текстове, които са изключително художествени или съдържат фундаментални знания, както и много други нужди.

Фигура 1: Клинопис

Например, около 4 в. пр.н.е., комплексният характер на търговията и администрацията на Месопотамия надвишил човешката памет и писането ставало по-надежден метод за записване и представяне на договорен обмен между страните в една постоянна, дългосрочна форма.

Клинописът е една от най-древните системи на писменост, изобретена от шумерите в древна Месопотамия. Отличава се със своите клиновидни вдлъбнатини върху глинени плочи, направени с помощта на тъп тръстиков стилус, както е показано на фиг. 1.

С течение на времето, развитието на знанията, умножаването на информацията, ограниченията на човешката памет, нуждата от записване и съхранение на записи, съдържащи огромно количество от информация, придобива съществено значение. Въпреки това, при съхранението на записи, съдържащи почти всякакъв вид информация или данни, на различни носители, в случай на нужда, става все по-сложно тя да бъде извлечена по лесен начин. Необходимо е човек да прочете десетки доклади и книги, за да може да синтезира необходимата му информация по конкретен проблем.

Данните в модерната ера

Днес, количеството данни продуцирани ежегодно и съхранявани дигитално, като списъци със задачи, рецепти, напомняния, дневници, карти, снимки, електронни писма, научни данни, политически доклади, видеоклипове и др., нараства експоненциално. Това създава необходимост да бъде намерен начин, по които нужната информация да бъде извлечена от това феноменално количество данни.

Компютрите набират популярност и стават достъпни за употреба от частни лица и компании в началото на 80-те години на миналия век. Въпреки това, 60-те могат да се считат като „нова ера“ в областта на базите данни. Въвеждането на термина „база данни“ съвпада със създаването на хранилища с директен достъп или DAS (direct-access storage). Тази нова технология представлява противоположност на използваните преди това перфо-карти и базираните на лента системи, и позволява споделена, интерактивна употреба, а не ежедневна обработка на партиди от данни. Разработени били два основни модела на данни – мрежови модел „CODASYL“ (Conference on Data System Language) и  йерархичен модел „IMS“ (Information Management System).

Първото поколение системи за бази данни било „навигационно“, противоположно на „последователния“ достъп при предходните технологии за съхранение на данни, т.е с използването на ленти и перфо-карти. Приложенията обикновено получавали достъп до данните чрез следването на указатели от един запис към друг. Детайлите на хранилището зависели от типа на данните, които се съхраняват в него.

Добавянето на допълнително поле към базите данни изисквало пренаписването на основната схема за достъп/модификация. Акцент бил поставян върху записите, които трябвало да бъдат пренаписани, а не върху цялостната структура на системата. В такъв случай, потребителят би трябвало да знае физичната структура на базата данни, за да изисква търсената информация. Базата данни, която имала успех била системата  „SABRE“. Тя била използвана от IBM, за да подпомогне Американ Еърлайнс при управлението на данните за резервации. Тази система все още се използва от основните туристически агенции в техните схеми за резервации.

В съвременните информационни технологии, сред потребителите винаги е съществувало объркване между база данни и достъпните чрез браузер интернет базираните уеб търсачки. Базите данни обикновено съдържат структурирани данни,  за разлика от интернет World Wide Web (www), където обикновено се съдържат неструктурирани данни. Дори извличането на информация от двата типа системи, база данни и „www“ да е безпроблемно и да изглежда сходно, съдържанието и начинът на адресиране на заявките са напълно различни. Структурираните и неструктурираните данни ще бъдат разгледани подробно по-надолу в този материал.

Разбиране на основните термини

Терминология

Както всяка друга наука, компютърната наука има свой собствен език. За да разберете напълно информацията представена в този материал, е необходимо да се запознаете с термините, касаещи конкретната тематика.

Освен това, ще бъде улеснена комуникацията с администратора на базата данни (АБД, Database Administrator, DBA). Когато е необходимо биохимик да обясни своите нужди по отношение на структурирането и управлението на данни в базите данни, той би използвал свой собствен техничен език. В такъв случай АБД ще трябва да разбере подадената заявка и да я трансформира в компютърен език, който да бъде разбираем за биохимика.

Какво са „Данни“ в ерата на компютрите

Фигура 2: Битът може да приема стойности 0 или 1

Както бе споменато в част 2.1, според областта за която се отнасят, данни могат да имат различно значение. Когато става въпрос за изчисления и бази данни, данни се дефинира като последователност от един или повече символи. В този случай данните трябва да бъдат интерпретирани, за да са превърнат в информация. В сферата на информационните технологии „бит“ е най-малкото количество информация. Битът е двоичен. Двоичните числа представляват числа, при чиито запис се използват само две цифри, 0 и 1 (фиг. 2). Това е цифрова система изградена на базата на числото 2, т.e.:

  • 0 0 0 1 = числова стойност 20
  • 0 0 1 0 = числова стойност 21
  • 0 1 0 0 = числова стойност 22
  • 1 0 0 0 = числова стойност 23

Таблица 1

Последователност от „битове“ образува „байт“. Байтовете са съвкупност от битове, чиято бройка е кратна на 4 (байт от 4 бита се нарича нибъл) както е представено на примера по-горе. Днес, байтът е единица за цифрова информация, която най-често се състой от 8 бита. В миналото, байтът бе съвкупност от битове използвани за кодиране на единичен символ в компютъризиран текст. С байт от 8 бита максималното десетично число е 256. В исторически план, байтът е и единица за компютърна информация или капацитет за съхранение на данни, използвана за измерване на количество данни. (Таблица 1).

Таблица 2 ASCII таблица

Пример за такъв тип употреба е ASCII таблицата (Американски Стандартен Код за Обмен на Информация, American Standard Code for Information Interchange), съдържаща знаци, често използвани за обозначаване на азбучни символи (Таблица 2). Първите 32 знака се наричат контролни знаци. Първоначално те не са били проектирани да предават информация за печат, а да осъществяват контрол над устройството, което използва ASCII табличния код (напр. принтер), или да предоставят информация за потока от метаданни, например тези съхранявани на магнитна лента.

Какво са “Метаданни”

Фигура 3: Снимка от Гърция

Метаданни, или по-просто казано, метаинформация, се използват за препратка към данни за данните. Наличието на данни не е достатъчно, за да могат те да бъдат просто поставени онлайн. Данните са неизползваеми, докато не бъдат обяснени по начин, по който хората и компютрите да могат да ги използват.
Метаданните могат да бъдат подразбиращи се, уточняващи или определящи. Те могат да включват данни свързани с физически събития или процеси, както и такива за времевия компонент. Почти винаги този времеви компонент е по подразбиране. Това вероятно е малко сложно да бъде разбрано, но следващият пример ще внесе малко повече яснота в обяснението на този термин.
Представете си, че сте на пътешествие с любимия си смартфон и се намирате на някой райски остров. Правите снимки (фиг. 3), за да запазите хубавите моменти от това пътуване. Седмица по-късно, пътуването ви приключва и вие трябва да се върнете вкъщи.

Фигура 4:
Метаданни върху снимка

Когато се приберете вкъщи, вие каните най-добрите си приятели на парти и искате да им покажете красивите места, които сте видели по време на вашето пътуване. Започвате да им показвате снимките, но за някои от тях не можете да си спомните деня, по кое време са били направени и къде са направени. В такъв случай могат да ви помогнат метаданните. Или, казано с други думи,  метаданните са описание на данните. В този пример, снимката представлява данните, а описанието на снимката – метаданните (фиг. 4).

Трябва да бъде ясно, че в биотехнологията метаданните са дори по-важни от данните. Лесно е да се разбере причината, поради която метаданните са ключов компонент пряко свързан с данните. Представете си експеримент, който ще доведе до конкретен резултат. Този експеримент, за да е валиден, трябва да бъде документиран. Документацията трябва да включва всички условия, при които е проведен експеримента. Това може да включва описание на суровината, която е използвана, нейния източник, при какви условия е била събрана, типа на апаратите, използвани при експеримента, температурата, датата, часа и др. За да бъде резултатът от този експеримент сравним с резултатите от други подобни експерименти, то всички условия трябва да бъдат сходни. Необработените данни без метаданни са безполезни.

Най-голямото предизвикателство в биотехнологията, както и в другите науки, е стандартизацията на метаданните.  В по-голяма част от биотехнологичните бази данни това правило не се спазва. Експериментаторът трябва да осъзнава това и да се отнася с респект към стандартизирането.

Какво е „База данни“

Фигура 5: Частична структура на база данни

Най-общо казано, база данни се дефинира като набор от данни, такива като телефонни указатели, ценови листи, инвентарни списъци, адреси на клиенти и др. Независимо от това, погледнато технически, база данни се нарича „самоописващ се набор от интегрирани записи“. Това предполага компютърна технология допълнена от специфичен компютърен език, такъв като SQL (Език за Структурирани Заявки Structured Query Language,).

Базата данни се състои от множество таблици (фиг. 5), съдържащи както данни, така и метаданни. Метаданните са данни, които описват структурата на данните в рамките на базата данни. Ако знаете как вашите данни са подредени, вие можете лесно да ги извлечете. Тъй като базата данни съдържа описание на своята структура, тя се нарича самоописваща се. Базата данни е интегрирана, защото включва не само набор от данни, но и връзките между тях.

Базата данни съхранява метаданни в област наречена “речник на данни”, който  “речник” описва таблиците, колоните, индексите, ограниченията и други елементи, които съставляват базата данни.

Тай като плоската файлова система, т.е. “електронната таблица” не съдържа метаданни, приложенията написани за работа с плоски файлове трябва да съдържат еквивалент на метаданните като част от тези приложения.

Какво са „Таблици“ в база данни

Таблицата е набор от свързани данни, организирани под формата на таблица, съставена от колони и редове в рамките на база данни. Тя е подобна на електронните таблици (фиг. 6).

Какво са „Колони“ в база данни

Фигура 6: Таблица с редове и колони

Колоната е набор от стойности на данни, всички от един и същ тип, част от таблица. Колоните определят данните  в таблица. Повечето бази данни позволяват колоните да съдържат комплексни данни като изображения, цели документи или дори видео клипове. Следователно, колоната позволява стойности на данни от един и същ тип, но това не означава задължително, че има само прости текстови стойности. Някои бази данни отиват още по-далеч и позволяват данните да бъдат съхранявани като файлове в операционната система, докато данните в колоната съдържат само указател или връзка към действителния файл.  Това се прави с цел лесна поддръжка на общия размер на базата данни – по-малки по размер  бази данни означава по-малко време за архивиране и по-малко време необходимо за търсене в тази база данни.

В таблицата, обикновено всяка колона има ограничения относно типа на стойностите, които могат да бъдат съхранявани в нея.  Например, една колона може да приема адреси за електронни пощи, а друга да приема числа, съставени от 10 цифри.

Какво е „Запис“

Записът е представяне на физически или идеен обект. Например, ако е необходимо да бъдат записани клиентите на даден бизнес. Прави се запис за всеки клиент. Всеки запис има множество атрибути, такива като име, адрес, телефонен номер и др. Индивидуалните номера, адреси и т.н. са данни.

Какво са „Индекси“

Фигури 7: Пример за индекс

Структурираните данни се съхраняват под формата на записи в базата данни. Всеки запис има ключово поле, което му позволява да бъде разпознат по уникален начин, т.е. има свое ID на пациента. Никой друг пациент няма същия ID номер, въпреки че могат да съществуват двама пациенти с едно и също първо име и фамилия.

Индексирането на базата данни е техника за ефективно извличане на записи от файловете в базата данни, въз основа на някои атрибути, използвани при самото индексиране.  Казано по-просто, индексирането в системите на базите данни е подобно на това, което се използва при книгите. В началото или в края на книгата може да бъде намерен такъв индекс (различен от съдържанието на книгата), който показва всички номера на страниците, касаеща специфична тема. Например, един географски атлас може да бъде разделен на глави, съдържащи карти, глави, съдържащи данни за населението и глави, относно производството или земеделска продукция. Ако вие търсите определена държава и бихте искали да направите общ преглед на всички данни за тази държава, индексът може да бъде много полезен, тъй като във всяка глава, той ще покаже съответната страница, касаеща тази държава (фиг. 7).

Какво е „Обект“

В компютърната наука, обектът може да бъда променлива величина, структура от данни, функция или метод, и като такава представлява стойност в паметта и е обозначена от идентификатор. При релационния модел на управление на бази данни, обектът може да бъде таблица или колона, или асоциация между данните и отделната единица в базата данни, като например връзката между възрастта на определен човек и конкретното лице.

Структурирани данни

Фигура 8: Структурирани данни

Съгласно SNIA (Асоциация на индустрията за мрежово съхранение, Storage Networking Industry Аssociation), като структурирани данни се определят:

“Данни, които са организирани и форматирани по познат и фиксиран начин.

Форматът и организацията обикновено се определят по схема. Терминът структурирани данни обикновено се използва за данни, генерирани и поддържани от бази данни или бизнес приложения.”

Необходимо е да бъдат спазени три условия, за да бъдат едни данни определени като структурирани:

  • трябва да съответстват на модела данни,
  • трябва да имат добре дефинирана структура,
  • трябва да следват определен ред и да бъдат лесно достъпни и удобни за употреба от човек или компютърна програма

Структурираните данни обикновено се съхраняват в добре дефинирани схеми каквито са базите данни. Обикновено тя е таблична с колони и редове, които ясно определят нейните атрибути (фиг. 8).

SQL езика (Structured Query language) често се използва за управление на структурирани данни в различните бази данни.

Неструктурирани данни

Фигура 9: Част от PDF файл

Информация, която не е структурирана в предварително дефиниран модел, се нарича неструктурирани данни или неструктурирана информация. В компютърната наука, файлове, съдържащи текст, снимки, видео, аудио и презентации се считат за неструктурирани файлове. Обикновено PDF файловете съдържат неструктурирани данни (фиг. 9).

Смята се, че 80 до 90% от общото количество нематериализирани данни са неструктурирани. Обичайните алгоритми не могат лесно и ефективно да извлекат необходимата информация от неструктуриран файл, така както е показана в примера на фиг. 9. Същата информация показана на фиг. 9 може лесно да бъде извлечена със заявка. Въпреки това обаче, днес са налични инструменти за анализ на неструктурирани данни, управлявани от изкуствен интелект (AI), които са специално създадени за достъп до наличните неструктурирани данни (виж 3.1.12 Анализ).

Големи данни

Според SNIA, големите данни се определят като:

“Набор от данни, които са твърде големи, за да бъдат ефективно обработени изцяло, дори от най-мощните съществуващи стандартни изчислителни платформи”

С други думи, Големите данни се отнасят до огромни количества структурирани или неструктурирани данни, които не могат да бъдат обработени от обичайния софтуер, каквито са традиционните езици за заявки към бази данни или друг тип механизми за извличане.

Съществува объркване по отношение на използването на термините Големи данни и Анализ. Големите данни са информация, докато Анализът е начина на извличане на желаната информация от огромното количество налична информация.

Анализ

В компютърните технологии, Анализът е метод за  извличане на информация от големи данни.

В областта на здравеопазването, прилагането на Анализ на Големи данни доведе до множество подобрения, сред които персонализираната медицината и включването на прогнозен анализ. Тай като обемът на данните се увеличава драстично, традиционните бази данни и механизми за търсене не могат да обработят и извлекат конкретната информация. Данни за пациентите се генерират от ЯМР, рентгенови снимки, данни от кръвни тестове и сензори за мониторинг, както и от много други източници на сложни за обработка данни. Огромното количество информация в областта на здравеопазването вече се намира в електронна форма и се обособява като Големи данни, голяма част от които са неструктурирани и трудни за използване.

Използването на Големите данни в изследвания свързани със здравеопазването, са особено обещаващи, тъй като анализът, базиран на данни е по-надежден от този, базиран на хипотези. В последствие, тенденциите, наблюдавани при анализът на данни могат да бъде тестван при традиционни, базирани на хипотези биологични изследвания и евентуално клинични изпитвания.

Хранилище

Хранилището за данни, или склада за данни, е централизирано място за съхранение и поддържане на данните. Хранилището за данни  може да съдържа един или повече файлове със структурирани данни, които могат да бъдат разпръснати в мрежа или да бъдат дългосрочно съхранявани.

Основна структура на базата данни

Този раздел е посветен на основните градивни единици, съставящи базата данни.

Въведение

От момента на изобретяване на компютрите, количеството на съхраняваните и управлявани данни се увеличава драстично. Смята се, че през 2025 година, количеството на данните ще достигне до 175 зетабайта (1021 байта) за разлика от няколкото петабайта (1015 байта) през 2000 година. Един от често срещаните начини за опростяване живота на потребителите е чрез повишаване ефективността на съхранение и извличане на информация от техните ресурси. Например, докато плоският файл е чудесен начин за съхранение на персонална информация, такава като адресна книга или списък с рецепти, тази тип файл не е подходящ за съхраняване на телефонните номера на жителите на един град или на геномни данни в областта на биотехнологиите.  Освен това, ако искате да съхранявате данни за генома на няколко вида, много е трудно те да бъдат съхранявани, и по-късно извлечени, от плосък файл. Базите данни предлагат решение на този проблем като улесняват съхранението, обработката и извличането на информация.

Софтуерът, използван за управление на базата данни се нарича система за управление на база данни (СУБД, database management system, DBMS). Този специализиран софтуер действа като посредник, който подпомага крайния потребител да получи достъп до базата данни. Обикновено потребителите не взаимодействат директно с базата данни, защото това може да доведе до нейната дезорганизация. Вместо това, те използват системата за управление на базата данни (СУБД ), която чете данни от или записва данни в базата данни.

Нарастващата сложност на големите количества данни наложи някои компании да използват инструменти за управление на данни базирани на релационния модел, какъвто е класическият РСУБД. РСУБД означава Релационна система за управление на база данни (Relational Database Management System, RDBMS). Въпреки това, големите интернет компании като Google, Yahoo и Amazon, или всички популярни социални медии , се сблъскаха с редица предизвикателства при работата с огромните количества данни в реално време, нещо, с което конвенционалните РСУБД не можеха да се справят. Това обяснява нарастващата популярност на NoSQL системите за бази данни, които възникват успоредно с останалите системи.

NoSQL системите са разпределени, нерелационни бази данни предназначени за широкомащабно съхранение на данни, както и за масивно-паралелна, високоефективна обработка на данни в голям брой конвенционални сървъри. Този тип системи възникват поради необходимостта от гъвкавост, висока производителност и мащабност и могат да бъдат използвани в различни случаи, включително изследователски и прогнозен анализ в реално време. Създадени от най-добрите интернет компании, за да вървят в крак с нарастващия поток от данни, NoSQL базите данни се мащабират хоризонтално, и са проектирани да мащабират до стотици, милиони и дори милиарди потребители, извършващи актуализации или четящи в базата данни.

NoSQL базите данни най-често намират приложение в социалните медии, при големите доставчици на електронна поща и в различни държавни системи в областта на здравеопазването.

Обикновено едно социално приложение може да се мащабира от нула до милиони потребители за няколко седмици и с цел по-добра организация на това нарастване е необходима база данни, която да може да управлява голям брой потребители и данни, а също така и да бъде лесно мащабирана хоризонтално.

В този материал ние ще се фокусираме само върху СУБД и РСУБД. Това са двата типа бази данни, които днес са най-широко използвани в областта на биотехнологията.

Преглед на архитектурата на базата данни

Фигура 10: Хардуер архитектура на база данни

Базите данни могат да съхраняват всякакъв тип информация, от цифри и текст до електронни писма, интернет съдържание, телефонни номера, биологични и географски данни, и др. Базите данни са официално класифицирани според начина, по които съхраняват данните. Релационните бази данни съхраняват информацията под формата на таблици. Обект-ориентираните бази данни съхраняват данните в обектни класове и подкласове. Ние ще се съсредоточим върху релационните бази данни, тъй като те са най-често използваните. Все пак, повечето от основните топологии на базите данни включват наличието на „бекенд“ сървъри, в които се намира системата за управление на базата данни, система за съхранение на структурата и данни за базата данните, която да е прикачена към сървърите, и разбира се, компютри, лаптопи, десктопи или терминали, които да служат като интерфейс и да позволяват достъп на потребителите до базата данни, нейната система за управление и нейното съдържание. Също така се изисква мрежа за обмен между всички хардуерни компоненти и прикачен Облак, които да позволява на отдалечените потребители достъп до базата данни. На фиг. 10, по опростен и обобщен начин, са представени минималните изисквания за функционирането на една база данни.

Друг основен начин да опишем структурата на базата данни, е да представим тристепенната ѝ архитектура. На фиг. 11 е представена тази тристепенна архитектура, като са показани необходимите виртуални нива, за да може една база данни да функционира правилно.  Това са нарича ANSI-SPARC модел. Въпреки че този модел никога не се е превърнал в официален стандарт, той представя широко възприетата идеята за независимост на логическите данни.

Информацията, съхранявана в релационната база данни е под формата на таблици. Тези таблици са съставени от редове от данни и всеки ред съдържа полета или колони. В една добре организирана база данни, наречена схема, във всяка таблица могат да се съхраняват само подобни данни и дублирането на колони е сведено до минимум. Разработчиците могат да свързват или да присъединяват данни от две таблици, така че да покажат връзката между различни типове информация.

Индексите могат да бъдат създавани в полетата на таблицата на базата данни, за да улесни извличането на данни от СУБД. Обикновено индексите се конфигурират за често търсени колони, такива като имена на лица или дати. Недостатък при използването на индекси е, че той заема дисково пространство и това може да забави процеса на работа, той като, ако се съхраняват твърде много индекси и при всяка актуализация на редовете, съответните индекси също трябва да бъдат актуализирани.

Повечето бази данни поддържат SQL език (Structured Query Language), който е стандартен език за взаимодействие със съдържащата се в базата данни информация. SQL позволява на потребителите и приложенията да взаимодействат със специфични подмножества от данни от една или повече таблици като използват няколко израза като “SELECT”, “INSERT”, “UPDATE” и “DELETE”.

Релационните бази данни също така осигуряват “пластов” подход при съхранението на данните, което позволява определянето на това какви обекти се намират в конкретните файлове с данни и къде файлове с данни са позиционирани във файловата структура на операционната система. Освен управление на физическото място за съхранение на обектите в базата данни, много системи позволяват контрол върху това как данните се съхраняват във файловете на базата данни.

Основни термини за база данни

Някои термини относно базата данни произтичат от начина, по който базата данни автоматично записва информацията. Разработчиците на базите данни често автоматизират записа в определени полета или други таблици, като например записване на копие от реда, които е вмъкнат – заедно с информация за времето или потребителското име – към историята или таблицата за проверка в базата данни. Повечето СУБД предлагат няколко начина за автоматично управление на записите в базата данни.

Тригерът в базата данни е най-често използвания метод за предприемане на действия с вече записани данни. Тригерите обикновено са свързани с определена таблица и са конфигурирани да се изпълняват в определен момент по време на конкретно действие по записа, такова като преди или след актуализация на данните, или след като е вмъкнат ред. Тригерите могат да се използват за форматиране на данни, попълване на колона с данни, произхождащи от налична вече информация, или дори записване в друга таблица въз основа на реда, които е вмъкнат или актуализиран.

Съхранената процедура е друг начин за взаимодействие релационната база данни. Съхранените процедури са по-комплексни отколкото тригерите и не са обвързани с конкретна таблица. Обикновено създадени от разработчиците, процедурите използват комбинации от SQL и програмен език, например Java или SQL (в зависимост от платформата на базата данни). Съхранените процедури предоставят на разработчиците голям контрол върху начина, по които данните се потвърждават или “изчистват” от определено приложение. Съхранената процедура може да бъде използвана и по отношение на начина, по които потребителят „влиза“ в приложението. Процедурата първо може да провери потребителското име и паролата, след това да регистрира проверката като успешна или неуспешна в друга таблица, заедно с информация относно името на компютъра и времето, в което е направен опита за влизане. Може да бъде изпратен сигнал до потребителя, уведомяващ го, че неговата парола изтича и трябва да бъде сменена.

Функциите са по-прости от съхранената процедура и понякога дори могат да се използват в SQL заявките. Обикновено функциите се използват в базите данни за извършване на набор от действия, които връщат като резултат една или повече стойности, например изчисляване на сума от колона за редове, които отговарят на определени условия. Въпреки че тези действия могат да бъдат извършвани с помощта на SQL, представянето им като функция може да улесни тяхното използване при наличие на друг код. Функциите и съхранените процедури могат да изпълняват общи действия по рационализиран и последователен начин, намалявайки работното натоварване на разработчиците и администраторите на базите данни.

Каква е разликата между основните СУБД?

СУБД са свързани с потребителските приложения, които трябва да поддържат. Тук е представено кратко сравнение между трите най-широко използвани платформи.

Microsoft SQL Server се използва широко от корпоративните приложения и лесно се интегрира с други инструменти на Майкрософт. Microsoft SQL Server 2019 Express е най-новата безплатна версия на Майкрософт и често се доставя с приложения, които използват SQL Server.

MySQL е любим на разработчиците, работещи с общодостъпни ресурси повече от две десетилетия. Често използван като бекенд за общодостъпни блогове или системи за управление на съдържанието, MySQL има огромна база инсталирана по целия свят. През 2008 година, MySQL AB е придобита от Sun Microsystems, която от своя страна е придобита от Oracle Corp. през 2009 год. По този начин MySQL става притежание на един от най-големи си конкуренти. Въпреки това, MySQL Community Edition остава безплатна и добре поддържана. MySQL е достъпна за множество операционни системи, включително Linux, UNIX, Mac OS X и Windows.

Oracle Database се счита от мнозина за стандарт в платформите за база данни на корпоративно ниво и поддържа множество корпоративни приложения. Oracle Database Express Edition се предлага безплатно и може да бъде разпространявана безплатно (въпреки че технически не е безплатен софтуер), което я прави друга популярна опция за разработчиците или непрофесионалистите, използващи Windows или Linux.

Сега, след като научихте основните термини и концепции относно базите данни, вие по-лесно можете да намери общ език с разработчиците на базата данни на вашата организация.

Бази данни в научната общност

Тази част е посветена на базите данни използвани в научната общност

Въведение в съществуващите бази данни, използвани в науката

Този раздел ще направи преглед на най-често използваните в науката общодостъпни бази данни.

Фигура 12: Примери за биотехнологични бази данни

Непрекъснатото развитие на биотехнологията и информационните технологии доведе до експоненциално нарастване на количеството данни. Изследвания проведени от учените на Европейският Биоинформационен Институт (European Bioinformatics Institute, EMBL-EBI) показват, че количеството информация ежегодно се удвоява спрямо всяко предходна година. Тези огромни количества данни се съхраняват, организират и непрекъснато актуализират в научни бази данни, където са лесно достъпни за учени, включително биолози и биоинформатици, и могат да бъдат използвани за научни цели. Наличната в биологичните бази данни информация се получава от различни научни области, включително метаболомика, микроарей генна експресия и пронеомика. Освен съхраняването, организирането и споделянето на огромни количества данни, основната цел на биологичните бази данни е да предоставя интерфейси за програмиране на уеб приложения (application programming interfaces, APIs) за компютри с цел обмен и интегриране на данни между много различни ресурси на базите данни чрез автоматизиран метод.

Биологичните бази данни могат да бъдат определени като колекции от данни, които са структурирани по такъв начин, че прави съдържанието им лесно за изследване, обработка и актуализиране. Примери за такива бази данни са представени на фиг. 12. През 1972 год. е създадена първата база данни, описваща структурата на протеините, познатата Protein Data Bank (PDB). Първоначално таза бази данни съдържала само 10 записа, като през годините те се увеличават и днес достигат до над 10 000 записа, което е свързано с и общия бърз растеж на натрупваните биологични данни. Биологичните бази данни могат да съдържат различни типове данни, в това число белтъчни секвенции, текстови описания, атрибути и таблични данни. Като цяло, те могат да бъдат разделени на първични, вторични и съставни бази данни. Първичните бази данни включват данни само за секвенцията или структурата, докато вторичните бази данни – данни, произхождащи от първичните бази данни.  Данни като консервативни секвенции и остатъци от активни центрове на белтъчни семейства могат да бъдат открити в бази данни с вторична структура. Освен това, записите в PDB, която по своята същност е първична база данни, могат да бъдат открити и в бази данни с вторична структура, съхранявани по организиран начин.

Най-общо казано, биологичните бази данни могат да бъдат категоризирани в бази за секвенции, бази за структура и бази за пътища:

  • Бази за секвенции: най-широко използваните биологични бази данни.Те включват бази данни за протеинови и нуклеотидни секвенции, които съдържат чисто лабораторни данни и се явяват основен източник за експериментални резултати. GenBank и EMBL са типични примери за секвенционни бази данни.
  • Бази за структура: тези бази данни съдържат информация относно структурата на белтъчните молекули и молекулярните взаимодействия. PDB е пример за такава база данни.
  • Бази данни за пътища: тези бази данни са базирани на данни получени от сравнителни изследвания върху метаболитните пътища.Базата данни  Kyoto Encyclopedia of Genes and Genomes (KEGG) и Biocyc са две от най-известните бази данни за метаболитни пътища.

Стандартно търсене в база данни с нуклеотидни секвенции, например, може да даде информация за научното наименование на изходния организъм, от който е изолирана секвенцията, името на лицето за контакти, първоначалната секвенция с детайли за типа на молекулите, и много често литературни цитати свързани с тази секвенция.

Разработени са различни инструменти, които улесняват учените при обработката и извличането на информация от бази данни. Тези инструменти, наричани още биоинформатични инструменти, са софтуерни програми създадени за извличане на значими данни от огромния брой биологични бази данни и за провеждане на анализ на секвенции или на структура на белтъчни молекули. Биоинформатичните инструменти се използват за получаване на информация от бази данни за геномни секвенции и за визуализация, анализ и извличане на данни от белтъчни бази данни. Тези инструменти могат да бъдат разделени на:

  • Инструменти за определяне на хомоложност и сходство: тези инструменти се използват за определяне на сходство между секвенции с неизвестна структура и функционалност и такива, чиято структура и функции са вече познати.
  • Инструменти за анализ на функцията на протеини: програми, които се използват за сравняване на една белтъчна секвенция с вторичен (или производен) белтък, като по този начин се правят предположения за биологичната функция на заявения белтък.
  • Инструменти за анализ на структурата: тези инструменти позволяват да се правят сравнения на структурата с познати структури в базите данни и установяване на 2D/3D структурата на белтъка.
  • Инструменти за анализ на секвенции: програми, използвани за допълнителна, по-пълна оценка на зададената секвенция, включваща еволюционен анализ и идентификация на мутации.

Въз основа на обхвата на включените в тях данни, биологичните бази данни могат да бъдат категоризирани на:

  • Общи бази данни: тези бази данни включват различни типове данни от множество видове. Примери за такива бази данни са GenBank и
  • Специализирани бази данни: тези бази данни включват конкретни типове данни или данни от конкретни организми. Пример за специализирана база данни е WormBase, която съдържа информация за биологията и генома на нематоди.

По отношение нивото на биокурация, което се определя като степен на организираност, представяне и предоставяне на биологичната информация в лесно достъпна за хора и компютри форма, биологичните бази данни се разделят на първични и вторични (производни). Първичните бази данни съдържат в хранилището си необработени данни, докато вторичните, или производните, съдържат курирани данни. По отношение на метода на куриране на данните, биологичните бази данни могат допълнително да бъдат разделени на експертно-курирани бази данни и неекспертно курирани, т.е. такива курирани при съвместната работа на множество изследователи.

Допълнителна категоризация на биологичните бази данни може да се направи и въз основа на типа данни в тях. Типовете данни, използвани при класифицирането на базите данни, могат да бъдат ДНК, РНК, белтъци, експресия, пътища, заболявания, номенклатура, литература, стандарти и онтология.  Някои от най-широко използваните бази данни са следните: GenBank, UCSC Genome Browser и Ensembl, които са секвенционни бази данни/портали; WormBase и The Arabidopsis Information Resource (TAIR), които са бази данни за определен моделен организъм; и PDB, Online Mendelian Inheritance in Man (OMIM), MetaCyc и KEGG, се определят като несеквенционно-центрирани бази данни.

Работата с данни е съществена част от експерименталния процес при всички видове изследвания, независимо от техния мащаб. Наличието на биологични данни онлайн съчетано с понижаване цената на автоматизираните генни секвенатори направи възможно дори малките биологични лаборатории да се превърнат в генератори на големи количества данни. Дори лабораторията да не е оборудвана с такива инструменти, тя пак може да бъде потребител на големи данни чрез получаването на достъп до обществени хранилища на биологични данни, такива като Американския национален Център за Биотехнологична Информация в Бъдезда. Голяма част от биологичната работа, свързани с големи данни, е виртуална, основава се на изчисления в облачно пространство, където данните и софтуера са разположени в масивни центрове извън обекта и могат да бъдат достъпни при необходимост.  Следователно не е необходимо потребителите да закупуват собствен хардуер. Облак-базираните изчислителни системи позволяват на потребителите да създават виртуални пространства за данни, софтуер и резултати, които са общодостъпни, или да “заключват” пространствата зад защитни стени и да позволяват достъп само на определени групи сътрудници.

В някои области на изследване, използването на биологични бази данни е необходимост. Например, базите данни могат да подпомогнат експерименталния дизайн като позволяват извършването на автоматичен анализ и лесна обработка на експерименталните данни, като по този начин правят прегледа на експерименталните резултати прост и бърз.  Откриването на нови лекарства е друга област, която може да бъде опростена чрез използването на бази данни. В този специфична област, базите данни могат да бъда проверени с цел откриването на нови кандидати за лекарства чрез прилагането на класификатор към набора от данни, които класификатор да идентифицира функционалните от нефункционалните лекарства. Освен това, към дизайна за виртуални анализи могат да бъдат приложени машинни техники, които да могат да идентифицират обещаващи нови лекарства, които впоследствие да бъдат анализирани в лабораторни условия. И най-важното, могат да се провеждат нови научни експерименти и да се получават нови резултати чрез анализиране на наличните вече данни.

Без наличието на бази данни, споделянето и интегрирането на големи количества данни би било практически невъзможно. Въпреки че повечето биолози притежават добри компютърни умения, по-голямата част от тях не са добре запознати с разработването и прилагането на съответния софтуер. Независимо от това, участието на биолозите в този процес е от решаващо значение, тъй като те могат да дадат на компютърните специалисти информация относно нуждите и подходите, използвани в науката. Възможността да имат достъп до актуални данни използвани в конкретно изследване, позволява на изследователите да повторят и разширят това изследване. Ето защо е важно данните да бъдат общодостъпни от всички изследователи без налагането на ограничения, становище подкрепяно от Open Science и множество свързани инициативи. Една от тези инициативи е позната като ELIXIR, проект, помагащ на учените от цяла Европа да  защитят и споделят своите данни, както и да стимулира развитието на настоящите ресурси, включително базите данни и компютърни съоръжения в определени страни.

Въпреки че създаването на биологичните бази данни има много положителни страни, такива като повишаване качеството на научните изследвания чрез работа в мрежа, все още е необходимо те да бъдат подобрявани чрез оптимизиране. Важно значение има управлението на трансдисциплинарните знания по начин, който да повиши тяхното качество и количество. Хетерогенността на данните е друг често срещан проблем при интегрирането на биологичните данни. В областта на биологията съществуват различни начина за представяне на подобни данни. Това усложнява интегрирането и обработката на данните, което от своя страна затруднява създаването на единна представа за тези данни. Пример за такъв проблем е използването на алтернативни имена при назоваването на гени (независимо от наличието на пълно ръководство издадено през 1979 година, предлагащо приемането на стандарти при номенклатурата на гените), което от своя страна води до затруднения при споделянето на данни. Прилагането на стандарти позволява повторно използване на данните, тъй като липсата на стандарти води до значително намаляване на производителността и ограничаване на достъпа на изследователите. Следователно, наложително е да бъде намерено решение на този проблем с цел премахване на предизвикателствата, пред които са изправени учените  в случаите, когато използват биологичните бази данни при провеждане на своите изследвания.

Заключителни коментари

Работата с данни предполага дългосрочен достъп до съхраняваната информация. Технологиите се развиват, което означава, че хардуерът и софтуерът използвани днес, може би няма да бъдат приложими утре. Това означава, че за да можем да четем всички данни записани днес, ще трябва да приложим два вида миграция – логическа и технологична миграция. Логическата миграция е свързана с формата, в който се съхраняват данните. Технологичната миграция касае хардуера, който е използван. Например, ако искате да прочетете файл записан през 1993 година на Word версия 6 като използвате по-новата версия Word 2019, това ще бъде невъзможно. Този пример показва липса на логическа съвместимост. За да бъде избегнат този проблем и да бъде запазена възходящата съвместимост, междувременно файла трябва да бъде мигриран към най-новата за момента версия с цел неговата актуализация и възможност за четене с най-новите версии на софтуера.

Същото важи и за хардуера, т.е. за сървъри, хранилища, мрежи и др. Друг пример може да бъде вида на сървъра и операционната система използвана за стартиране на базата данни. В случай че вие решите да подмените своя хардуер и да го мигрирате, да кажем от Windows към UNIX, ще бъде необходим различен тип хардуер, за да бъде стартиран UNIX и различна база данни, която да работи на  UNIX. Windows работи на Intel-базирани платформи (и подобни на Intel), а Unix работи на SPARC-базирани платформи, което означава, че ще трябва да мигрирате към UNIX – SPARC съвместими версии на базата данни.

Имайки предвид тази постоянна еволюция на хардуера, операционните системи, софтуера и форматите, своевременното извършване на подходящи логически и технологични миграции би спестило много време и проблеми.

Не на последно място, важно е да архивирате своите данни. Веднъж на всеки 3 до 6 месеца правете тест за възстановяване на данните, за да проверите дали при необходимост можете да извлечете данните от своя архив.  Това е от решаващо значение поради две причини:

  • Ще ви помогне да възстановите данните при необходимост

Това е най-подходящият метод да проверите дали вашите данни са архивирани правилно

Тест: РО5 Основно ниво

Използвана литература

  • Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
  • Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
  • Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
  • Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
  • Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
  • Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
  • Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
  • Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
  • Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
  • Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
  • Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
  • Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
  • Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
  • Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
  • Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
  • Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
  • Baxevanis AD, Bateman A. 2015. The importance of biological databases in biological discovery. Curr Protoc Bioinformatics., 50(1):1.1.1-1.1.8.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Brooksbank C, Bergman MT, Apweiler R, Birney E, Thornton J. 2014. The European Bioinformatics Institute’s data resources 2014. Nucleic Acids Res., 42:D18–D25.
  • Caspi R, Billington R, Ferrer L, Foerster H, Fulcher CA, Keseler IM, et al. 2016. The MetaCyc database of metabolic pathways and enzymes and the BioCyc collection of pathway/genome databases. Nucleic Acids Res., 44(D1):D471-80.
  • Figueiredo MSN, Pereira AM. 2017. Managing knowledge – the importance of databases in the scientific production. Procedia Manuf., 12:166–73.
  • Harris TW, Baran J, Bieri T, Cabunoc A, Chan J, Chen WJ. 2014. WormBase 2014: new views of curated biology. Nucleic Acids Res., 42:D789–D793.
  • Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W, et al. 2008. Big data: The future of biocuration: Big data. Nature., 455(7209):47–50.
  • Kanehisa M, Furumichi M, Sato Y, Ishiguro-Watanabe M, Tanabe M. 2021. KEGG: integrating viruses and cellular organisms. Nucleic Acids Res., 49(D1): D545–51.
  • Karp PD, Billington R, Caspi R, Fulcher CA, Latendresse M, Kothari A, et al. 2019. The BioCyc collection of microbial genomes and metabolic pathways. Brief Bioinform., 20(4):1085–93.
  • Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. 2002. The human genome browser at UCSC. Genome Res., 12(6):996-1006.
  • Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. Data integration in biological research: an overview. J Biol Res (Thessalon). 2015;22(1):9.
  • Marx V. 2013. Biology: The big challenges of big data: Biology. Nature., 498(7453):255–60.
  • Nature Structural Biology 10, 980. 2003; doi: 10.1038/nsb1203-980
  • Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
  • Razvi SRH, Rampogu S. 2016. Bioinformatics in the present day. MOJ proteom bioinform [Internet]., 3(1):11–2. Available from: http://dx.doi.org/10.15406/mojpb.2016.03.00073
  • Toomula N, Kumar A, Kumar D S, Bheemidi VS. 2012. Biological databases- integration of life science data. J Comput Sci Syst Biol., 04(05):087-092. Available from: http://dx.doi.org/10.4172/jcsb.1000081
  • Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. 2020. Ensembl 2020. Nucleic Acids Res., 48(D1): D682–8.
  • Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.

Общодостъпни научни ресурси: Дигитални бази данни

 РАЗШИРЕНО НИВО

Тази част разглежда усъвършенствания дизайн на базата данни. Обяснява структурата на базата данни и как да бъдат създадени връзки между таблиците в базата данни.

Съдържание

 

Общодостъпни научни ресурси

Усъвършенствана структура на база данни

Тази част разглежда усъвършенствания дизайн на базата данни. Обяснява структурата на базата данни и как да бъдат създадени връзки между таблиците в базата данни. Този материал представя и специфичния език, използван за отправяне на заявки (SQL) при извличането на данни от базата данни.

Системи за управление на база данни

Съвременната база данни може да бъде определена като структурирана колекция от информация (данни), която е представителна за реалния свят. Системите за управление на базата данни (СУБД, DBMS) се използват за създаване, управление и отправяне на заявки към базата данни. Понастоящем, релационните системи за управление на бази данни (РСУБД, RDBMS) са най-развитите и широко използвани системи за бази данни в практиката. Почти всички онлайн транзакции и повечето онлайн системи за управление на съдържанието (напр. блогове и социални мрежи) разчитат на тези типове системи от бази данни, които са основни за световната инфраструктура за приложения.  Фокус на СУБД е предоставянето на услуги, осигуряващи постоянство на данните в базата данни и функционалност, гарантираща че информацията е коректна и съгласувана, и че транзакциите следват свойствата на АСИТ (ACID) модела. АСИТ се отнася до четирите основни свойства на транзакцията:

  • Атомност
  • Съгласуваност
  • Изолация
  • Трайност

Езици за модели на база данни

Всички бази данни имат език за специфициране на структурата и съдържанието на базата данни. Специфицирането е вид проектна схема и представлява логически изглед на информацията, която се управлява от определена СУБД. Езикът за спецификация на базата данни трябва да бъде гъвкав, което да позволи да бъде използван дълго. Най-значимият елемент от базата данни, които се установява от професионалистите по бази данни и разработчиците на приложения, е езика за манипулиране на данни. Той може да бъде под различна форма, като най-често срещаната е с интерфейс подобен на езиците за програмиране. Днес текстовите и процедурни езици, такива като езика за структурирани заявки (Structured Query Language, SQL) и езика за заявки на обект (Object Query Language, OQL), остават едни от най-широко използваните форми за манипулиране на данни.

Характеристики на база данни

Базата данни може да бъде определена като съгласувана, логична и вътрешно съгласувана. Освен това може да бъде определена и като самоописваща се, тъй като включва и метаданни, които от своя страна определят и описват данните и взаимовръзките между таблиците в базата данни. Те са проектирани да съдържат данни с определена цел. Всеки елемент от данни се съхранява в поле; съвкупността от полета образуват таблица. В една база данни може да има множество таблици.

За разлика от файл-базираната система, структурата на данните в системата на базата данни, се съхранява в системен каталог, а не в програмите на приложенията. Разграничаването между програми и данни се нарича „независимост на програмата от данните“.

Архитектурата на системата на базата данни се състои от набор от услуги, които по своята същност представляват основни услуги на операционната система, услуги за съхранение на системни файлове и услуги за управление на първичния буфер на паметта. Този набор от услуги се състои от: управление на каталога, управление на интегритета, управлението на транзакциите, контрол на конкурентността, управление на „заключването“ (lock), управление на „мъртвата хватка“ (deadlock), управление на възстановяването, управление на сигурността, обработка на заявки, управление на комуникациите и управление на дневника (лога, log).

Типове модели на база данни

Моделите на данни могат да бъдат разделени на два типа:

  • Високо ниво концептуални модели на данни
  • Логически модели на данни базирани на записи

Високото ниво концептуални модели на данни предлагат възможност за представяне на данните по начин, подобен на начина, по който хората възприемат данните. Пример за такъв модел на данни е модела „същност-връзка“ (entity-relationship, ER), който се основава на понятия като същност (обект), атрибути и връзки (релации). Същността съответства на обект от реалния свят, атрибутите представляват свойствата на същността, а връзката показва взаимоотношенията между отделните същности.

Логическите модели на данни базирани на записи предлагат концепции, които потребителите могат да разберат  и се основават на начина, по който данните се съхраняват в компютъра. Релационните модели на данни, мрежовия модел на данни и йерархичния модел на данни са трите най-разпространени логически модели на данни базирани на записи.

  • При релационния модел, данните са представени под формата на релации, или таблици.
  • При мрежовия модел, данните са представени като типове записи. Този модел представя също тип множество, дефинирано като ограничен тип от вида едно-към-много.

При йерархичния модел, данните са представени като дървовидна йерархична структура, всеки клон на която представлява редица свързани записи.

Фази на проектиране на база данни

Моделирането на данните представлява първата стъпка при проектирането на базата данни. Понякога обаче тази стъпка е фаза на високо ниво на абстрактност, известна още като концептуален модел. Тази фаза има за цел да опише:

  • Данните представени в базата данни
  • Връзката между елементите от данни
  • Ограниченията на данните

На този първоначален етап от проектирането на базата данни, от съществено значение е да бъде направен анализ на изискванията към информацията. Това е най-важната фаза, тъй като цялостната ефективност на системата зависи от първоначално посочените изисквания към информацията и представата на потребителите за нея. Спецификата на изискванията към информацията направени на този етап определя крайната форма и съдържание на системата от база данни.

След като спецификациите са определени и разработени, те трябва да бъдат структурирани в интегрирана, свързана система, процедура означавана като логически дизайн. Логическият дизайн включва следните стъпки:

  1. разработване на модел на данни за представата на всеки потребител
  2. интегриране на обектите, атрибутите и релациите в сложна логическа схема, която описа базата данни за този модел с термини, които не са свързани с използвания софтуерен пакет
  3. трансформиране на логическата схема в софтуерна схема изразена чрез езика на избрания пакет за управление на базата данни

Последната стъпка в проектирането на базата данни е физическия дизайн. При тази стъпка, софтуерната схема се промени във форма, която може да бъде съвместима със специфичния хардуер, операционната система и системата за управление на базата данни на конкретната организация. Във физическия дизайн се включват и прилагат изискванията за интегритет и сигурност и дизайна на навигационните пътища.

Степени на абстракция

Абстракция на данните представлява скриване на определени подробности относно начина, по които данните се съхраняват и поддържат. По отношение степента на абстракция, моделите бази данни могат да бъдат разделени на три нива, а именно:

  • Външно, или потребителско ниво, което е най-високото ниво на абстракция и представлява само част от цялата база данни
  • Логическо ниво, което описва какви данни се съхраняват в цялата база данни

Физическо ниво, което е най-ниското ниво на абстракция и описва как данните се съхраняват в базата данни

Схеми на база данни

Схема на база данни може да бъде дефинирана като описание на база данни на ранен етап, което не се очаква да бъде често променяно. В системата на базата данни съществуват множество схеми. Архитектурата на базата данни съдържа три нива на схеми.

Външно ниво

Това е най-висшето ниво на схеми. Видът на външното ниво на данни се определя от специфичните приложения за обработка на данни или потребителския изглед. Външното ниво съдържа няколко изгледа и представя фрагменти от действителната база данни. Всеки изглед се предлага на потребител или група потребители, като по този начин се улеснява взаимодействието между потребителя и системата.

Концептуално ниво

Това ниво описва логическата  структура на цялата база данни, която от своя страна се описва от прости логически концепции, включващи обекти, техните свойства или връзки. Следователно, сложността на детайлите за изпълнение на данните няма да бъдат видими за потребителите. В базата данни се поддържа само един концептуален изглед. За да могат обекти или атрибути да бъдат посочени в системата на базата данни, те първо трябва да бъдат дефинирани в изгледа на концептуалното ниво, описано още като логическа схема.  Този изглед на нивото трябва да бъде изключително стабилен, тъй като се приема за основа за разработването на външните и вътрешните нива на изгледа.

Вътрешно ниво

В тази схема са описани начинът на съхранение на данните и начинът за достъп до тях. Вътрешното ниво представлява вътрешното или физическото състояние на базата данни. Неговата цел е да повиши ефективността на системата на базата данни, като същевременно задоволява нейните нужди.

Независимост на данните

Независимост на данните се отнася до способността на потребителските приложения да остават незасегнати от промените направени в дефинициите и организацията на данните. Съществуват два типа независимост на данните: логическа и физическа.

Логическа независимост на данните е способност да се променя логическата (концептуална) схема без това да засяга външната схема, или потребителския изглед.  Корекциите в логическата схема, такива като промени в структурата на базата данни чрез добавяне на таблици, не би трябвало да променят функциите на приложенията (външни изгледи).

Физическа независимост на данните представлява способност на концептуалната схема да остане непроменена от промените направени във вътрешната схема.  Промените във файловата организация или структурите за съхранение, устройствата за съхранение или стратегията за индексиране не водят до промени на концептуално ниво.

Релационен модел на данни

Релационния модел на данни е разработен от д-р Едгар Ф. Код през 1970 год. Той представя данните в таблична форма, тъй като този начин за представяне е познат за много хора. В този модел се основава от логическата простота на плоските файлови структури. Релационният модел се основава на теорията на множествата, която дава възможност да бъдат извършвани няколко операции въз основа на релации. Този модел осигурява най-гъвкав достъп до данните, което го прави подходящ за използване в динамична среда при вземане на решения.
SQL е език за релационна трансформация; той предлага начини за формиране на релации и манипулиране на данни. Резултат от трансформацията винаги е друга релация, която може да съдържа само един ред и колона.

Основни елементи на релационния модел на данни

Таблица 1. Основни елементи на релационния модел на данни.

Компонент на база данни Описание
Таблица включва колони и редове; подмножество на Декартово произведение на множество домейни, характеризиращо се с име
Колони основни единици за съхранение; съдържат основни елементи на данните, на които съдържанието може да бъде разделено
Редове съдържат свързани колони; заедно с колоните представляват основата на всяка база данни
Домейн набор от приемливи стойности, които могат да бъдат включени в колона
Степен брой колони в таблицата

Релацията, наричана още таблица или файл, може да бъде определена като двуизмерна таблица, съдържаща данни за класа на обекта или взаимовръзката между класовете обекти. Във всеки ред от таблицата се включват данни, отнасящи се до конкретен обект, а във всяка колона се включва конкретен атрибут. Редовете, или записите, на релацията се наричат още кортежи. Записът в таблицата представлява отделен обект. Броят редове в една релация е показател за нейната кардиналност. Броят на колоните, известни като полета или атрибути, в една релация определят на степента на тази релация. Основните елементи на релационния модел на данни са представени в таблица 1. Унарната релация съдържа само един атрибут; бинарната релация съдържа само два атрибута; тройната релация съдържа само три атрибута.

Характеристики на таблицата

  • Всяка таблица в базата данни има уникално име
  • Няма дублирани редове; всеки ред е различен
  • Всеки ред има различно име
  • Последователността на редовете и колоните не е важна
  • Записите в колоните произлизат от един и същ домейн в съответствие с типа на техните данните, включително: дата, логичност(истина/лъжа), символ (низ) и число (числово, цяло, с плаваща запетая …)

Диференциращи особености на релационния модел за база данни

Същност: Структура от данни се счита за значима, ако нейното отстраняване води до загуба на информация в базата данни.

Правила за интегритет: Те гарантират, че съдържанието на базата данни остава точна и съгласувана. Има два типа интегритет:

  1. Интегритет на обекта: Позволява уникална идентификация на всеки обект в релационната база данни.Това позволява достъп до всички данни. Необходимо е първичния ключ да не е с нулеви стойности.
  2. Референциален интегритет: Позволява препращане на кортежи чрез прилагане на външни ключове. Необходимо е стойностите приемани от външния ключ да съвпадат с тези на първичния ключ на базата данни или да имат нулеви стойности.

Манипулиране на данни: Метод за манипулиране на данни; основен подход за създаване на информация при вземане на решения.

Модел „обект-връзка“

Моделът на данни „обект-връзка“ (entity-relationship, ER) е разработен преди повече от 35 години. Той е сравнително по-слабо абстрактен и лесен за обяснение. ER моделите лесно могат да бъдат преобразувани в отношения и да бъдат представени като диаграми. Моделът се основава на обекти и взаимовръзките между тях. „Обект“ в модела може да бъде физически съществуващ обект или такъв, който е само концептуален (идеен). Ако таблиците на обекта са зависими от неговото реалното съществуване, то този обект се означава като слаб. И обратното, ако обектът може да съществува независимо от всички свързани с него други обекти, тогава този обект е силен.

Съществуват различни видове обекти:

  • Независими обекти или ядра: „Строителните блокчета“ на базата данни. Това са силни обекти. Първичният ключ не е външен ключ и може да бъде прост или съставен. Различните видове ключове са описани в таблица 2.
  • Зависими или производни обекти: Те са зависими от съществуването на две или повече таблици.Те се използват за обединяване на две ядра и могат да включват други атрибути. Всяка свързана таблица се идентифицира с външен ключ. Възможни са три опции за първичния ключ: i) ако е уникален, се използва комбинация външни ключове на свързани таблици, ii) използване на външни ключове и квалифицираща колона, или iii) създаване на нов прост първичен ключ.

Характеризиращи обекти: Тези обекти предлагат допълнителна информация за друга таблица. Те описват други обекти и са представителни за многозначни обекти. Външният ключ се използва за последваща идентификация на характеризираната таблица. Възможни са две опции за първичния ключ: i) използване на комбинация от външни ключове и квалифицираща колона, или ii) създаване на нов прост първичен ключ.

Таблица 2. Видове ключове.

Видове ключове Описание
Кандидат ключ прост или съставен ключ, който е уникален, тъй като няма два реда в една таблица, които да имат една и съща стойност по една и също време, и минимален, тъй като всяка колона е необходима за постигане на уникалност
Съставен ключ трябва да бъде минимален; съставен от два или повече атрибута
Първичен ключ кандидат ключ избран от дизайнера на базата данни за използване като механизъм при идентифициране на целия набор от обекти; трябва уникално да идентифицира кортежи в таблицата и не може да бъде нула; в ER модела се идентифицират чрез подчертаване на атрибута
Вторичен ключ атрибут използван само за извличане; може да бъде съставен
Алтернативен ключ всички кандидат ключове, които не са избрани за първичен ключ
Външен ключ атрибут в таблица, който препраща към първичен ключ в друга таблица ИЛИ може да бъде нулев

Нулева стойност: Различна от нула или празна стойност; не зависи от типа данни. Нулева стойност означава, че или действителната стойност не се знае, или че атрибута не е приложим.

Примери за обектни типове и връзки в биологичните бази данни

Обектният тип описва характеристики, които се споделят от колекция обекти в един домейн.  Например, „протеин“ може да се приеме като обектен тип с атрибути като секвенция, име, молекулна маса, видове и номер на присъединяване. Един обектен тип може да бъде представен по няколко начина като всеки от тях показва стойности на атрибута, които съответстват на конкретния обектен тип. Например, имената на два примера за обектния тип „протеин“ са човешки α-хемоглобин и китов миоглобин. Стойностите на техния атрибут „вид“ са съответно „човешки“ и „китов“.

Връзките показват, че два или повече обектни типове са свързани. Например, „протеин“ може да взаимодейства с много други „протеин“ обектни типове, или може да бъде член на семейство. Различните категории връзки могат да опишат природата на връзката. Например, един обектен тип може да бъде представен като част от друг (напр. „бета верига“ е част от „лист“ във вторичната структура на протеина) или като разновидност на друг (напр. „ензим“ е разновидност на „протеин“).

Модификационни аномалии

По време на процесите на вмъкване, изтриване или модифициране на данните в базата данни могат да възникнат неволни грешки. Ако грешката е резултат от дизайна на базата данни, тогава тази грешка се означава като модификационна аномалия.

Съществуват три типа модификационни аномалии:

  1. Аномалии при изтриване: премахването на един логически обект води до загубата на информация за друг несвързан с него логически обект
  2. Аномалии при вмъкване: вмъкването на данни за един логически обект налага вмъкването на данни за друг несвързан логически обект

Аномалии при актуализиране: промяната на информацията за един логически обект налага повече от една промяна в релацията.

Ключови дефиниции

Централизирана база данни: данните в тази система се съхраняват на един сайт.

Разпределена база данни: базата данни и софтуера на СУБД са разпределени на различни сайтове, които са свързани чрез компютърна мрежа.

База данни: споделена колекция от свързани данни използвана за подпомагане работата на организациите.

Език за дефиниране на данни (Data Definition Language, DDL): използва се за дефиниране на концептуални и вътрешни схеми

Система за управление на база данни (СУБД, Database Management System, DBMS): компютърни програми използвани за създаване, управление и отправяне на заявки към базата данни

Модел на данни: колекция от концепции използвани за описание на структурата на базата данни

Излишък на данни: съхранение на едни и същи данни на две или повече места в базата данни

Нормализация: метод за структуриране на данни с цел намаляване или избягване на проблеми

Възстановяване: процедура за използване на логове или резервни копия с цел пресъздаване на  повредена база данни

Data Model: a collection of concepts used for the description of the database structure

Data redundancy: storage of the same data piece in two or more places in the database system

Normalisation: a method that structures data in such a way that problems are decreased or avoided

Recovery: the procedure of using logs and backup copies to recreate a database that has been damaged

Език за структурирани заявки (SQL)

SQL означава Език за структурирани заявки (Structured Query Language, SQL) и представлява компютърен език за съхранение, манипулиране и извличане на данни съхранени в релационна база данни.  Това е най-широко използвания език за бази данни. Той предлага начини за създаване на релации и манипулиране на данни. SQL е стандартен език за релационни бази данни. Всички релационни системи за управление на бази данни (РСУБД, RDMS), като MySQL, MS Access, Oracle, Sybase, Informix, Postgres и SQL Server, използват SQL като стандартен език за база данни, въпреки че използват и различни „диалекти“:

  • MS SQL Server използваT-SQL
  • Oracle използваPL/SQL
  • MS Access използва версия наSQL наречена JET SQL (естествен формат) и др.

SQL команди

SQL командите покриват всички необходими действия извършани в базата данни. Въпреки това, както бе споменато по-горе, могат да съществуват някои различия между различните типове бази данни, включително и използването на тези „диалекти“. Всяка SQL команда притежава синтаксис и описание.

Командите в SQL се наричат „заявки“ и биват два типа:

  1. Заявка за дефиниране на данни: дефинира структурата на базата данни, създава таблици, специфицира техните ключове, индекси и т.н.
  2. Заявки за манипулиране на данни: това са заявки, които могат да бъдат редактирани.

SQL команди1:

Команда Синтаксис Описание
ALTER table ALTER TABLE table_name ADD column_name datatype; Използва се за добавяне на колона към таблица в база данни
AND SELECT column_name(s)FROM table_nameWHERE column_1 = value_1 AND column_2 = value_2; Оператор използван за комбиниране на две условия
AS SELECT column_name AS ‘Alias’FROM table_name; Ключова дума в SQL използвана за преименуване на колона или таблица чрез прилагане на „алтернативно“ име
AVG SELECT AVG(column_name)FROM table_name; Използва се за агрегиране на числова колона и връщане на средната й стойност
BETWEEN all candidate keys not selected as the primary key Оператор използван за филтриране на резултатите в определен диапазон
CASE attribute in a table that references the primary key in another table OR it can be null Изявление използвано за получаване на различни резултати в изявлението SELECT
COUNT all candidate keys not selected as the primary key Функция, приемаща името на колоната като аргумент и отчита броя на редовете, когато колоната не е NULL
Create TABLE attribute in a table that references the primary key in another table OR it can be null Използва се за създаване на нова таблица в базата данни и специфицира името на таблицата и колоните в нея
DELETE all candidate keys not selected as the primary key Използва се за премахване на редове от таблица
GROUP BY attribute in a table that references the primary key in another table OR it can be null Клауза в SQL използвана за агрегатни функции заедно с изявлението SELECT
HAVING all candidate keys not selected as the primary key Използва се в SQL тъй като командата WHERE не може да бъде приложена в агрегатните функции
INNER JOIN attribute in a table that references the primary key in another table OR it can be null Използва се за комбиниране на редове от различни таблици ако условието JOIN е TRUE
INSERT all candidate keys not selected as the primary key Използва се за добавяне на нови редове в таблица
IS NULL/ IS NOT NULL attribute in a table that references the primary key in another table OR it can be null Оператор използван с клаузата WHERE за проверка на празните стойности
LIKE all candidate keys not selected as the primary key Специфичен оператор използван с клаузата WHERE за търсене на специфичен модел в колона
LIMIT attribute in a table that references the primary key in another table OR it can be null Клауза, определяща максималния брой редове, който трябва да съдържа резултата
MAX all candidate keys not selected as the primary key Функция, която приема броя на колоните като аргумент и връща най-голямата стойност сред тях
MIN attribute in a table that references the primary key in another table OR it can be null Функция, която приема броя на колоните като аргумент и връща най-малката стойност сред тях
OR primary key Оператор използван за филтриране на резултатите така, че те да съдържат само редове, в които всяко условие е TRUE
ORDER BY attribute in a table that references the primary key in another table OR it can be null Клауза използвана за подреждане на резултатите от определена колона по числен или азбучен ред
OUTER JOIN all candidate keys not selected as the primary key Използва се за комбиниране на редове от различни таблици дори ако условието е NOT TRUE
ROUND attribute in a table that references the primary key in another table OR it can be null Функция, която приема името на колоната и цялото число като аргумент и закръгля стойността на колоната до броя на десетичните знаци посочени в цялото число
SELECT all candidate keys not selected as the primary key Изявление използвано за извличане на данни от база данни
SELECT DISTINCT attribute in a table that references the primary key in another table OR it can be null Използва се, за да се посочи, че изявлението е заявка, която връща уникална стойност в определена колона
SUM all candidate keys not selected as the primary key Функция използвана за връщане на сума от стойности от определена колона
UPDATE attribute in a table that references the primary key in another table OR it can be null Използва се за редактиране на редове в таблица
WHERE all candidate keys not selected as the primary key Клауза, използвана за филтриране на резултати, така че да съдържат само редове, в които условието WHERE е TRUE
WITH WITH temporary_name AS (SELECT *FROM table_name)SELECT *FROM temporary_nameWHERE column_name operator value; Използва се за съхранение на резултати от определена заявка във временни таблици чрез прилагането на алтернативни имена

Команди и синтаксис за заявки за данни от единична таблица или множество таблици2:

Single Table Multiple Table
SELECT c1 FROM t
To select the data in Column c1 from table t
SELECT c1, c2
FROM t1
INNER JOIN t2 on condition
Избор на колони c1 и c2 от таблица t1 и извършване на вътрешно съединение между t1 и t2
SELECT * FROM t
To select all rows and columns from table t
SELECT c1, c2
FROM t1
LEFT JOIN t2 on condition
Избор на колони c1 и c2 от таблица t1 и извършване на ляво съединение между t1 и t2
SELECT c1 FROM t
WHERE c1 = ‘test’
To select data in column c1 from table t, where c1=test
SELECT c1, c2
FROM t1
RIGHT JOIN t2 on condition
Избор на колони c1 и c2 от таблица t1 и извършване на дясно съединение между t1 и t2
SELECT c1 FROM t
ORDER BY c1 ASC (DESC)
To select data in column c1 from table t either in ascending or descending order
SELECT c1, c2
FROM t1
FULL OUTER JOIN t2 on condition
Избор на колони c1 и c2 от таблица t1 и извършване на пълно външно съединение между t1 и t2
SELECT c1 FROM t
ORDER BY c1LIMIT n OFFSET offset
To skip the offset of rows and return the next n rows
SELECT c1, c2
FROM t1
CROSS JOIN t2
Избор на колони c1 и c2 от таблица t1 и получаване на Декартово произведение от редове в таблица
SELECT c1, aggregate(c2)
FROM t
GROUP BY c1
To group rows using an aggregate function
SELECT c1, c2
FROM t1, t2
Избор на колони c1 и c2 от таблица t1 и получаване на Декартово произведение от редове в таблица
SELECT c1, aggregate(c2)
FROM t
GROUP BY c1HAVING condition
Group rows using an aggregate function and filter these groups using ‘HAVING’ clause
SELECT c1, c2
FROM t1 A
INNER JOIN t2 B on condition
Избор на колони c1 и c2 от таблица t1 и съединението им чрез прилагане на клауза INNER JOIN

Платени и безплатни бази данни използвани в реалния живот

Фигура 1: Непълен списък на съществуващите бази данни

Тази част разглежда базите данни на пазара, независимо дали са безплатни или частни. Съществуват обаче толкова много бази данни (фигура 1), че ние не можем да споменем всички. Избрали сме и сме представили по-долу само „най-популярните“ и „най-често използваните“.

Платени бази данни

От огромния брой бази данни на пазара, ние избрахме да представим три от най-често използваните от големите компании и организации платени бази данни.

SAP HANA

Тази база данни е проектирана от европейската компания SAP SE, основана в Германия. SAP HANA е база данни, коsто е колоно-ориентирана и може да обработва SAP и не-SAP данни. Тя е проектирана да пази и извлича данни от приложения и други източници от множество нива на съхранение. SAP HANA може да бъде внедрена локално или в облак от редица доставчици на облачни услуги. Тази база данни се използва от организации, които извличат данни от приложения и не са ограничени от бюджет.

Нейни основни характеристики са:

  • ПоддържаSQL, OLTP и
  • Намалява изискванията за ресурси чрез компресия.
  • Данните се съхраняват в памет, което в някои случаи значително намалява времето за достъп.
  • Възможни са отчети и управление на инвентара в реално време.
  • Може да взаимодейства с множество други приложения.

От януари 2021, поддържаните хардуерни платформи3 за SAP HANA са:

  • Intel-базирани хардуерни платформи
  • IBM Power Systems

От януари 2021, поддържаните операционни системи4 за SAP HANA са:

  • Linux SUSE
  • Linux Red Hat

4  for SAP HANA are:

  • Linux SUSE
  • Linux Red Hat

IBM Db2  база данни

IBM Db2 базата данни е основана в началото на 70-те години на миналия век, когато Едгар Ф. Код, изследовател, работещ за компанията, описва теорията за релационните бази данни и през юни 1970 год. публикува модел за манипулиране на данни. Днес, това е база данни, която има възможност да използва  NoSQL, а може да чете и JSON5 и XML файлове6.

Текущата версия на DB2 е LUW 11.1, която предоставя множество подобрения. Едно от тях, по-специално, е усъвършенстването на BLU Acceleration (BLink Ultra или Big Data, Lightning fast и Ultra-easy), което има за цел да ускори работата на базата данни чрез използване на технология за пропускане на данни. Тази технология е разработена с цел увеличаване на скоростта на системи с повече данни, отколкото могат да бъдат побрани в тяхната памет. Последната версия на Db2 също така осигурява подобрени функции за възстановяване при произшествия, съвместимост и анализи.

Нейни основни характеристики са:

  • BLU Acceleration може да използва максимално наличните за огромни бази данни ресурси.
  • Може да е в облак, физически сървър или и в двете по едно и също време.
  • Чрез използването на Task Scheduler, могат да се изпълняват едновременно множество задачи.

Кодовете за грешка и кодовете за изход, чрез Task Scheduler, могат да определят кои задачи да бъдат изпълнявани.

Поддържаните хардуерни платформи за IBM Db2 към януари 2021 г. са:

  • IBM z/Architecture mainframe
  • Intel-базирани хардуерни платформи

Поддържаните операционни системи7 за IBM Db2 към януари 2021 г. са:

  • z/OS
  • Unix
  • Linux
  • Windows

Oracle база данни

Oracle база данни обикновено се използва за извършване на онлайн обработка на транзакции (online transaction processing, OLTP) и съхранение на данни (data warehousing, DW). Тя може също да комбинира операции по OLTP и DW. Oracle базата данни може да бъде разположена локално, в облак или да бъде представена като хибридна облачна инсталация. Тя може да функционира на сървъри на трети страни, както и на локален хардуер на  Oracle Exadata, на Oracle Cloud или на частен облак на клиента.

Първата версия е пусната през 1979 г. като нейното развитие е повлияно от изследванията на Едгар Ф. Код върху дизайна на релационните бази данни.

Нейни основни характеристики са:

  • Това е междуплатформена база данни. Тя може да работи на различен хардуер в операционните системи, включително Windows Server, Unix иразлични GNU/Linux.
  • Има свой мрежови стек, позволяващ на приложения от различни платформи да комуникират безпроблемно с Oracle базата данни, напр. приложения работещи под Windows могат да се свързват с Oracle база данни работещи под
  • Това е база данни съвместима с АСИТ, която поддържа интегритета и надеждността на данните.

Понастоящем поддържаните хардуерни платформи са:

  • Proprietary Oracle Database Appliance
  • Sparc
  • IBM Power Systems
  • X64-базирани хардуерни платформи

Понастоящем поддържаните операционни системи8 са:

  • Unix
  • Linux
  • Windows

Безплатни бази данни9

Ако базата данни е безплатна, това не означава непременно, че не се начисляват такси на потребителите. Това е вярно за повечето бази данни, но някои разработчици избират да ограничат определени функции и налагат такса за използването на тези функции (вижте първа част на Основно ниво).

MySQL

MySQL е общодостъпна релационна база данни, която работи на различни операционни платформи, включително Windows, Linux, macOS, и др. Облачната версия на MySQL може да бъде използвана за пакетиран софтуер, важни за бизнеса системи и големи по обем уебсайтове.

Нейни основни характеристики са:

  • Осигурява мащабиране и гъвкавост
  • Трайност на съхранението на данни в мрежата и хранилището
  • Висока производителност
  • Има стабилна поддръжка на транзакциите

PostgreSQL

PostgreSQL е корпоративен клас общодостъпна система за управление на база данни. Тя функционира както с SQL за релационни, така и  с JSON за не-релационни заявки. Системата се поддържа от опитни разработчици, които имат огромен принос тя да бъде високонадежден софтуер за управление на данни. Работи на три различни платформи, а именно Windows, Linux и macOS. Не е налична нейна облачна версия. Чрез PostgreSQL е възможно създаването на персонализирани типове данни и различни методи за заявки. Съхранената процедура може да функционира под различни програмни езици.

Нейни основни характеристики са:

  • Съвместима с различни платформи, използващи всички основни езици и мидълуер.
  • Сървър в режим на готовност и лесна достъпност
  • Притежава функционалност за програмиране от страна на сървъра
  • Лог-базирани тригер-базиран SSL за репликация
  • Предлага най-сложния заключващ механизъм
  • Поддръжка на контрол на конкурентността в множество версии
  • Поддръжка на клиент-сървър мрежова архитектура
  • Обект-ориентирана и ANSI-SQL2008 съвместимост

PostgreSQL позволява връзка с други бази данни като NoSQL, който функционира като обединен център за многоезични бази данни.

Microsoft SQL

SQL Server е РСУБД разработена от Microsoft. Тя поддържа ANSI SQL, който е стандартен SQL език. SQL Server обаче притежава своя собствена версия на SQL езика, T-SQL (Transact-SQL). Той функционира на Docker Engine, Ubuntu, SUSE Linux Enterprise Server и Red Hat Enterprise Linux. Налична е и облачна версия.

Нейни основни характеристики са:

  • Осигурява интеграция на структурирани и неструктурирани данни чрез SQL Server и
  • Предлага мащабиране, изпълнение и наличност за критично важни интелигентни приложения, хранилища на данни и езера с данни.
  • Предлага разширени възможности за защита на данните.
  • Достъп до обширни, интерактивни Power BI отчети при вземането на по-бързи и по-правилни решения.

MariaDB

MariaDB е клон на MySQL системата за управление на база данни. Тя е създадена от оригиналните разработчици на MySQL. Тази СУБД дава възможност за обработка както на малки, така и на големи, корпоративни задачи.  Тя функционира на три платформи, а именно Windows, Linux и macOS. Налична е и нейна облачна версия. MariaDB е алтернативен на MySQL софтуер. Тя предлага високо степен на мащабиране посредством лесно интегриране.

Нейни основни характеристики са:

  • Функционира подGPL, BSD или LGPL лицензи.
  • Разполага с много начини за съхранение, включително такива които са високо производителни и могат да бъдат интегрирани с други РСУБД.
  • Предлага Galera клъстерна технология.

MariaDB работи на различни операционни системи и поддържа множество програмни езици.

Oracle

Oracle е самоподдържаща се, самозащитаваща се и самоуправляваща се база данни, проектирана да елиминира ръчното управление на данните. Тя е интелигентна, сигурна и лесно достъпна база данни в облак, която подпомага развитието на бизнеса. Работи на две платформи, Windows и Linux. Налична е и облачна версия.

Нейни основни характеристики са:

  • Oracle Cloud е оптимизирана за високопроизводителна работа с бази данни, стрийминг и работа с хипер големи данни.
  • Можете лесно да мигрирате в облака.

Предлага услуги в зависимост от вашите предпочитания за работа, като може да стартира Oracle Cloud във вашия център с данни.

Firebirdsql

Firebird е общодостъпна SQL РСУБД, която работи с Microsoft Windows, macOS, Linux и някои Unix платформи, включително HP-UX, Solaris и AIX. Налична е като облачна версия. Firebird има лесна за развитие езикова поддръжка, съхранени процедури и тригери.

Нейни основни характеристики са:

  • Firebird позволява да създадете своя персонализирана версия.
  • Безплатна за изтегляне, регистрация и използване.
  • Притежава подобрена мултиплатформена РСУБД.

Предлага редица възможности за финансиране, от членство към Ffirebird до спонсорство.

Базите данни в модела на модерната наука

Този раздел е посветен на общодостъпните бази данни използвани в науката, как да ги използваме и да се възползваме от наличните знания.

Преглед на базите данни в научната област

Съществуващи научни бази данни и как да ги използваме

Както бе споменато по-рано, споделянето, интегрирането и анотирането на данни е важна част от биологичните изследвания, тъй като позволява на изследователите да възпроизведат експериментите и да интерпретират получените научни резултати. Макар да се счита че биоинформатиците и компютърните специалисти са отговорни за съхранението на данните, биолозите имат еднаква с тях роля за насърчаване интеграцията на данни, тъй като те са тези, които генерират този тип данни и обикновено са крайни потребители.

Интегрирането на данни представлява процес на комбиниране на данни от различни източници с цел предлагане на потребителя на единна представа за тези данни. В компютърната наука, теоретичните рамки за интегриране на данни са категоризирани въз основа на метода приложен за тяхното интегриране и биват „нетърпеливи“ и „мързеливи“. Според нетърпеливия метод, познат още като складиране, данните се копират в глобална схема и се съхраняват в централно хранилище на данни. Терминът “схема” означава организиран и „работещ със заявки“ подход за съхранение на данни. При мързеливия метод, данните се съхраняват на различни места и се интегрират при поискване в съответствие с глобалната схема за разпределение на данните между тези места. Обемът на данните, техният собственик и съществуващата структура са основните фактори, определящи кой от двата метода ще бъде използван при интегрирането на данните. Освен това, в биологичните науки, тези методи могат да бъдат прилагани по различен начин и да бъдат използвани на различни нива. В резултат на това са били формулирани шест  различни, широко използвани схеми за интегриране на данни:

  • Централизиране на данни: данните се намират в централизирани ресурси. UniProt иGenBank са два примера за бази данни, използващи този метод.
  • Съхранение на данни: данни от различни източници се намират в едно централно хранилище. Pathway commons е база данни, използваща този подход за интегриране на данни.
  • Интегриране на набор от данни: вътрешни работни заявки достигат до разпръснати бази данни и изтеглят данни към локалното хранилище.
  • Хипервръзки: този подход позволява на потребителите да имат достъп до бази данни и инструменти от различни области на природните науки, като по този начин се насърчава оперативната съвместимост между различните научни области. ExPASy е типичен пример за портал, базиран на този тип методология за интегриране на данни.
  • Обединени бази данни: тъй като произхождат от хетерогенни източници,  при интегрирането на този тип данни е необходимо те да бъдат предварително „преведени“.  Това означава, че данните се трансформират в общоприет формат, така че да могат да бъдат интерпретирани по същия начин при тяхното последващо интегриране. Типичен примерза този тип е Distributed Annotation System (DAS), която представлява клиент-сървърна система.
  • Свързани данни: Мрежа от взаимосвързани онлайн достъпни данни. Огромната система на Linked Dataе изградена от множество графични потребителски интерфейси (graphical user interfaces, GUI), състоящи се от хипервръзки и свързващи асоциирани данни от множество доставчици на данни. BIO2RDF е типичен пример за база данни, която използва този подход като основа при интегрирането на данни.

Според използвания подход за интегриране на данни, централизирането на данни, съхранението на данни и интегрирането на набор от данни се основават на „нетърпеливата“ теоретична рамка, докато хипервръзките, обединените бази данни и свързаните данни се основават на „мързеливата“ теоретична рамка.

Форматът на данни представлява организиран начин за представяне на данни и метаданни под формата на файл. Учените започнаха да съхраняват биологичните данни във форматирани файлове, тъй като непрекъснатото нарастване на количеството данни породи необходимостта те да бъдат анализирани посредством компютърни системи и бази данни. Проблемът, който възниква във връзка са форматирането на данните, е свързан с появата на множество формати дори при представянето на един и същ тип данни. В някои случаи е установено, че за представянето на данни и метаданни в един файл могат да бъдат използвани повече от един клас формати. Най-широко използваните класове формати са: i) таблици, ii) FASTA-подобни, iii) tag-структурирани, и iv) GenBank-подобни. Най-доброто решение на този проблем би било учените да се съгласят да използват ограничен брой специфични формати, което би довело до опростяване на процеса на интегриране на данни. Разработването на конвертори, които да трансформират различните класове формати също би било едно подходящо решение.

Според непълния списък на списание Nucleic Acids Research, понастоящем в употреба са повече от 1700 биологични бази данни. За да бъдат използвани за специфична научна цел, данните съхранявани в базите данни трябва да бъдат интегрирани и структурирани. Съществуващите биологични бази данни се състоят от информация за широк спектър от изследвания, такива като геномика на безгръбначни, белтъчни секвенции, човешки гени и заболявания, ДНК нуклеотидни секвенции, клетъчна биология, имунология, метаболитни и сигнални пътища, протеомика и др.

Както бе споменато в Основно ниво, класифицирането на биологичните бази данни зависи от няколко фактора, включително обхвата на данните и нивото на биокурация. Независимо от това, най-простия и всеобхватен начин за класифициране на базите данни е въз основа на типа данни. Следователно, в следващия раздел базите данни ще бъдат представени като ДНК, РНК, белтъчни, такива за заболявания, за експресия и за пътища.

ДНК бази данни

ДНК базите данни са фокусирани върху обработката на ДНК данни от конкретен или различни видове. Основна цел на човешката ДНК база данни е да определи референтен геном, да направи профилиране на генетичните вариации при човека, да свърже генотипа с фенотипа и да идентифицира метагеномите в човешките микробиоми. Пример за ДНК база данни е  GenBank, общодостъпна колекция от всички изследвани ДНК секвенции. Към февруари 2021 година, в GenBank са налични повече от 776 милиарда нуклеотидни двойки  (http://www.ncbi.nlm.nih.gov/genbank/statistics).

РНК бази данни

Тези бази данни включва информация за не-кодиращи РНКи (ncRNAs), такива като микроРНКи и дълги не-кодиращи РНКи (lncRNAs), които не кодират белтъци. Целта на РНК база данните е да декодира не-кодиращи РНКи, от които дългите не-кодиращи РНКи са най-често изучаваните, и да опише техните функции и взаимодействия. Пример за такава РНК база данни е RNAcentral, която съдържа унифицирани данни за не-кодиращи РНКи секвенции получени от различни бази данни, сред които Rfam, miRBase и lncRNAdb.

Белтъчни бази данни

Белтъчните бази данни са разработени с цел създаване на обширна колекция от данни за белтъци, идентифициране на белтъчни семейства и домейни, реконструкция на филогенетични дървета и профилиране на белтъчни структури. Типичен пример за този тип бази данни е PDB базата данни, която съдържа структурата на хиляди белтъчни макромолекули.

Бази данни за заболявания

Базите данни за заболявания включват информация за различни типове заболявания, но най-вече са фокусирани върху представянето на данни относно различните видове рак. Един от най-важните проекти, посветени на рака, е разработен от The Cancer Genome Atlas (TCGA), чиято цел  е да събере широк набор от омикс данни, информация за иРНК, еднонуклеотидния полиморфизъм (SNP) и метилирането за над двадесет различни вида рак при човека.

Бази данни за експресия

Базите данни за експресия могат да бъдат използвани за различни цели, такива като изучаване на тъканно-специфичната генна експресия и регулация, съхранение на експресионни данни, установяване на диференцираща и базова експресия, и изследване и преглед на информацията за експресия, получена от различни РНК и белтъчни бази данни. Като база данни за експресия, Human Protein Atlas включва експресионните профили на значителна част от човешките протеин-кодиращи гени, получени от РНК и белтъчните бази данни.

Бази данни за пътища

Базите данни за пътища включват данни за биологичните пътища, които могат да бъдат използвани от изследователите за анализ на метаболитни, регулаторни и сигнални взаимодействия. Типичен пример за база данни за пътища е KEGG PATHWAY, която съдържа информация за молекулни взаимодействия и реакционни мрежи.

Националния център за биотехнологична информация (National Center for Biotechnology Information, NCBI), част от Националната медицинска библиотека на САЩ към  Националния институт за здравеопазване, е разработил интегрирана система за извличане на данни, която предлага достъп до 34 различни бази данни, общо 3.0 милиарда записа, наречени  Entrez. Глобалната страница за търсене на Entrez

(https://www.ncbi.nlm.nih.gov/search/)

има връзки към всяка една от 34 бази данни. Системата Entrez е лесна за използване тъй като позволява на потребителите да изтеглят данни в различни формати и да търсят текст като използват прости булеви заявки. Записите в различните бази данни са свързани помежду си и могат да бъдат представени в различни формати. Освен това, потребителите на Entrez имат възможност да изтеглят единични записи или група от записи. Някои от 34 бази данни, които са част от  Entrez, са: PubMed (https://pubmed.ncbi.nlm.nih.gov), която съдържа научни и медицински абстракти/цитати; BioSample (https://www.ncbi.nlm.nih.gov/biosample), съдържаща информация за източници на биологични материали,; GEO Profiles (https://www.ncbi.nlm.nih.gov/geoprofiles), включваща профили за генна експресия и молекулното многообразие и dbVar (https://www.ncbi.nlm.nih.gov/dbvar), съдържаща данни от изследвания върху структурните вариации на генома.

Данните, съхранявани в NCBI произхождат от три източника: i) директно от изследователи, ii) национални и международни партньорства или споразумения с доставчици на данни или научни консорциуми, и iii) вътрешно куриране. Трябва да се отбележи, че NCBI отговаря за управлението на GenBank базата данни и участва в Международната колаборация за база данни на нуклеотидни секвенции (International Nucleotide Sequence Database Collaboration,  INSDC) в сътрудничество с Европейския архив за нуклеотиди EMBL-EBI (European Nucleotide Archive, ENA) и Японската ДНК базата данни (DNA Data Bank of Japan, DDBJ).

Тъй като базите данни са се доказали като полезен инструмент в много научни области, тяхното използване в областта на здравеопазването непрекъснато набира популярност. Днес, технологичният напредък в областта за работа с данни позволява на здравните специалисти да събират, обработват и анализират данни за здравето, което води не само до подобряване качеството на здравните услуги, но и до повишаване сигурността на пациентите и потребителите. За да бъдат направени тези подобрения, съответните данни трябва да се събират, съхраняват и анализират по подходящ и сигурен начин и да се обменят между отделните нива на обслужване в здравната система. Това доведе до разработване на Електронни здравни досиета (ЕЗД; Electronic Health Records, EHRs), бази данни, които съхраняват данни за пациентите и могат да бъдат достъпни и използвани от здравните специалисти.

Електронните здравни досиета могат да бъдат определени като медицински бази данни, които предлагат достъп на потребителите, в случая здравни специалисти и административен персонал, до здравните досиета на пациентите. Най-разпространените ЕЗД са електронното медицинско досие (ЕМД; Electronic Medical Record, EMR) и лично здравно досие (ЛЗД;  Personal Health Record, PHR). Електронните медицински досиета съдържат информация предоставена от отделно болнично отделение, цяла болница или част от болница. Те могат да съдържат и информация от много болници. Информация от този тип обикновено се добавя в ЕЗД само от медицински персонал. От друга страна, личните здравни досиета се попълват от пациентите. ЛЗД представлява електронно приложение, което осигурява на пациентите сигурна платформа, на която те да могат да контролират и споделят данни за своето здраве.  Основната разлика между двата типа ЕЗД е тази, че ЛЗД трябва да бъде представено по начин разбираем от пациента, докато ЕМД прилича на своя хартиен вариант, тъй като те са достъпни само за здравни специалисти.

Първата ЕЗД система става достъпна през 60-те години на миналия век, като нейното създаване бе провокирано от натрапването на неструктурирана и неизползвана информация за пациенти в продължение на няколко десетилетия. Големи организации започнаха да създават системи от бази данни с цел съхранение и структуриране на данни в централизирани хранилища. Тези бази данни позволяват организирането и колекционирането на данни от много различни източници, включително аптеки, лаборатории, клинични изследвания и звена за клинична грижа, и такива като записи за администриране на лекарства. Понастоящем, ЕЗД системата се прилага предимно в развитите страни. Например, Закона за здравни информационни технологии за икономическо и клинично здраве (Закон HITECH от 2009 г.) доведе до дигитализиране на системата за предоставяне на здравни грижи в САЩ и последващо развитие на програмите Medicare и Medicaid за стимулиране използването на ЕМД.

Основна цел за създаването на ЕЗД бе необходимостта от структуриране и архивиране досиетата на пациентите. По-късно те бяха развити и като средство за заплащане на здравни услуги и подобряване на качеството на обслужването. През годините, с напредването на технологиите, ЕЗД стават все по-широко обхватни, динамични и взаимносвързани. Независимо от това, за разлика от другите индустрии, големите бази данни не се използват така широко в медицинската сфера. Това се дължи на ниското качество на събраните данни и тяхната лоша структурираност. Преди разработването на ЕЗД, медицинските изследвания се основаваха на регистрите на заболяванията или на системите за управление на хроничните заболявания (chronic disease management systems, CDMS). Тези хранилища имат значителни ограничения, тъй като се състоят от колекции от данни, които често се отнасят само към едно специфично заболяване. Освен това те не могат да трансформират данните или да правят връзки към други заболявания, тъй като съдържат информация само от група пациенти от определена географска област. От друга страна, ЕЗД данните са разнообразни, което улеснява анализирането на комплексни клинични взаимовръзки и вземането на решения.

Компонентите на ЕЗД могат да бъдат от различен тип медицински данни и да варират от здравни досиета до необработени сензорни данни. Медицинските данни се разделят на прецизни и непрецизни данни. Прецизните данни включват информация за пациента или такава, която може да бъде свързана с конкретен пациент. Непрецизните данни включват сензорни данни, наричани още данни от измервания, тъй като включват само данни от сензори, такива като данни от ЕЕГ. Данните, съхранявани в медицинските бази данни се означават като метаданни. Най-често използваният тип бази данни за съхранение на медицинска информация са релационната база данни, която представя данните под формата на таблици, състояща се от редове и определен брой колони. Някои бази данни могат да включват информация за пациента, такава като медицинска история на пациента, или анонимни данни, които могат да бъдат използвани при следващи проучвания.

Медицинските данни могат да бъдат разделени на няколко категории, описани по-долу:

  • Медицински и лабораторни данни: Здравните специалисти могат да правят поръчки за медикаменти или лабораторни изследвания в система за въвеждане на лекарски заявки, които в последствие се изпълняват от лаборанти или медицински сестри. Примери за тази категория данни са рецепти за лекарства и микробиологични резултати.
  • Данни за плащания: Тази категория медицински данни се състои от кодове използвани от болниците за подаване на искове към техните застрахователни компании. Международната класификация на болестите, създадена от СЗО, и Настоящата терминология на процедурите, поддържана от Американската медицинска асоциация, са най-популярните системи за кодиране.
  • Изображения: Това могат да бъдат рентгенографски изображения, получени от изследвания с рентген, ехокардиограми и компютърна томография (КТ).
  • Бележки и отчети: Те могат да бъдат свързани с процеса на лечение на пациентите. Документите при хоспитализация също принадлежат към тази категория.  Резултатите от образните изследвания обикновено се описват в оперативните доклади. Бележките трябва да бъдат частично структурирани чрез използването на система от шаблони.
  • Физиологични данни: Тази категория медицински данни съдържа жизнени показатели, като сърдечна честота и кръвно налягане, както и ЕКГ и ЕЕГ диаграми.

Релационните бази данни са най-често използвания тип бази данни за управление и съхранение на медицински данни. Те могат да бъдат определени като колекция от таблици, които са свързани чрез споделени ключове. Схемата на базата данни определя начина, по които таблицата ще бъде структурирана и техните взаимовръзки. Една проста медицинска база данни  може да съдържа четири таблици:

  • Таблица1: списък на пациентите
  • Таблица2: дневник за прием в болницата
  • Таблица3: списък с измервания на жизнени показатели
  • Таблица4: списък с кодове на жизнени показатели и свързани таблици

Първични и външни ключове могат да бъдат използвани за свързване на тези четири таблици.

Освен ползи от използването на базите данни в здравеопазването, те имат и някои ограничения, свързани най-вече с осигуряване на поверителност на данните и плановете за получаване на финансови приходи от данните. Независимо от това, за публично ползване са достъпни различни общодостъпни медицински бази данни, някои от които са описани по-долу.

Бази данни с медицинска информация за интензивно лечение (Medical Information Mart for Intensive Care, MIMIC)

Базата данни с медицинска информация за интензивно лечение, MIMIC, (http://mimic.physionet.org) е създадена през 2003 г. в резултат на сътрудничество между MIT, Philips Medical Systems и Beth Israel Deaconess Medical Center (BIDMC). Данните, въведени в таза база данни, са от пациенти приети в отделенията на BIDMC, на които са направени медицински и хирургични интервенции. Състои се от информация за над четири хиляди пациенти, детайлни физиологични и клинични данни, и е „деидентифицирана“ и свободно достъпна за изследователите. В тази база данни присъстват два типа данни: клинични данни от ЕЗД, които се съхраняват  в релационна база данни, съставена от 50 таблици, и резултати от легловите монитори, съхранявани в плоски бинарни файлове. Целта на тази колаборация е да създаде и оцени подобрени системи за мониторинг и лечение на пациенти, нуждаещи се от интензивни грижи, които ще направят процеса на вземане на решения в критични ситуации по-ефективен, по-бърз и по-точен.

PCORnet

Националната пациент-ориентирана мрежа за клинични изследвания (National Patient-Centered Clinical Research Network, PCORnet), е инициатива, която стартира през 2013 г., и чиято цел е да интегрира данни от няколко Мрежи за изследвания на клинични данни и Пациент-ориентирани изследователски мрежи. Тя съдържа 29 мрежи, които ще улеснят достъпа до огромно количество изследвания. Тя събира данни от рутинни посещения на пациенти при техните лекари, и данни, които се споделят от отделни пациенти чрез ЛЗД или от мрежи на пациентски общности.

Open NHS

Националните здравни служби (National Health Services, NHS) на Англия поддържат едно от най-големите в света хранилища, съдържаща данни относно здравето на хората.  Open NHS10 е общодостъпна база данни, даваща достъп до информация, предоставена от правителството или други обществени организации. Този проект е създаден с цел повишаване на прозрачността и мониторинг на ефективността на Английските здравни служби. Дава се възможност на пациенти, здравни служители и проверители да сравняват качеството на здравните услуги и лечение в различни области на страната чрез използване на специално създадена за това база данни.

Де-идентификация на базата данни

Една от първите стъпки при създаването на база данни от ЕЗД е нейната де-идентификация. Преди базата данни да стане достъпна за ползване от изследователи и приложения, е необходимо да се гарантира спазването на политиките и разпоредбите за поверителност на данните. За структурирани данни, като колони в таблици, де-идентификацията е базирана на категоризирането на данните и последващо изтриване или криптографиране на тези, обозначени като поверителни. За неструктурирани данни, такива като документи при хоспитализация, се използват различни техники на изразяване, от такива като прости регулярни изрази до сложни невронни мрежи, които намират поверителната информация в свободния текст и я изтриват или криптографират.

Приложение на блокчейн технологията в дигиталното здравеопазване

Блокчейн технологията се основава на наличието на децентрализирана система за съхранение на данни, където копие от регистъра на извършените транзакции се предоставя на всеки участник/разклонение. Това прави невъзможна промяната на данни от един участник без да бъдат уведомени останалите. Силно централизираните обекти биха имали значителна полза от използването на блокчейн технологията. Приложенията за дигитално здравеопазване до голяма степен зависят от централизираните системи. Следователно, блокчейн технологията притежава потенциал да трансформира дигиталното здравеопазване чрез промяна на начина на съхранение и защита на данните. Предложени са множество области за неговото използване, включително вериги за доставки, проверка на лекарства, възстановяване на искания, контрол на достъпа, и клинични изпитвания.

Установено е, че медицинските данни са най-високо ценени от хакерите, като според последни проучвания един медицински запис може да струва  до 400 американски долара. Това означава, че защитата на данните в медицинските бази данни е от съществено значение. Блокчейн технологията предоставя решение на този проблем, като гарантира поверителност на данните чрез запазване на тяхната цялост, удостоверяване и упълномощаване при използването им. Данните в блокчейн са криптирани и ако някой иска да изтрие или повреди данните, това е възможно само чрез прилагането на механизъм за унищожаване на ключа, при който оригиналният ключ използван за първоначалното криптиране на данните се унищожава или стана безполезен.  След това данните съхранявани в блокчейна няма да бъдат достъпни за четене.

Блокчейн технологията отговаря на две основни нужди по отношение на данните: запазване на интегритета и не-отхвърляне. Интегритет означава, че заявката и извлечените данни не могат да бъдат променяни, след като операцията по извличане е приключила. Не-отхвърлянето означава, че услугата по извличане на данни не може да отрече, че конкретните данни са били доставени от услугата в отговор на подадена заявка. Блокчейн технологията може да бъда определена като система за управление на разпределени транзакции, която не може да  бъде нарушена. Тя може да се прилага за запазване на целостта на данните в системата на ЕЗД, споделянето и контрол на достъпа, съхранение и управление на данни.

Теоретичната блокчейн-базирана „нотаризирана“ заявка се състои от три изчислителни слоя:

  • интерфейс на потребителя на данни
  • интерфейс за комуникация с интерфейси на медицински бази данни, и
  • механизъм на договора, който организира заявката и връща извлечените резултати към потребителя, извършва и подготвя транзакциите, и управлява договорите и метаданните

При прилагането на „нотаризирани“ заявки се използват две различни схеми: основна схема и версионизирана схема. Основната схема използва „заявка-отговор книга“, чрез която потребителят получава доказателство, че в определен момент конкретна заявка е достигнала до медицинската база данни , която от своя страна е изпратила исканите резултати. Тази схема може да бъде използвана, за да се гарантира интегритета и не-отхвърлянето  на заявката, когато жизненоважна медицинска задача разчита на конкретна заявка. Версионизираната схема позволява нерегламентирано версионизиране (промяна) на данни, извлечени от динамично развиваща се медицинска база данни в различни моменти от време като използва една и съща заявка. Тази схема се използва за потвърждаване на различни варианти на променящи се медицински доказателства извлечени от често-актуализирани медицински бази данни.

Внедряването на блокчейн технологиите в областта на природните науки и фармацевтичните изследвания дава възможност за децентрализиране на интерфейса и споделянето на данни, което води до повишаване ефективността, бързината и неограничено мащабиране. Блокчейн осигурява непроменливост на данните, което е изключително важно при клиничните изпитвания, тъй като не позволява клиничните резултати да бъдат променяни от изследователите в последствие. Тази технология може да бъде използвана и при идентификацията на лекарства, тяхното проследяване и верификация. Съществуват и определени рискове при внедряването на блокчейн технологията, които са свързани най-вече с осигуряване на поверителност, транзакции извън „веригата“ и съмнение относно възприемането на технологията от потребителите. Независимо от това, ползите от блокчейн технологията многократно надхвърлят нейните възможни недостатъци и играят съществена роля за ограничаване на незаконните действия с медицински данни.

Тест: РО5 Ниво за напреднали

Използвана литература

  • Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
  • Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
  • Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
  • Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
  • Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
  • Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
  • Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
  • Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
  • Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
  • Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
  • Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
  • Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
  • Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
  • Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
  • Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
  • Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
  • Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
  • Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
  • Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
  • Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
  • Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
  • Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
  • Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
  • Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
  • Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
  • Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
  • Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
  • Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
  • Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
  • Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
  • Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
  • Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
  • Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
  • The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
  • Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
  • Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
  • Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.
  • Agha-Mir-Salim L, Sarmiento RF. 2020. Health information technology as premise for data science in global health: A discussion of opportunities and challenges. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 3–15.
  • Amid C, Alako BTF, Balavenkataraman Kadhirvelu V, Burdett T, Burgin J, Fan J, Harrison PW, Holt S, Hussein A, Ivanov E et al. 2020. The European nucleotide archive in 2019. Nucleic Acids Res., 48:D70–76.
  • Apweiler R, Bairoch A, Wu CH, Barker WC, Boeckmann B, Ferro S, et al. 2004. Uniprot: the universal protein knowledgebase. Nucleic Acids Res., 32 (Suppl 1):115–9. doi: 10.1093/nar/gkh131.
  • Artimo P, Jonnalagedda M, Arnold K, Baratin D, Csardi G, de Castro E, et al. 2012. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res., 40(Web Server issue):597–603. doi: 10.1093/nar/gks400.
  • Belleau F, Nolin MA, Tourigny N, Rigault P, Morissette J. 2008. Bio2RDF: towards a mashup to build bioinformatics knowledge systems. J Biomed Inform., 41(5):706–16.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Benson DA, Clark K, Karsch-Mizrachi I, Lipman DJ, Ostell J, Sayers EW. 2014. GenBank. Nucleic Acids Res., 42:D32–D37.
  • Bornberg-Bauer E, Paton NW. 2002. Conceptual data modelling for bioinformatics. Brief Bioinform., 3(2):166–80.
  • Bulgarelli L, Núñez-Reiz A, Deliberato RO. 2020. Building electronic health record databases for research. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing, 55–64.
  • Burge SW, Daub J, Eberhardt R , Tate J, Barquist L, Nawrocki EP, et al. 2013. Rfam 11.0: 10 years of RNA families, Nucleic Acids Res., 41: D226-232.
  • Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, et al. 2013. The Cancer Genome Atlas Pan-Cancer analysis project, Nat Genet., 45: 1113-1120.
  • Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. 2011. Pathway Commons, a web resource for biological pathway data. Nucleic Acids Res.; 39(Database issue): 685–90.
  • Chavali LN, Prashanti NL, Sujatha K, Rajasheker G, Kavi Kishor PB. 2018. The Emergence of Blockchain Technology and its Impact in Biotechnology, Pharmacy and Life Sciences. Current Trends in Biotechnology and Pharmacy., 12(3):304–10.
  • Courtney JF, Paradice DB, Brewer KL, Graham JC. 2010. Database Systems for Management. 3rd edition. The Global Text Project.
  • Dowell RD, Jokerst RM, Day A, Eddy SR, Stein L. 2001. The distributed annotation system. BMC Bioinformatics., 2:7.
  • Edgar F. Codd https://en.wikipedia.org/wiki/Edgar_F._Codd
  • Fleurence RL, Curtis LH, Califf RM, Platt R, Selby JV, Brown JS. 2014. Launching PCORnet, a national patient-centered clinical research network. J Am Med Inform Assoc JAMIA., 21(4):578–582.
  • Fortier PJ, Michel HE. 2003. Computer Data Processing Hardware Architecture. In: Computer Systems Performance Evaluation and Prediction. Elsevier, p. 39–106.
  • Hellerstein JM, Stonebraker M, Hamilton J. 2007. Architecture of a database system. Found Tren Databases., 1(2):141–259.
  • Johnson A, Pollard T, Shen L et al. 2016. MIMIC-III, a freely accessible critical care database. Sci Data 3., 160035.
  • Karsch-Mizrachi I, Takagi T, Cochrane G. 2018. International Nucleotide Sequence Database, C The international nucleotide sequence database collaboration. Nucleic Acids Res., 46:D48–51.
  • Kleinaki A-S, Mytis-Gkometh P, Drosatos G, Efraimidis PS, Kaldoudi E. 2018. A blockchain-based notarization service for biomedical knowledge retrieval. Comput Struct Biotechnol J., 16:288–97.
  • Kozomara A, Griffiths-Jones S. 2014. MiRBase: annotating high confidence microRNAs using deep sequencing data, Nucleic Acids Res., 42: D68-73.
  • Lapatas V, Stefanidakis M, Jimenez RC, Via A, Schneider MV. 2015. Data integration in biological research: an overview. J Biol Res (Thessalon)., 22(1):9.
  • Lastdrager E. 2011. Securing Patient Information in Medical Databases [Internet]. University of Twente;. Available from: https://essay.utwente.nl/61035/1/MSc_E_Lastdrager_DIES_CTIT.pdf
  • Marshall J, Chahin A, Rush B. 2016. Review of clinical databases. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 9–16.
  • Nguyen KA. Database System Concepts. OpenStax CNX; 2009 [cited 2021 Jan 29]. Available from: http://cnx.org/contents/b57b8760-6898-469d-a0f7-06e0537f6817@1
  • Ogasawara O, Kodama Y, Mashima J, Kosuge T, Fujisawa T. 2020. DDBJ database updates and computational infrastructure enhancement. Nucleic Acids Res., 48:D45–50.
  • Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, et al. 2008. KEGG Atlas mapping for global analysis of metabolic pathways, Nucleic Acids Res., 36: W423-426.
  • Oliveira AL. 2019. Biotechnology, big data and artificial intelligence. Biotechnol J., 14(8):e1800613.
  • Pollard T, Dernoncourt F, Finlayson S, Velasquez A. 2016. Data Preparation. In: Secondary Analysis of Electronic Health Records. Cham: Springer International Publishing;, 101–14.
  • Ponten F, Schwenk JM, Asplund A, Edqvist PH. 2011. The Human Protein Atlas as a proteomic resource for biomarker discovery, J Intern Med., 270: 428-446.
  • Quek XC, Thomson DW, Maag JL, Bartonicek N, Signal B, Clark MB, et al. 2015. lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs, Nucleic Acids Res., 43, D168-173.
  • Rose PW, Beran B, Bi C, Bluhm WF, Dimitropoulos D, Goodsell DS, et al. 2011. The RCSB Protein Data Bank: redesigned web site and web services, Nucleic Acids Res., 39: D392-401.
  • Sayers EW, Beck J, Bolton EE, Bourexis D, Brister JR, Canese K, et al. 2021. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., 49(D1):D10–7.
  • Schuler G.D., Epstein J.A., Ohkawa H., Kans J.A. 1996. Entrez: molecular biology database and retrieval system. Methods Enzymol., 266:141–162.
  • The RNAcentral Consortium, RNAcentral: an international database of ncRNA sequences. 2015. Nucleic Acids Res., 43: D123-129.
  • Watt A, Eng N. Types of Data Models. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. Characteristics and Benefits of a Database. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01/
  • Watt A. Data Modelling. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. The Entity Relationship Data Model. In: Watt A, Eng N, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Watt A. The Relational Data Model. In: Watt A, Nelson E, editors. Database Design – 2nd edition. BCcampus; 2014 [cited 2021 Jan 29]. Available from: https://opentextbc.ca/dbdesign01
  • Zou D, Ma L, Yu J, Zhang Z. 2015. Biological databases for human research. Genomics Proteomics Bioinformatics., 13(1):55–63.
  • Zuniga PCC, Zuniga RAC, Mendoza MJ-A, Cariaga AA, Sarmiento RF, Marcelo AB. 2020. Workshop on Blockchain Use Cases in Digital Health. In: Leveraging Data Science for Global Health. Cham: Springer International Publishing;, 99–107.

1 Източник https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/

2 Източник https://intellipaat.com/blog/tutorial/sql-tutorial/sql-commands-cheat-sheet/

3 Източник SAP SE https://help.sap.com/viewer/eb3777d5495d46c5b2fa773206bbfb46/2.0.01/en-US/d3d1cf20bb5710149b57fd794c827a4e.html

4 За повече информация относно поддържаните операционни системи за SAP HANA, виж SAP Note 2235581 – SAP HANA: https://service.sap.com/sap/support/notes/2235581

5 JavaScript Object Notation е отворен стандартен файлов формат като XML и се счита за неструктурирани данни.

6 XML е отворен стандартен файлов формат като и се счита за неструктурирани данни.

7 Източник IBM Support https://www.ibm.com/support/pages/system-requirements-ibm-db2-linux-unix-and-windows#1155S

8 Източник https://support.oracle.com/knowledge/Oracle%20Database%20Products/1369107_1.html

9 Източник https://www.guru99.com/free-database-software.html актуализиран през 2021

10 Общодостъпните данни за NHS са от адрес: http://www.england.nhs.uk/ourwork/tsd/data-info/open-data/