Hidden Markov models (HMMs) στην βιοπληροφορική
Abstract
Στην εποχή της γονιδιωματικής, τα μοντέλα ανάλυσης δεδομένων και οι αλγόριθμοι που παρέχουν τα μέσα για τη μείωση των μεγάλων σύνθετων συνόλων σε σημαντικές πληροφορίες είναι αναπόσπαστα για την περαιτέρω κατανόηση των σύνθετων βιολογικών συστημάτων. Τα κρυφά μαρκοβιανά μοντέλα (Hidden Markov Models) περιλαμβάνουν μια τέτοια τεχνική ανάλυσης δεδομένων που έχει γίνει η βάση πολλών εργαλείων βιοπληροφορικής. Η σχετική επιτυχία οφείλεται κυρίως στην εννοιολογική απλότητά της και στην ισχυρή στατιστική βάση. Παρά το γεγονός ότι είναι μια από τις πιο δημοφιλείς τεχνικές μοντελοποίησης και ανάλυσης δεδομένων για την ταξινόμηση ακολουθιών δεδομένων, οι ερευνητές έχουν λίγες διαθέσιμες επιλογές λογισμικού για να εφαρμόσουν γρήγορα το απαραίτητο πλαίσιο και αλγόριθμους μοντελοποίησης. Τα περισσότερα εργαλεία εξακολουθούν να είναι κωδικοποιημένα στο χέρι, επειδή οι τρέχουσες λύσεις υλοποίησης δεν παρέχουν την απαιτούμενη ευκολία ή ευελιξία που επιτρέπει στους ερευνητές να εφαρμόζουν μοντέλα με μη παραδοσιακούς τρόπους. Στην παρούσα διδακτορική διατριβή, έχουμε αναπτύξει ένα λογισμικό ανοιχτού κώδικα σε Java, που ονομάζεται JUCHMME, το οποίο παρέχει στους ερευνητές την ευελιξία να εφαρμόζουν Hidden Markov Models σε προβλήματα ανάλυσης ακολουθιών. Παρέχει στους ερευνητές τη δυνατότητα να εφαρμόσουν γρήγορα ένα μοντέλο χρησιμοποιώντας ένα απλό αρχείο κειμένου και ταυτόχρονα την ευελιξία να προσαρμόσουν το μοντέλο με μη παραδοσιακούς τρόπους. Επιπλέον, αναπτύξαμε πολλές δυνατότητες/επεκτάσεις που δεν είναι διαθέσιμες σε κανένα τρέχον εργαλείο υλοποίησης HMM, όπως τα Κρυφά Νευρωνικά Δϊκτυα (Hidden Neural Networks – HNNs), μοντέλα που εξαρτώνται από προηγούμενες παρατηρήσεις και μια μέθοδο για ημι-εποπτευόμενη εκμάθηση HMM που ενσωματώνει δεδομένα με επισήμανση, χωρίς σήμανση και μερική επισήμανση και πολλούς τρόπους για την ενσωμάτωση πρόσθετων πηγών δεδομένων μαζί για να κάνουν καλύτερες προβλέψεις. Χρησιμοποιώντας το JUCHMME, καταφέραμε να εφαρμόσουμε HMM μοντέλα σε ένα σημαντικό βιολογικό πρόβλημα της πρόβλεψης τοπολογίας διαμεμβρανικών πρωτεϊνών α-ελίκων και β-βαρελιών λαμβάνοντας ενθαρρυντικά αποτελέσματα.
Related Papers
- → Hidden Markov Model for Time Series Prediction(2017)14 cited
- → Hidden Markov Model(2015)3 cited
- → A Novel Method for Decoding Any High-Order Hidden Markov Model(2014)5 cited
- Text Information Extraction Based on the Second-Order Hidden Markov Model(2007)
- Algorithms of Third-Order Hidden Markov Model and Its Relationship with First-Order Hidden Markov Model(2011)