You must be logged into post a comment.
Abstract
Rapid διάκριση μεταξύ μικροκυτταρικό καρκίνο του πνεύμονα (SCLC) και μη μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC) όγκους είναι πολύ σημαντική στη διάγνωση της ασθένειας αυτής. Επιπλέον ακολουθία που προέρχονται από δομικές και φυσικοχημικές περιγραφείς είναι πολύ χρήσιμες για την πρόβλεψη μηχανικής μάθησης της πρωτεΐνης δομικές και λειτουργικές κατηγορίες, ταξινόμηση πρωτεϊνών και την απόδοση πρόβλεψης. Εδώ, σε αυτή τη μελέτη είναι η ταξινόμηση των όγκων του πνεύμονα βασίζεται σε 1497 χαρακτηριστικά που προέρχονται από τις διαρθρωτικές και φυσικοχημικές ιδιότητες των πρωτεϊνικών ακολουθιών (με βάση τα γονίδια που ορίζεται με ανάλυση μικροσυστοιχιών) διερευνήθηκαν μέσω ενός συνδυασμού χαρακτηριστικό στάθμισης, επίβλεψη και χωρίς επίβλεψη αλγόριθμους ομαδοποίησης. Ογδόντα τοις εκατό από τις μεθόδους στάθμισης επιλεγμένα χαρακτηριστικά, όπως η αυτοσυσχέτιση, σύνθεση διπεπτίδιο και διανομή υδροφοβικότητα ως την πιο σημαντική πρωτεΐνη αποδίδει στην κατάταξη των SCLC, NSCLC και τα κοινά μαθήματα των όγκων του πνεύμονα. Τα ίδια αποτελέσματα παρατηρήθηκαν από τους περισσότερους αλγορίθμους επαγωγή δένδρου ενώ περιγραφείς διανομής υδροφοβίας ήταν υψηλές σε πρωτεϊνικές αλληλουχίες κοινή σε αμφότερες τις ομάδες και τη διανομή χρέωση αυτών των πρωτεϊνών ήταν πολύ χαμηλό? δείχνει ΚΟΙΝΗ πρωτεΐνες ήταν πολύ υδρόφοβο. Επιπλέον, οι συνθέσεις πολικών διπεπτιδίου σε SCLC πρωτεΐνες ήταν υψηλότερες από τις πρωτεΐνες NSCLC. Ορισμένα μοντέλα ομαδοποίησης (μόνο του ή σε συνδυασμό με αλγορίθμους χαρακτηριστικό στάθμιση) ήταν σε θέση να ταξινομήσει σχεδόν πρωτεΐνες SCLC και NSCLC. Τυχαία Δάσος αλγόριθμο επαγωγή δένδρου, που υπολογίζεται στα φύλλα ένα-out και 10 φορές σταυρό επικύρωση) δείχνει την ακρίβεια πάνω από 86% στην ομαδοποίηση και την πρόβλεψη τρεις διαφορετικούς όγκους του καρκίνου του πνεύμονα. Εδώ για πρώτη φορά η εφαρμογή των εργαλείων εξόρυξης δεδομένων για την ταξινόμηση αποτελεσματικά τρεις τάξεις του πνεύμονα καρκινικών όγκων όσον αφορά τη σημασία της σύνθεσης διπεπτιδίου, αυτοσυσχέτιση και Περιγραφέας διανομής έχει αναφερθεί
Παράθεση:. Hosseinzadeh F, Ebrahimi Μ, Goliaei Β, Shamabadi Ν (2012) Ταξινόμηση καρκίνο του πνεύμονα όγκοι με βάση τις δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνών με Βιοπληροφορικής μοντέλα. PLoS ONE 7 (7): e40017. doi: 10.1371 /journal.pone.0040017
Επιμέλεια: Hassan Ashktorab, Πανεπιστήμιο Howard, Ηνωμένες Πολιτείες της Αμερικής
Ελήφθη: 27 του Μαρτίου 2012? Αποδεκτές: 30η Μαΐου 2012? Δημοσιεύθηκε: 19, Ιουλίου, 2012
Copyright: © 2012 Hosseinzadeh et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Οι συγγραφείς δεν έχουν καμία υποστήριξη ή χρηματοδότηση για να αναφέρετε
Αντικρουόμενα συμφέροντα:. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα
Εισαγωγή
καρκίνου
πνεύμονα είναι η κύρια αιτία των θανάτων από καρκίνο. παγκόσμιος. Μεταξύ των καρκίνων του πνεύμονα, μη μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC) επηρεάζει περίπου το 80% των ασθενών και, όταν διαγνωσθεί σε ένα εντοπισμένο στάδιο, το 5-ετή επιβίωση είναι περίπου 50%, ενώ μειώνεται σε 8% και 3% στην περίπτωση της συμμετοχής των λεμφαδένων ή μετάσταση, αντίστοιχα [1]. Η εισπνοή του καπνού και άλλες καρκινογόνες ουσίες στο περιβάλλον θεωρείται ένας σημαντικός αιτιολογικός παράγοντας [2]. Επιδημιολογικές μελέτες συνεχίζουν να παρέχουν αποδείξεις ότι η γενετική ποικιλότητα στην ατομική απόκριση σε καρκινογόνους παράγοντες θα μπορούσαν να τροποποιήσουν την ευαισθησία στον καρκίνο. Οι πολυμορφισμοί των γονιδίων που εμπλέκονται στην αποτοξίνωση των καρκινογόνων ουσιών, και εκείνοι που διαμορφώνουν και βλάβη επιδιόρθωσης DNA μετά καρκινογόνο έκθεση, έχουν συνδεθεί με τους κινδύνους του καρκίνου του πνεύμονα [3].
Οι ασθενείς με μη-μικροκυτταρικό όγκους του πνεύμονα (πλακωδών , AC, και μεγάλων κυττάρων) αντιμετωπίζονται διαφορετικά από εκείνα με μικρούς όγκους των κυττάρων, ως εκ τούτου, παθολογική διάκριση μεταξύ των δύο αυτών τύπων όγκου πνεύμονα είναι πολύ σημαντική. Τα πρότυπα γονιδιακής έκφρασης κατέστησε δυνατή την υπο ταξινόμηση του αδενοκαρκινώματος σε υποομάδες που συσχετίζεται με τον βαθμό διαφοροποίησης του όγκου, καθώς και την επιβίωση των ασθενών. έτσι την ανάλυση της γονιδιακής έκφρασης υπόσχεται να επεκτείνει και να βελτιώσετε την τυπική παθολογική ανάλυση [4]. Έχει γίνει ευρέως αποδεκτό ότι η πνευμονική καρκινογένεση είναι μια διαδικασία πολλών σταδίων και φαινοτυπικές αλλαγές προέκυψαν από την ενεργοποίηση των ογκογονιδίων και αδρανοποίηση των ογκοκατασταλτικών γονιδίων [5]. Μη μικροκυτταρικός καρκίνος του πνεύμονα (NSCLC) είναι η κύρια αιτία θνησιμότητας από καρκίνο παγκοσμίως. Προς το παρόν δεν υπάρχουν αξιόπιστα βιοδείκτες είναι διαθέσιμα για να καθοδηγήσει τη διαχείριση αυτής της κατάστασης. τεχνολογία των μικροσυστοιχιών μπορεί να επιτρέψει κατάλληλα βιοδείκτες για να προσδιοριστεί αλλά δεν είναι του παρόντος πλατφόρμες έλλειψη εστίασης της νόσου και επομένως είναι πιθανό να χάσετε ενδεχομένως ζωτικής σημασίας πληροφορίες που περιέχονται σε δείγματα ιστών ασθενών. Ένας συνδυασμός μεγάλης κλίμακας in-house αλληλουχίας, προφίλ γονιδιακής έκφρασης και της δημόσιας αλληλουχίας και εξόρυξης δεδομένων γονιδιακής έκφρασης χρησιμοποιήθηκαν για τον χαρακτηρισμό του μεταγραφικό του NSCLC [6]. Ο εντοπισμός ενός χρήσιμο προγνωστικό βιολογική και μοριακό δείκτη Επομένως, είναι σημαντικό για την αξιολόγηση των βιολογικών και μοριακά χαρακτηριστικά που διέφεραν από τον όγκο, λεμφαδένες, μετάσταση TNM στάσης σε μη μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC), προκειμένου να προβλεφθεί πρόγνωση και καθιέρωση προληπτικών μεθόδων [7 ]. Μια καλύτερη κατανόηση της μοριακής παθογένεσης των SCLC θα πιθανό να προτείνει στρατηγικές για την έγκαιρη διάγνωση και τις νέες θεραπείες μοριακή στόχευση [8].
Σε πρόσφατες μελέτες, ορισμένες ταξινομητές χρησιμοποιούνται για την ταξινόμηση των γονιδίων ή πρωτεϊνών του καρκίνου, για παράδειγμα, KNN ταξινομητής μπορεί να έχει κάποια χρησιμότητα για ορισμένα προβλήματα ταξινόμησης μικροσυστοιχιών, ενεργώντας για το σύνολο της μη διάσταση μειωμένο σύνολο δεδομένων. Δείχνουν ότι η αύξηση της διάστασης αυτών των συνόλων (θεωρώντας ζεύγη, τρίκλινα ή τέσσερις-πλειάδες, και όχι μεμονωμένα ακολουθίες μεταγραφής ένα προς ένα) μπορεί να οδηγήσει σε σημαντικές βελτιώσεις σε κάθε διάσταση που έχει αποκτηθεί [9]. Σε άλλη μελέτη, τα χαρακτηριστικά των πρωτεϊνών που εκφράζονται σε κακοήθεις, καλοήθεις και οι δύο καρκίνους συγκρίθηκαν χρησιμοποιώντας διάφορες τεχνικές ελέγχου, μέθοδοι ομαδοποίησης, τα μοντέλα δέντρων απόφασης και γενικευμένη επαγωγή κανόνα (GRI) αλγόριθμους για να ψάξουν για τα πρότυπα της ομοιότητας σε δύο καλοήθεις και κακοήθεις ομάδες του καρκίνου του μαστού [10] ή την ανάπτυξη και δοκιμή ενός αφελή Bayesian ταξινομητή με βάση τις ιδιότητες αλληλουχία των γονιδίων και τη μοριακή λειτουργία και βιολογικών διεργασιών στις οποίες εμπλέκονται, προκειμένου να αποκαλύψει τα μοναδικά χαρακτηριστικά τους, που μπορεί να βοηθήσει προς την κατεύθυνση της αναγνώρισης των νέων γονιδίων υποψήφιος του καρκίνου [11 ] ή την εφαρμογή μιας συστηματικής μεθόδου που προβλέπει τη συμμετοχή του καρκίνου των γονιδίων με την ενσωμάτωση ετερογενών συνόλων δεδομένων επικαλούμενη: (i) αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης? (Ii) διαφορική έκφραση δεδομένα? και (iii) δομικές και λειτουργικές ιδιότητες των γονιδίων του καρκίνου [12].
Επίσης, σύμφωνα με την κατάταξη του καρκίνου του πνεύμονα, σε αρκετές μελέτες, τα μοντέλα εξόρυξης δεδομένων έχουν χρησιμοποιηθεί. Για παράδειγμα, μια ταξινόμηση και παλινδρόμηση δέντρο (CART) μοντέλο είχε εκπαιδευτεί να κατατάξει 41 κλινικά δείγματα, όπως ασθένεια /nondisease βάση 26 μεταβλητές υπολογίζεται από τον λόγο μάζας προς φορτίο (m /z) και τα ύψη των κορυφών των πρωτεϊνών προσδιορίζονται με φασματοσκοπία μάζας του δείγματα ορού αίματος από άτομα με και χωρίς καρκίνο του πνεύμονα [13], ή μια προσέγγιση κατάρτισης δοκιμή με το μοριακό χαρακτηρισμό των εκτομή του καρκίνου μη-μικροκυτταρικού καρκίνου του πνεύμονα που σε αυτή τη μελέτη, η προσέγγιση της κατάρτισης δοκιμή έχει χρησιμοποιηθεί για να δοκιμαστεί η αξιοπιστία του cDNA που βασίζεται σε μικροδιάταξη ταξινομήσεις εκτομή ανθρώπινης μη-μικροκυτταρικό καρκίνο του πνεύμονα (NSCLCs) αναλύθηκαν με cDNA microarray [14]. Σε άλλη μελέτη, ταξινόμηση των κυτταρικών σειρών καρκίνου ατομική του πνεύμονα (SCLC και NSCLC) έχει πραγματοποιηθεί με βάση τους δείκτες της μεθυλίωσης του DNA με τη χρήση της γραμμικής διακρίνουσας ανάλυσης και τεχνητά νευρωνικά δίκτυα, και στο αποτέλεσμα, το έργο αυτό υποστηρίζει την υπόσχεση της ANN ανάλυση δεδομένα μεθυλίωση του DNA ως ένα ισχυρό προσέγγιση για την ανάπτυξη των αυτοματοποιημένων μεθόδων για την ταξινόμηση του καρκίνου του πνεύμονα [15]. Σε μια άλλη μελέτη γονιδιακή ανάλυση της βάσης δεδομένων της έκφρασης του καρκίνου του πνεύμονα ενσωματωθεί εκ των προτέρων γνώση με τη μέθοδο ταξινόμησης φορέα υποστήριξης της μηχανής που βασίζεται, σε συνδυασμό με την εφαρμογή των διανυσμάτων υποστήριξης, όπως η διακριτική προσέγγιση, και μια μέθοδος που προτείνεται να ενσωματωθεί προηγούμενη γνώση σε ταξινόμηση του καρκίνου βασίζεται σε δεδομένα γονιδιακής έκφρασης να βελτιωθεί η ακρίβεια [16]. Για να ταξινομήσει αυτόματα όγκου πνεύμονα-node-μεταστάσεις (TNM) στάδια του καρκίνου από τις εκθέσεις παθολογία ελεύθερο κείμενο χρησιμοποιώντας συμβολική κατάταξη με βάση κανόνες. Το μέτρο της ακρίβειας και της σύγχυσης μήτρες χρησιμοποιήθηκαν για να αξιολογηθούν τα στάδια ΤΝΜ ταξινομηθεί από το συμβολικό σύστημα που βασίζεται σε κανόνες. Το σύστημα αξιολογήθηκε έναντι μιας βάσης δεδομένων της διεπιστημονικής ομάδας στάσης από τις αποφάσεις και μηχανικής μάθησης, με βάση το σύστημα ταξινόμησης κειμένου με τη χρήση μηχανών διανυσμάτων υποστήριξης [17]. Ακολουθία που προέρχονται από τα διαρθρωτικά και τα φυσικοχημικά χαρακτηριστικά έχουν συχνά χρησιμοποιηθεί για την ανάπτυξη των μοντέλων στατιστικής μάθησης για την πρόβλεψη πρωτεΐνες και τα πεπτίδια των διαφόρων διαρθρωτικών, λειτουργικών και την αλληλεπίδραση προφίλ.
PROFEAT (πρωτεΐνη χαρακτηριστικά) είναι ένα web server για την πληροφορική συνήθως -μεταχειρισμένο συντακτικά και φυσικοχημικά χαρακτηριστικά των πρωτεϊνών και πεπτιδίων από την αλληλουχία αμινοξέων [18]. Ακολουθία προερχόμενο συντακτικά και φυσικοχημικά χαρακτηριστικά έχουν συχνά χρησιμοποιηθεί για την πρόβλεψη της πρωτεΐνης δομικές και λειτουργικές κατηγορίες [19], [20], [21], [22], [23], αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης [24], [25], [26], υποκυτταρικές τοποθεσίες [27], [28] και τα πεπτίδια των συγκεκριμένων ιδιοτήτων [29] από την αλληλουχία τους. Τα χαρακτηριστικά αυτά είναι ιδιαίτερα χρήσιμα για την αναπαράσταση και τη διάκριση των πρωτεϊνών ή πεπτιδίων διαφορετικών δομικών, λειτουργικά και αλληλεπίδραση προφίλ, η οποία είναι απαραίτητη για την επιτυχή εφαρμογή των μεθόδων στατιστικής εκμάθησης στην πρόβλεψη των δομικών, λειτουργικά και αλληλεπίδραση προφίλ των πρωτεϊνών και πεπτιδίων ανεξάρτητα από ομοιότητα αλληλουχίας [ ,,,0],30].
σε αυτή τη μελέτη, με την προσοχή στη σημασία της ταξινόμησης των όγκων του πνεύμονα στη διάγνωση και τη θεραπεία της ασθένειας αυτής και την εφαρμογή και τη χρησιμότητα της ακολουθίας που προέρχονται από τα διαρθρωτικά και τα φυσικοχημικά χαρακτηριστικά των πρωτεϊνών, η ταξινόμηση των 2 τύπων όγκων του πνεύμονα με βάση τις δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνών διερευνήθηκαν με τη χρήση της βιοπληροφορικής και τα εργαλεία εξόρυξης δεδομένων.
Υλικά και Μέθοδοι
Προετοιμασία δεδομένων
ανάλυση μικροσυστοιχιών σε GSEA db ( βάση δεδομένων Gene Set Εμπλουτισμός Analysis) που χρησιμοποιούνται για την εξαγωγή γονιδίων που εμπλέκονται σε δύο τύπους όγκων του πνεύμονα (SCLC ή NSCLC). Μερικά γονίδια ήταν κοινά και στις δύο όγκους που ονομάστηκε έτσι ως κοινό σύνολο. Πρωτεΐνες για κάθε ομάδα γονιδίων (SCLC = 59, NSCLC = 30 ή ΚΟΙΝΗ = 25) εξάγεται από τον server DAVID (https://david.abcc.ncifcrf.gov) και ακολουθίες πρωτεϊνών που προέρχονται από UniProt Γνωσιακή Βάση (Swiss-Prot και τρέμουν) βάση δεδομένων. Ένα χιλιάδες και ενενήντα επτά χαρακτηριστικά πρωτεΐνη ή ιδιότητες υπολογίζεται από PROFEAT web (https://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi) συμπεριλαμβανομένων των διαρθρωτικών και φυσικοχημικών πρωτεΐνη. Ένας δείκτης Fi.jkl χρησιμοποιείται για να αντιπροσωπεύσει το l
ου αξία Περιγραφέας των k
ου Περιγραφέας του j
ου χαρακτηριστικό στο i
ου ομίλου χαρακτηριστικό, το οποίο χρησιμεύει ως μια εύκολη αναφορά σε το εγχειρίδιο PROFEAT παρέχονται στην αρχική σελίδα του server και σε καταλόγους αυτών των ομάδων χαρακτηριστικό έδειξε στον πίνακα S1 (λεπτομέρειες έχουν παρουσιάζονται στο Παράρτημα S1) [18]. Ένα σύνολο δεδομένων από αυτά τα χαρακτηριστικά πρωτεΐνης που εισάγονται στην ταχεία Miner (Rapid ανθρακωρύχος 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Γερμανία), το λογισμικό, και το είδος του όγκου (SCLC, NSCLC ή κοινό) ορίστηκε ως η ιδιότητα στόχο ή την ετικέτα.
δεδομένα Καθαρισμός
Διπλότυπο χαρακτηριστικά αφαιρούνται συγκρίνοντας όλα τα παραδείγματα με το άλλο, με βάση την καθορισμένη επιλογή των χαρακτηριστικών (δύο παραδείγματα υποτεθεί ίση εάν όλες οι τιμές όλων επιλεγμένα χαρακτηριστικά ήταν ίσο). Στη συνέχεια, άχρηστα χαρακτηριστικά αφαιρεθεί από το σύνολο δεδομένων. Αριθμητική χαρακτηριστικά που κατείχε τυπικές αποκλίσεις μικρότερη ή ίση με ένα δεδομένο όριο απόκλιση (0,1) θεωρείται ως να είναι άχρηστο και να αφαιρεθεί. Τέλος, συσχετίζονται χαρακτηριστικά (με Pearson συσχέτισης μεγαλύτερο από 0,9) παραλείπεται. Μετά τον καθαρισμό, ο αριθμός των χαρακτηριστικών και των αρχείων μειώθηκε και αυτή η βάση δεδομένων επισημαίνονται ως τελική Καθαρίζονται βάση δεδομένων (FCdb).
Χαρακτηριστικό Στάθμιση
Για να εντοπίσει τα πιο σημαντικά χαρακτηριστικά και να βρείτε τα πιθανά πρότυπα στα χαρακτηριστικά γνωρίσματα ότι συμβάλλουν σε όγκους του καρκίνου του πνεύμονα, 10 διαφορετικοί αλγόριθμοι του χαρακτηριστικού διορθωτικοί συντελεστές που εφαρμόζονται στην καθαριστεί σύνολο δεδομένων (FCdb) όπως περιγράφεται παρακάτω.
Βάρος με κέρδος πληροφορίες.
Αυτή φορέα υπολογίζεται η συνάφεια ενός χαρακτηριστικού από τον υπολογισμό του κέρδους πληροφορίες στη διανομή τάξη.
η
Βάρος με την αναλογία κέρδους πληροφορίες.
Αυτό το χειριστή υπολογίζεται το ενδιαφέρον ενός χαρακτηριστικού από τον υπολογισμό του κέρδους πληροφορίες λόγος για τη διανομή τάξη.
η
Βάρος από τον κανόνα.
Αυτό το χειριστή υπολογίζεται το ενδιαφέρον ενός χαρακτηριστικού από τον υπολογισμό του ποσοστού σφάλματος ενός Oner μοντέλου στο παράδειγμα που χωρίς αυτό το χαρακτηριστικό.
Η
Βάρος απόκλιση.
Αυτό το φορέα που δημιουργήθηκε βάρη από τις τυπικές αποκλίσεις όλων των χαρακτηριστικών. Οι τιμές ομαλοποιήθηκαν από το μέσο όρο, το ελάχιστο ή το μέγιστο του χαρακτηριστικού.
Η
Βάρος από chi τετράγωνο στατιστική.
Αυτό το χειριστή υπολογίζεται το ενδιαφέρον ενός χαρακτηριστικού από computing, για κάθε χαρακτηριστικό το παράδειγμα σετ εισόδου, την αξία του χι-τετραγώνου στατιστική σχέση με το χαρακτηριστικό τάξη.
η
Βάρος σύμφωνα με το δείκτη Gini.
ο εν λόγω φορέας υπολόγισε το ενδιαφέρον ενός χαρακτηριστικού με τον υπολογισμό του δείκτη Gini της κατανομής της κατηγορίας, αν το δεδομένο παράδειγμα που θα είχε χωρίσει σύμφωνα με το χαρακτηριστικό γνώρισμα.
η
Βάρος από αβεβαιότητα.
Αυτό το χειριστή υπολογίζεται το ενδιαφέρον ενός χαρακτηριστικού μετρώντας τη συμμετρική αβεβαιότητα σε σχέση με την τάξη.
η
Βάρος με ανακούφιση.
Αυτό το χειριστή μέτρησε το ενδιαφέρον του διαθέτει με δειγματοληψία παραδείγματα και συγκρίνοντας την τιμή του ρεύματος χαρακτηριστικό για το πλησιέστερο παράδειγμα της ίδιας και μιας διαφορετικής κατηγορίας. Αυτή η έκδοση επίσης εργαστεί για πολλαπλές κατηγορίες και σύνολα δεδομένων παλινδρόμησης. Τα προκύπτοντα βάρη ομαλοποιήθηκαν στο διάστημα μεταξύ 0 και 1.
Η
Βάρος με SVM (Support Vector Machine).
Αυτό το χειριστή χρησιμοποιούνται οι συντελεστές της κανονικής διάνυσμα μια γραμμική SVM ως χαρακτηριστικό βάρη.
η
Βάρος με PCA (Ανάλυση Στοιχείο Αρχή).
Αυτή χειριστής χρησιμοποίησε τα στοιχεία της πρώτης από τις κύριες συνιστώσες ως χαρακτηριστικό βάρη.
η
χαρακτηριστικό Επιλογή
Μετά από μοντέλα χαρακτηριστικό στάθμιση έτρεξε στο FCdb, κάθε χαρακτηριστικό της πρωτεΐνης (χαρακτηριστικό) κέρδισε μια τιμή μεταξύ 0 και 1, η οποία αποκάλυψε τη σημασία αυτού του χαρακτηριστικού σε σχέση με ένα χαρακτηριστικό προορισμού (τύπος όγκων). επιλέχθηκαν όλες οι μεταβλητές με βάρη μεγαλύτερο από 0,50 και 10 νέα σύνολα δεδομένων που δημιουργήθηκε. Αυτά νεοσυσταθείσα σύνολα δεδομένων ονομάστηκαν σύμφωνα με τα μοντέλα χαρακτηριστικό στάθμισή τους (κέρδος Πληροφορίες, αναλογία κέρδους πληροφορίες, Κανόνας, Απόκλιση, Chi Squared, ο δείκτης Gini, Αβεβαιότητα, Αρωγής, SVM και PCA) και χρησιμοποιήθηκαν για να ενωθούν με τα επόμενα μοντέλα (επίβλεψη και χωρίς επίβλεψη ). Κάθε μοντέλο της επιτηρούμενης ή και χωρίς ομαδοποίηση πραγματοποιήθηκαν 11 φορές? η πρώτη φορά που τρέχει στον κεντρικό σύνολο δεδομένων (FCdb) και, στη συνέχεια, στις 10 νεοσυσταθείσα σύνολα δεδομένων (τα αποτελέσματα της ιδιότητας στάθμισης).
Μη επιβλεπόμενη ομαδοποίηση Αλγόριθμοι
Οι αλγόριθμοι ομαδοποίησης που αναφέρονται παρακάτω εφαρμόζεται στις 10 νεοσυσταθείσα σύνολα δεδομένων (που παράγεται όπως τα αποτελέσματα των 10 διαφορετικών αλγορίθμων χαρακτηριστικό στάθμιση (καθώς και το κύριο σύνολο δεδομένων (FCdb).
K-Means.
Αυτό χειριστής χρησιμοποιεί πυρήνες να υπολογίζουν την απόσταση μεταξύ των αντικειμένων και ομάδων. Λόγω της φύσης των πυρήνων, είναι απαραίτητο να συνοψίσω πάνω από όλα τα στοιχεία ενός συμπλέγματος για να υπολογίσει μια απόσταση.
K-medoids.
Αυτό το χειριστή αντιπροσωπεύει η εφαρμογή των k-medoids. ο εν λόγω φορέας θα δημιουργήσει ένα χαρακτηριστικό σύμπλεγμα αν δεν είναι ακόμη παρούσα.
μοντέλα δέντρο επαγωγής
DecisionTrees.
Πέντε μοντέλα επαγωγής δέντρο συμπεριλαμβανομένης της απόφασης δέντρο, παράλληλη απόφαση δέντρο, απόφαση Stump, Τυχαία δέντρο και Τυχαία Δάσος έτρεξε στο κύριο σύνολο δεδομένων (FCdb). ένα βάρος που βασίζεται σε παράλληλη δέντρο απόφασης μοντέλο, το οποίο μαθαίνει ένα κλαδεύονται δέντρο απόφασης βασίζεται σε δοκιμή με αυθαίρετο χαρακτηριστικό ενδιαφέρον (αποδίδουν στάθμιση καθεστώτος, όπως εσωτερική χειριστή), εφαρμόζεται σε 10 διαφορετικά σύνολα δεδομένων που δημιουργούνται από την επιλογή χαρακτηριστικού στάθμισης (SVM, Gini Index, αβεβαιότητα, PCA, Chi Squared, Κανόνας, Αρωγής, Πληροφορίες Gain, Πληροφορίες Gain Λόγος και Απόκλιση).
Machine βάση Πρόβλεψη από Αφήστε One-out 10-fold Cross Validation
απόφαση Tree.
Δεκαέξι μοντέλα μηχανικής μάθησης λειτουργούν με τέσσερις αλγόριθμους δένδρου απόφασης (
απόφαση Tree, Παράλληλη απόφαση δέντρο, απόφαση Stump
και
Τυχαία Δάσος
) με τέσσερα διαφορετικά κριτήρια (
Λόγος Gain, πληροφορίες Gain, Gini Index
και
Ακρίβεια
) σε όλα τα 11 σύνολα δεδομένων για να βρείτε ένα κατάλληλο μοντέλο (s ) για να προβλέψουμε τις ακρίβειες και τα σφάλματα ταξινόμησης των κατηγοριών με βάση τα χαρακτηριστικά της πρωτεΐνης. Για να υπολογίσετε την ακρίβεια του κάθε μοντέλου, 10 φορές σταυρό επικύρωση [14] χρησιμοποιείται για να εκπαιδεύσει και υποδείγματα δοκιμών σε όλα τα μοντέλα. Για να εκτελέσετε σταυρό επικύρωσης, όλα τα αρχεία χωρίστηκαν τυχαία σε 10 μέρη, 9 σύνολα χρησιμοποιήθηκαν για την κατάρτιση και την 10η για τη δοκιμή (αφήστε το ένα-out). Η διαδικασία επαναλήφθηκε 10 φορές και η ακρίβεια για την αληθινή, ψευδή και συνολική ακρίβεια υπολογίστηκε. Η τελική ακρίβεια αναφερθεί ως ο μέσος όρος της ακρίβειας σε όλες τις δέκα δοκιμές.
Αποτελέσματα
Καθαρισμός Δεδομένων
Το αρχικό σύνολο δεδομένων που περιέχονται 114 εγγραφές (ακολουθίες πρωτεΐνης) με 1497 χαρακτηριστικά πρωτεΐνη . Από αυτά τα στοιχεία, το 59 εγγραφές ταξινομήθηκαν ως SCLC τάξη, 30 αρχεία ανήκαν σε NSCLC τάξη και 25 εγγραφές ταξινομήθηκαν ως κοινή τάξη. Μετά την αφαίρεση των διπλών, άχρηστα χαρακτηριστικά, και συσχετισμένες λειτουργίες (καθαρισμός δεδομένων), ο αριθμός των χαρακτηριστικών της πρωτεΐνης μειώθηκαν σε 1089 χαρακτηριστικά
Χαρακτηριστικό Στάθμιση
Τα δεδομένα κανονικοποιούνται πριν από την εκτέλεση των μοντέλων.? ήταν αναμενόμενο ότι όλα τα βάρη θα πρέπει να είναι μεταξύ 0 και 1. Χαρακτηριστικά αποκτήσει βάρος τιμές υψηλότερες από 0,50 με το 50% τουλάχιστον των αλγορίθμων στάθμισης θεωρούνται σημαντικά χαρακτηριστικά της πρωτεΐνης (Πίνακας S2).
Ανεξέλεγκτη Αλγόριθμοι ομαδοποίησης
Δύο διαφορετικές ανεξέλεγκτους αλγόριθμους clustering (K-Means και K-medoids) εφαρμόστηκαν για FCdb και δέκα σύνολα δεδομένων που δημιουργούνται χρησιμοποιώντας την επιλογή χαρακτηριστικού (στάθμισης) αλγόριθμοι. Κανένας από τους αλγορίθμους ομαδοποίησης ήταν σε θέση να διαφοροποιήσει πλήρως τις πρωτεΐνες που εμπλέκονται σε οποιαδήποτε τύπους όγκου πνεύμονα (Πίνακας S3).
Δέντρο επαγωγής Μοντέλα
Πέντε μοντέλα επαγωγή δένδρου (Απόφαση Tree, απόφαση Δέντρο Παράλληλη , απόφαση Stump, Τυχαία Δέντρο και Τυχαία Forest) έτρεξε σε FCdb και 10 σύνολα δεδομένων που δημιουργούνται μετά την εκτέλεση 10 αλγόριθμους χαρακτηριστικό στάθμισης. Συνολικά 151 δένδρα που παράγονται (μοντέλο Random Δάσος ίδιο περιλαμβάνονται 10 μοντέλα)
Πολλά μοντέλα που προκαλείται από απλές δέντρα, ενώ άλλοι ήταν περίπλοκη.? 9 Απόφαση Δέντρο και 35 μοντέλα Τυχαία Δάσος ήταν τα καλύτερα δέντρα για να γίνει σαφής διάκριση μεταξύ των δύο τύπων καρκίνου.
Διανομή υδροφοβικότητας ήταν το πιο σημαντικό χαρακτηριστικό που χρησιμοποιείται για την κατασκευή του δέντρου όταν το μοντέλο Δέντρο απόφαση εφαρμόζεται στις πληροφορίες Gain σύνολο δεδομένων ( Φιγούρα 1). Όταν η τιμή για αυτό το χαρακτηριστικό ήταν πάνω από 30.628, οι πρωτεΐνες έπεσε στην κοινή κατηγορία. Οι περιγραφείς αυτοσυσχέτισης και συνθέσεις διπεπτίδιο ήταν τα άλλα χαρακτηριστικά που χρησιμοποιούνται για την κατασκευή του υπόλοιπου του δέντρου. Εάν σύνθεση του Κυστεΐνη-γλουταμικού οξέος ([F1.2.1.24]: πολικό διπεπτίδιο) ήταν περισσότερο από 0.087, η πρωτεΐνη ανήκε σε SCLC όγκου και αλλιώς έπεσε σε NSCLC τάξη. Σύνθεση των μη πολικών διπεπτιδίων σε πρωτεΐνες NSCLC ήταν πάνω από SCLC πρωτεΐνες ([F1.2.1.218]: Met-Val) και παλάμη, συνθέσεις διπεπτίδιο του SCLC πρωτεΐνες είναι περισσότερο πολικά από πρωτεΐνες NSCLC ([F1.2.1.326]: Thr- Gly, [F1.2.1.98]: Phe-Val). . Οι λεπτομέρειες αυτού του μοντέλου έχουν γίνει στις παρακάτω
Η
Μετά από σημαντικά σημεία μπορούν να εξαχθούν από την δένδρα σε γενικές γραμμές, τα αποτελέσματα αυτά έχουν αναφερθεί για πρώτη φορά:
F1.2 (σύνθεση διπεπτίδιο), F3.1 (Moran αυτοσυσχέτισης) και F5.3 (Περιγραφέας διανομή) ήταν τα πιο σημαντικά χαρακτηριστικά της πρωτεΐνης που χρησιμοποιείται από τα μοντέλα δέντρων απόφασης για την ταξινόμηση των τριών τάξεων του καρκίνου του πνεύμονα (SCLC, NSCLC, ΚΟΙΝΗ).
διανομή υδροφοβικότητα (F5.3.1) σε κοινή τάξη ήταν πολύ υψηλή, ενώ η κατανομή των τελών (F5.3.5) ήταν πολύ χαμηλή (Σχήμα 2).
Γενικά, η σύνθεση των μη πολικών διπεπτιδίων στο SCLC κατηγορία ήταν μικρότερη από ό, τι ΚΟΙΝΗ πρωτεϊνών και τη σύνθεση των πολικών διπεπτιδίου σε πρωτεΐνες που σχετίζονται με μικροκυτταρικό καρκίνο του πνεύμονα ήταν υψηλότερη από ό, τι NSCLC κατηγορίας (Σχήμα 1).
η
στο πρώτο βήμα αν διανομή φορτίου ήταν ίση με ή κατώτερη από 22.703 οι πρωτεΐνες έπεσε σε κοινή κατηγορία? σύνθεση διπεπτίδιο ήταν άλλο σημαντικό χαρακτηριστικό για την κατάρτιση αυτού του δέντρου.
Η
Machine βάση Πρόβλεψη από Αφήστε One-out 10-φορές Cross Validation
Οι ακρίβειες όλων προκαλείται από αλγόριθμους πρόβλεψης παρουσιάζονται στον Πίνακα S4. Σχεδόν, οι μέσες τιμές ακριβείας για όλα τα μοντέλα έδειξαν ακρίβεια μεγαλύτερη από 60%. Τα χαμηλότερα ακρίβειες που αποκτήθηκε όταν το μοντέλο κούτσουρο δέντρου απόφασης έτρεξε στην ανακούφιση του συνόλου δεδομένων με τα κριτήρια Gini Index (41.89%). Το καλύτερο προβλεπόμενη ακρίβεια επιτυγχάνεται όταν Τυχαία Δάσος μοντέλο Δέντρο απόφαση έτρεξε Κανόνας σύνολο δεδομένων με δείκτη απόδοσης (86.00%)
Συζήτηση
Ο καρκίνος του πνεύμονα μπορεί να διαιρεθούν σε δύο ομάδες ανάλογα με την παθολογία:. Μη -μικρό καρκίνος του πνεύμονα (NSCLC) (80,4%) και μικροκυτταρικού καρκίνου του πνεύμονα (16,8%) [31]. Οι ασθενείς με μη-μικροκυτταρικό καρκίνο του πνεύμονα όγκου αντιμετωπίζονται διαφορετικά από εκείνα με μικρούς όγκους των κυττάρων. Η παθολογική διάκριση μεταξύ μικροκυτταρικό καρκίνο του πνεύμονα (SCLC) και μη μικροκυτταρικό καρκίνο του πνεύμονα είναι, ως εκ τούτου, είναι πολύ σημαντικό [4]. Πολλές μελέτες έχουν εξετάσει την ταξινόμηση του καρκίνου του πνεύμονα [16], [32], [33], [34], [35], [36], [37], [38], [39]. Για παράδειγμα, οι μορφές έκφρασης RNA που σχετίζονται με μη μικροκυτταρικό καρκίνο του πνεύμονα υπο κατάταξης έχουν αναφερθεί, αλλά υπάρχουν σημαντικές διαφορές όσον αφορά τα βασικά γονίδια και τα κλινικά χαρακτηριστικά αυτών των υποσυνόλων αμφιβολίες σχετικά με τη βιολογική τους σημασία. Σε αυτή την τελευταία μελέτη, η προσέγγιση της κατάρτισης-testing έχουν χρησιμοποιηθεί για να δοκιμαστεί η αξιοπιστία του cDNA που βασίζεται σε μικροδιάταξη ταξινομήσεις εκτομή ανθρώπινης μη-μικροκυτταρικό καρκίνο του πνεύμονα (NSCLCs) αναλύθηκαν με cDNA μικροσυστοιχίας. Αυτά τα αποτελέσματα κατέδειξαν ότι η γονιδιακή έκφραση προφίλ μπορεί να προσδιορίσει μοριακά τάξεις εκτομή NSCLCs που ταξινομεί σωστά ένα τυφλωμένο ομάδα δοκιμής, και συσχετίζεται με τα συμπληρώματα και τυπική ιστολογική αξιολόγηση [14]. Εν ολίγοις, εκτεταμένη και αναλυτική υποστήριξη για την ιδέα ότι η γονιδιακή έκφραση με βάση την ταξινόμηση των όγκων σύντομα θα γίνει κλινικά χρήσιμη για τον καρκίνο του πνεύμονα έχουν παράσχει [4]. Μοριακός χαρακτηρισμός των NSCLC χρησιμοποιώντας αντικειμενική ποσοτική δοκιμή μπορεί να είναι εξαιρετικά ακριβή και θα μπορούσε να μεταφραστεί σε μια διαγνωστική πλατφόρμα για την ευρεία κλινική εφαρμογή [40].
Ακολουθία προέρχονται από δομικές και φυσικοχημικές περιγραφείς έχουν συχνά χρησιμοποιηθεί σε πρόβλεψη μηχανική μάθηση πρωτεΐνης δομικές και λειτουργικές κατηγορίες [19], [20], [21], [22], [23], [24], αλληλεπιδράσεις πρωτεΐνης-πρωτεΐνης [24], [25], [26], [41], υποκυτταρικές θέσεις [27], [28], [42], [43], τα πεπτίδια που περιέχουν συγκεκριμένες ιδιότητες [29], [44], τα δεδομένα μικροσυστοιχιών [45] και την πρωτεΐνη πρόβλεψη δευτεροταγούς δομής [46]. Αυτοί οι περιγραφείς χρησιμεύουν για να εκπροσωπεί και να διακρίνουν πρωτεΐνες ή πεπτίδια διαφορετικά δομικά, λειτουργικά και αλληλεπίδραση προφίλ με τη διερεύνηση διακρίνονται τα χαρακτηριστικά τους σε συνθέσεις, συσχετίσεις, και οι κατανομές των συστατικών αμινοξέων και δομικές και φυσικοχημικές ιδιότητές τους [18], [20], [ ,,,0],26], [30] και αυτό αποδείχθηκε ότι χρησιμοποιείται σήμερα Περιγραφέας-σύνολα είναι γενικά χρήσιμα για την ταξινόμηση των πρωτεϊνών και η απόδοση πρόβλεψη μπορεί να ενισχυθεί με τη διερεύνηση συνδυασμών περιγραφέων [47].
Στην παρούσα μελέτη, χρησιμοποιήσαμε τις διαρθρωτικές και φυσικοχημικές ιδιότητες των πρωτεϊνών που συμμετέχουν σε οποιαδήποτε τύπους των όγκων του πνεύμονα για την κατάταξή τους και την ανίχνευση πιο σημαντικές ιδιότητες της πρωτεΐνης που έχουν συμμετάσχει στη διάκριση των όγκων του πνεύμονα. Διάφορες τεχνικές μοντελοποίησης εφαρμόστηκαν για τη μελέτη 1497 χαρακτηριστικά πρωτεϊνών που εμπλέκονται σε δύο και τέσσερις τύπους (μη δημοσιευμένα δεδομένα) από καρκίνο του πνεύμονα. Όταν ο αριθμός των μεταβλητών ή ιδιότητες είναι αρκετά μεγάλη, η ικανότητα να επεξεργάζεται μονάδες είναι σημαντικά μειωμένη. αλγόριθμοι καθαρισμού δεδομένα χρησιμοποιούνται για την αφαίρεση συσχετίζονται, άχρηστα ή αντιγραφεί ιδιοτήτων που οδηγεί σε μια μικρότερη βάση δεδομένων [48], [49]. Περίπου το 15% από τα χαρακτηριστικά απορρίπτεται όταν εφαρμόστηκαν οι αλγόριθμοι στα αρχικά σύνολα δεδομένων
Δέκα διαφορετικά μοντέλα χαρακτηριστικό στάθμισης που εφαρμόζεται για την τελική καθαρίζονται σύνολο δεδομένων.? όπως κάθε αλγόριθμος χρησιμοποιεί ένα συγκεκριμένο μοτίβο να καθορίσουν τα πιο σημαντικά χαρακτηριστικά, έτσι, τα αποτελέσματα ενδέχεται να διαφέρουν [50]. Οι ομάδες χαρακτηριστικό F5.3 (περιγραφείς διανομή), F1.2 (σύνθεση διπεπτιδίου) και F3.1 (αυτοσυσχέτιση) ήταν τα πιο σημαντικά χαρακτηριστικά που επιλέγονται από τα μοντέλα χαρακτηριστικό στάθμιση να γίνει διάκριση μεταξύ SCLC, NSCLC και κοινά μαθήματα των τύπων όγκου πνεύμονα, όπως ορίζεται από το 80% των αλγορίθμων χαρακτηριστικό στάθμισης (Πίνακας S2).
Επιπλέον, στα κατάλληλα δέντρα απόφασης, συμβατό αποτελέσματα με αλγορίθμους στάθμιση χαρακτηριστικό είχαν δείξει και η ίδια πρωτεΐνη αποδίδουν ομάδες (F2.1, F3.1 , F5.3 και F1.2) επιλέγονται ως τα πιο σημαντικά χαρακτηριστικά στην ταξινόμηση των πρωτεϊνών όγκου του πνεύμονα. Επιπλέον, οι περισσότερες επαγόμενη δέντρα έδειξαν χαρακτηριστικά F5.3, διανομή υδροφοβίας κοινά πρωτεΐνες ήταν πολύ υψηλή και η κατανομή των φορτισμένων υπολειμμάτων σε αυτές τις πρωτεΐνες ήταν πολύ χαμηλή, επομένως τα αποτελέσματα επιβεβαίωσαν πρωτεΐνες από κοινή τάξη ήταν πολύ υδρόφοβη.
Η σημασία της υδροφοβικότητας έχει επισημανθεί σε ορισμένες μελέτες [51], [52], [53]. Είναι καλά γνωστό ότι η υδροφοβικότητα παίζει σημαντικό ρόλο στον καθορισμό των ιδιοτήτων των αμινοξέων, πεπτιδίων και πρωτεϊνών. Σε μια άλλη μελέτη, υδρόφοβα κατάλοιπα ήταν κυρίαρχη σε αργή φάσμα αναδίπλωσης, και υδρόφιλα υπολείμματα συχνά συνέβη σε γρήγορη σειρά. Σε γενικές γραμμές, η γύρω περιβάλλον των πρωτεϊνών είναι το νερό. Τυπικά, οι πλευρικές αλυσίδες υδρόφοβων υπολειμμάτων θαμμένα στο εσωτερικό των πρωτεϊνών για να σχηματίσουν υδρόφοβο πυρήνα, η οποία είναι πέρα από το νερό, ενώ οι πλευρικές αλυσίδες του υδρόφιλα υπολείμματα εκτεθειμένα στην επιφάνεια των πρωτεϊνών, οι οποίες είναι κοντά στο ύδωρ μοριακών [ ,,,0],54]. Ως εκ τούτου, τα αποτελέσματα της μελέτης μας, για πρώτη φορά, επιβεβαιώνουν ότι η σημασία της υδροφοβικότητας επιτρέποντας γρήγορη αναδίπλωση της κοινής πρωτεϊνών ανάμεσα σε δύο τύπους όγκων στους πνεύμονες και την αύξηση της ικανότητάς τους για ογκογόνο ιδιοκτησίας.
σύνθεση διπεπτίδιο άλλες σημαντικές ομάδες χαρακτηριστικό πρωτεΐνη επιλεγμένη ως σημαντικό στην παρούσα μελέτη. Σε πρόσφατες μελέτες μας, έδειξαν ότι οι ειδικές διπεπτίδια διαδραματίσει τον κεντρικό ρόλο στην ταξινόμηση του καρκίνου του μαστού και σταθερότητα της πρωτεΐνης φωτοστέφανο και θερμο σταθερότητας [10], [55], [56]. Η σημασία της ταξινόμησης αλληλουχίας που βασίζονται σε ανίχνευση διαφόρων πρωτεϊνών που εκφράζονται σε καρκίνο του μαστού και η σημασία της Ile-Ile διπεπτιδίου σε ομαδοποίηση των πρωτεϊνών, αναφέρθηκαν εκεί [10]. Σε αυτή την εργασία, τα περισσότερα από τα μοντέλα δέντρων απόφασης έδειξε ότι η σύνθεση των πολικών διπεπτιδίου σε SCLC πρωτεΐνες ήταν περισσότερο από ό, τι πρωτεΐνες NSCLC και αντίστροφα, με αποτέλεσμα οι πρωτεΐνες NSCLC να δείξει περισσότερη υδροφοβία. Αυτά τα αποτελέσματα έχουν αναφερθεί για πρώτη φορά και μπορεί να είναι ένας από τους κύριους παράγοντες για τη διευκόλυνση SCLC όγκους διανομής.
Στην παρούσα μελέτη, Περιγραφέας αυτοσυσχέτισης ήταν μια άλλη σημαντική ομάδα χαρακτηριστικό για την ταξινόμηση των όγκων του πνεύμονα. περιγραφείς αυτοσυσχέτισης είναι μια κατηγορία των τοπογραφικών περιγραφέων, επίσης γνωστή ως δείκτες μοριακών συνδεσιμότητα, περιγράφουν το επίπεδο συσχέτισης μεταξύ δύο αντικειμένων (πρωτεΐνη ή πεπτίδιο ακολουθίες) από την άποψη των ειδικών διαρθρωτικών ή φυσικοχημικές περιουσία τους [57], οι οποίες ορίζονται με βάση την κατανομή των ιδιοτήτων αμινοξέων κατά μήκος της ακολουθίας [58]. Οκτώ ιδιότητες αμινοξέων που χρησιμοποιούνται για την εξαγωγή των περιγραφέων αυτοσυσχέτισης: υδροφοβικότητα κλίμακα [59]? μέσος δείκτης ευελιξία [60]? παράμετρος πολωσιμότητα [61]? ελεύθερη ενέργεια διάλυμα αμινοξέων σε νερό [61]? υπόλειμμα περιοχές προσιτή επιφάνεια [62]? όγκοι υπόλειμμα αμινοξέος [63]? στερεοχημικές παράμετροι [64]? και η σχετική μεταβλητότητα [65]. Ένα από πρόσφατη μελέτη απέδειξε ότι η AASA (αυτοσυσχέτισης αλληλουχία αμινοξέων) οι πληροφορίες είναι πολύ αποτελεσματική για να αντιπροσωπεύουν τη σχέση μεταξύ της αλληλουχίας της πρωτεΐνης και των αντίστοιχων ποσοστών αναδίπλωση [54]. Έτσι, οι ιδιότητες αυτοσυσχέτισης μπορεί να διαδραματίσει σημαντικό ρόλο στην αναδίπλωση της τρεις όγκους καρκίνου του πνεύμονα που μελετήθηκαν εδώ και αυτό το χαρακτηριστικό έχει αναφερθεί για πρώτη φορά σε αυτή τη μελέτη. προσέγγιση αυτοσυσχέτισης είχαν επιτυχή χρήση για τη μοντελοποίηση μοριακές ιδιότητες, βιολογικές δραστηριότητες [66], [67] και την πρόβλεψη της περιεκτικότητας σε πρωτεΐνες έλικας [68]. Σε μια πρόσφατη μελέτη, μία μέθοδος για την ανακατασκευή της διανομής στέλεχος τροποποιώντας την τεχνική αυτοσυσχέτιση, «συνδυασμένη μέθοδο αυτοσυσχέτισης» που προτείνεται. Στα πειράματα χρησιμοποιώντας ένα φάντασμα όγκου και μία εκχυλίζεται ιστό του μαστού, συμπεριλαμβανομένων καρκινικών όγκων, κάθε μέτρο ελαστικότητας της εικόνας που λαμβάνεται με τη συνδυασμένη μέθοδο αυτοσυσχέτισης και το 3-D μοντέλο πεπερασμένων στοιχείων ιστού που εμφανίζεται σαφώς την περιοχή πιο δύσκολο από ό περιβάλλοντα μαλακό υλικό ή ιστό. Αυτά τα αποτελέσματα δείχνουν ότι η συνδυασμένη μέθοδος αυτοσυσχέτιση είναι ένα υποσχόμενο μέσο για τη διάγνωση των όγκων [69], όπως φαίνεται σε αυτό το έγγραφο.
Ανεξέλεγκτη αλγόριθμοι ομαδοποίησης έχουν χρησιμοποιηθεί ευρέως σε διάφορους τομείς στις βιολογικές επιστήμες, συμπεριλαμβανομένης της διάγνωσης και επεξεργασία εικόνας [70], EST [71], η ανίχνευση του καρκίνου [72], η ανάλυση υποκινητή [71], των γονιδίων και πρωτεϊνών βιοπληροφορικής [56], [73], [74], [75], [76]. Εδώ, θα χρησιμοποιηθούν δύο διαφορετικές μέθοδοι ομαδοποίησης (K-Means και K-medoids) για FCdb και 10 σύνολα δεδομένων που δημιουργούνται από τις ιδιότητες της πρωτεΐνης, η οποία ανατέθηκαν υψηλή βάρη. Οι επιδόσεις αυτών των αλγορίθμων ποικίλλει σημαντικά. Μερικές μέθοδοι ήταν σε θέση να αναθέσει σχεδόν NSCLC πρωτεΐνη στη σωστή κατηγορία (για παράδειγμα, ο αλγόριθμος K-medoids, όταν εφαρμόζεται σε FCdb και Απόκλιση, Gini Index, πληροφορίες Gain, PCA και σύνολα δεδομένων Αβεβαιότητα). Τα αποτελέσματα έδειξαν ότι η K-medoids αλγόριθμο ήταν σχεδόν σε θέση να ταξινομήσει SCLC πρωτεϊνών στη σωστή κατηγορία, όταν τρέχει στο σύνολο δεδομένων Chi Squared. Αλλά κανένας από αλγορίθμου ομαδοποίησης ήταν σε θέση να κατατάξει σωστά ΚΟΙΝΗ πρωτεϊνών σε αντίστοιχη κατηγορία (Πίνακας S3). Για περισσότερες ακριβής συγκέντρωση των πρωτεϊνών που ανήκαν σε οποιαδήποτε είδη των όγκων του πνεύμονα, άλλα μοντέλα συσταδοποίησης όπως EM εφαρμόζονται σε δεδομένα με μεγαλύτερη ακρίβεια (αδημοσίευτα δεδομένα).
Όπως φαίνεται στον Πίνακα S4, τα συνολικά ακρίβειες για επαγωγή δένδρου
You must be logged into post a comment.