PLoS One: Βελτιωμένη ταξινόμηση των Καρκίνο του Πνεύμονα όγκοι με βάση τις δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνών χρησιμοποιώντας Data Mining Μοντέλα


Αφηρημένο

Η ανίχνευση αποκλίσεων μεταξύ ογκογόνο όγκων διαδραματίζει κεντρικό ρόλο στη διάγνωση και θεραπεία του καρκίνου. Αυτή η ερευνητική εργασία επικεντρώθηκε στο σχεδιασμό ένα υπολογιστικό στρατηγική για την πρόβλεψη της τάξης των όγκων του καρκίνου του πνεύμονα από τις δομικές και φυσικοχημικές ιδιότητες (1497 χαρακτηριστικά) των πρωτεϊνικών αλληλουχιών που προέρχονται από γονίδια που ορίζεται με ανάλυση μικροσυστοιχιών. Η προτεινόμενη μεθοδολογία περιελάμβανε τη χρήση υβριδικών τεχνικών επιλογής χαρακτηριστικών (αναλογία κέρδους και συσχετισμού βασίζονται αξιολογητές υποσύνολο με Στοιχειώδες Δυνατότητα επιλογής) που ακολουθείται από την πρόβλεψη Bayesian δικτύου για τη διάκριση καρκίνου του πνεύμονα όγκους όπως μικροκυτταρικό καρκίνο του πνεύμονα (SCLC), μη-μικροκυτταρικό καρκίνο του πνεύμονα ( NSCLC) και η κοινή τάξεις. Επιπλέον, η μεθοδολογία αυτή εξάλειψε την ανάγκη για εκτεταμένες στρατηγικές καθαρισμού δεδομένων σχετικά με τις ιδιότητες των πρωτεϊνών και αποκάλυψε την βέλτιστη και ελάχιστο σύνολο από χαρακτηριστικά που συνέβαλαν στην ταξινόμηση των όγκων του καρκίνου του πνεύμονα με βελτιωμένη ακρίβεια σε σύγκριση με το προηγούμενο έργο. Προσπαθήσαμε επίσης να προβλέψουμε μέσω εποπτευόμενων ομαδοποίηση των πιθανών σχηματισμών στα δεδομένα όγκου του πνεύμονα. Τα αποτελέσματα μας αποκάλυψαν ότι εποπτευόμενων αλγόριθμοι ομαδοποίησης επέδειξε κακή απόδοση στη διαφοροποίηση των κατηγοριών όγκου του πνεύμονα. Υβριδικά επιλογής χαρακτηριστικών προσδιόρισε την κατανομή διαλύτη προσβασιμότητα, πολωσιμότητα και υδροφοβικότητα όπως τα υψηλότερα κατατάσσεται χαρακτηριστικά με Στοιχειώδες επιλογή χαρακτηριστικών και πρόβλεψη Bayesian Network δημιουργώντας το βέλτιστο Jack-knife ακρίβεια σταυρό επικύρωση του 87,6%. Ακριβής κατηγοριοποίηση των ογκογόνων γονιδίων που προκαλούν SCLC και NSCLC με βάση τις δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνικών αλληλουχιών τους αναμένεται να διαλευκάνουν τη λειτουργικότητα των πρωτεϊνών που είναι απαραίτητες για τη διατήρηση της γονιδιωματικής ακεραιότητας ενός κυττάρου και επίσης να λειτουργήσει ως μια ενημερωτική πηγή για το σχεδιασμό φαρμάκων, στόχευση ουσιαστικές ιδιότητες των πρωτεϊνών και τη σύνθεση τους, που βρίσκονται να υπάρχουν σε όγκους του καρκίνου του πνεύμονα

Παράθεση:. Ramani RG, Jacob SG (2013) Βελτιωμένη ταξινόμηση του καρκίνου του πνεύμονα όγκοι με βάση τις δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνών χρησιμοποιώντας Data Mining Μοντέλα. PLoS ONE 8 (3): e58772. doi: 10.1371 /journal.pone.0058772

Συντάκτης: Vladimir Ν Uversky, Πανεπιστήμιο της Νότιας Φλόριντα College of Medicine, Ηνωμένες Πολιτείες της Αμερικής

Ελήφθη: 22 Δεκ 2012? Αποδεκτές: 6 Φεβ, 2013? Δημοσιεύθηκε: 7 Μαρτίου του 2013

Copyright: © 2013 Ramani, Jacob. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Χρηματοδότηση:. Αυτή η έρευνα εργασία είναι ένα μέρος του All India Συμβουλίου για την Τεχνική Εκπαίδευση (AICTE), Ινδία έργο χρηματοδοτούμενο σχέδιο Προώθησης Έρευνας με τίτλο «αποτελεσματική ταξινομητή για τα δεδομένα κλινικών ζωής (Πάρκινσον, τον Καρκίνο του μαστού και Ρ53 μεταλλάξεις) μέσω της ανάλυσης χαρακτηριστικό ενδιαφέρον και ταξινόμηση» με αριθμούς αναφοράς 8023 /RID /RPS-56 /2010-11 και 200-62 /FIN /04/05/1624. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Ογκογόνες όγκοι είναι η κύρια αιτία θανάτου σε όλο τον κόσμο με τον καρκίνο του πνεύμονα που φέρουν το μεγαλύτερο διόδια των κακοήθων θανάτων [1] – [3]. Το κάπνισμα και η χρήση του καπνού, μαζί με ποικίλα περιβαλλοντικά καρκινογόνα αυξημένη ανθρώπινη ευαισθησία σε αυτήν την θανάσιμη ασθένεια [4] – [5]. ασχολείται με την αποτοξίνωση των καρκινογόνων Gene πολυμορφισμοί έχουν συσχετιστεί με το σχηματισμό όγκων του πνεύμονα. όγκων του πνεύμονα έχουν σε γενικές γραμμές κατηγοριοποιούνται ως μη-μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC) που επηρεάζουν σχεδόν τα δύο τρίτα των ασθενών με χαμηλό ποσοστό επιβίωσης και μικροκυτταρικό καρκίνο του πνεύμονα (SCLC), δύο εκ των οποίων ανταποκρίνονται στις διαφορετικές μορφές θεραπείας [6] – [10]. Αυτό οδηγεί στην ανάγκη να προσδιορίσει επακριβώς τις παθολογικές διαφορές μεταξύ των δύο αυτών τύπων όγκων.

πρότυπα γονιδιακής έκφρασης από την ανάλυση μικροσυστοιχιών ενεργοποιήσετε την υπο-κατηγοριοποίηση των τύπων καρκίνου του πνεύμονα που σχετίζεται με το βαθμό της οριοθέτησης του όγκου, της φύσης της θεραπείας και ποσοστό θύμα επιβίωσης [11] – [14]. Ήταν αποδειχθεί ότι Lung καρκινογένεση ήταν μια διαδικασία που εμπλέκονται βαθμιαίες αλλαγές φαινοτυπική που συνέβησαν ως αποτέλεσμα της ενεργοποίησης ογκο-γονιδίου και απενεργοποίηση των ογκοκατασταλτικών γονιδίων [8]. Αναφορές μέχρι σήμερα στη βιβλιογραφία έχουν αποτύχει να εντοπίσει τυχόν αξιόπιστων βιοδεικτών για αυτή την κατάσταση, δεδομένου πειράματα υγρής-lab συχνά καταναλώνονται περισσότερο χρόνο, την τεχνογνωσία και το κεφάλαιο με βέβαιοι επιστρέφει [1], [4] – [6]. η τεχνολογία των μικροσυστοιχιών έχει χρησιμοποιηθεί στο πρόσφατο παρελθόν για τον εντοπισμό κατάλληλων βιοδεικτών αλλά παρούσας μεθοδολογίες ήταν πιο επιρρεπείς να παραβλέψουμε το δυναμικό γεγονότα που περιέχονται σε δείγματα ασθενών ιστών [14]. Εξ ου και προσδιορισμός των πιθανών και κατατοπιστική δείκτες (διαγνωστικές και προγνωστικές) τόσο από τη βιολογική και τη μοριακή σκοπιά είναι εξαιρετικά σημαντικό να μελετήσει και να αξιολογήσει τη γενετική και μοριακή ιδιαιτερότητα που χαρακτηρίζεται όγκους και μετάσταση όγκου Κόμβος (TNM) στάσης στην καρκινογένεση στον πνεύμονα για να καταστεί δυνατή η αποτελεσματική διάγνωση και επιβεβαιώνουν θεραπευτικές στρατηγικές.

Σε πρόσφατη έρευνα οι επιχειρήσεις, πολλές ταξινομητές και μοντέλα εξόρυξης δεδομένων έχουν χρησιμοποιηθεί που στοχεύει την κατάλληλη κατηγοριοποίηση των όγκων του καρκίνου του πνεύμονα. Σαράντα ένα δείγματα που χαρακτηρίζεται από 26 γνωρίσματα υπολογίζεται από τον λόγο μάζας προς φορτίο (m /z) και τα ύψη των κορυφών των πρωτεϊνών προσδιορίζονται με φασματοσκοπία μάζας των δειγμάτων ορού αίματος από καρκίνο του πνεύμονα που επηρεάζονται και οι ασθενείς μη προσβεβλημένο χρησιμοποιήθηκε για να εκπαιδεύσει μια ταξινόμηση και το δέντρο παλινδρόμησης (CART) μοντέλο [13]. Μοριακή ταξινόμηση των NSCLC βασίζεται σε ένα ποσοστό προσέγγιση τρένο-test χρησιμοποιήθηκε για να αξιολογηθεί η αξιοπιστία του cDNA που βασίζεται σε μικροδιάταξη ταξινομήσεις εκτομή ανθρώπινης μη-μικροκυτταρικό καρκίνο του πνεύμονα (NSCLCs) [14]. Σε περαιτέρω έρευνα Γραμμική Διαχωριστική Ανάλυση και τεχνητό νευρωνικό δίκτυο ταξινόμηση της ατομικής κυτταρικές σειρές καρκίνου του πνεύμονα (SCLC και NSCLC) πραγματοποιήθηκε με βάση τους δείκτες της μεθυλίωσης του DNA [13]. Τα αποτελέσματα που αναφέρθηκαν ότι η ανάλυση τεχνητό νευρωνικό δίκτυο δεδομένων μεθυλίωσης του DNA ήταν μια πιθανή τεχνική για την ανάπτυξη αυτοματοποιημένων μεθόδων για την ταξινόμηση του καρκίνου του πνεύμονα. Σε μια άλλη μελέτη Support Vector Machine [14] χρησιμοποιήθηκε στον καρκίνο του πνεύμονα γονιδιακής έκφρασης ανάλυση της βάσης δεδομένων και τα αποτελέσματα πρότεινε ότι ενσωματώνεται η προηγούμενη γνώση σε ταξινόμηση του καρκίνου βασίζεται σε δεδομένα γονιδιακής έκφρασης ήταν απαραίτητο να βελτιωθεί η ακρίβεια ταξινόμησης. Αυτόματη ταξινόμηση των πνευμόνων ΤΝΜ τα στάδια του καρκίνου από τις εκθέσεις παθολογία ελεύθερο κείμενο χρησιμοποιώντας συμβολικά σε κανόνες ταξινόμησης που βασίζεται επιχειρήθηκε [15]. Η μεθοδολογία εκτιμήθηκε με βάση τις παραμέτρους της ακρίβειας και μήτρες σύγχυση σε μια βάση δεδομένων της διεπιστημονικής ομάδας στάσης από τις αποφάσεις και μηχανικής μάθησης, με βάση το σύστημα ταξινόμησης κειμένου με τη χρήση μηχανών διανυσμάτων υποστήριξης.

Η τρέχουσα έρευνα επικεντρώθηκε σε ένα πολύ πρόσφατο άρθρο από Hosseinzadeh et.al [1] που είχε ως στόχο να ταξινομήσει τους όγκους του καρκίνου του πνεύμονα βασίζεται σε δομικές και φυσικοχημικές ιδιότητες των πρωτεϊνών με τη χρήση μοντέλων Βιοπληροφορικής. Επιλέξαμε αυτό το χαρτί για τρεις βασικούς λόγους. (I) Το έργο είναι η πιο πρόσφατη και τα δεδομένα είναι διαθέσιμα στο κοινό. (Ii) Η έρευνα περιέλαβε την αφθονία των στρατηγικών καθαρισμού δεδομένων και προ-επεξεργασίας που θα μπορούσε να αποφευχθεί. (Iii) Το έργο τους που εμπλέκονται μερικές υποθέσεις σχετικά με τα δεδομένα που λαμβάνονται τα οποία δεν έχουν εγκριθεί σε αυτό το έργο. Επιπλέον, η μέθοδος που προτείνεται στο έγγραφο αυτό ήταν σε θέση να παράγουν υψηλότερη ακρίβεια ταξινόμησης στη διαφοροποίηση μεταξύ των πνευμόνων καρκινικούς όγκους με βάση τις ιδιότητες της πρωτεΐνης, διατηρώντας τα αρχικά δεδομένα και την εξάλειψη των υποθέσεων. Ακριβώς αυτό το χαρτί κάνει τις ακόλουθες συνεισφορές: (α) Σχεδιασμός μιας νέας μεθοδολογίας με τεχνικές επιλογής υβριδική λειτουργία για να εντοπίσει τα βέλτιστα χαρακτηριστικά πρωτεΐνη που διακρίνονται μεταξύ τους όγκους του καρκίνου του πνεύμονα με μεγαλύτερη ακρίβεια. (Β) εξάλειψε την ανάγκη για καθαρισμό δεδομένων και υποθέσεις σχετικά με το χαρακτηριστικό σημασία. (Γ) Συμβολή χαρακτηριστικά που προσδιορίζονται πιστεύεται ότι επηρεάζουν το σχεδιασμό φαρμάκων που θα μπορούσαν να στοχεύσουν την ιδιότητα της πρωτεΐνης οδηγεί σε όγκους του καρκίνου του πνεύμονα.

Υλικά και Μέθοδοι

Σύνολο δεδομένων

Το γονίδιο Set Εμπλουτισμός βάση δεδομένων Ανάλυση (GSEA δβ) [16] χρησιμοποιήθηκε για να ληφθούν τα σύνολα γονιδίων που συνέβαλαν στην ανάπτυξη του NSCLC και SCLC. Ελήφθη από την Εγκυκλοπαίδεια του Κιότο γονιδίων και γονιδιωμάτων (KEGG) [17] γονίδιο σετ. Ένα σύνολο των 84 γονιδίων [17] ήταν παρόντες στο SCLC σετ γονιδίων, ενώ 54 γονίδια [17] διαπιστώθηκε συμβάλλουν στην NSCLC. Προκειμένου να διακρίνει επακριβώς μεταξύ των δύο κατηγοριών των όγκων, τα γονίδια που συνήθως συμβαίνουν σε δύο όγκους τοποθετήθηκαν σε μια διαφορετική κατηγορία που ονομάζεται κοινά. Η δύναμη του γονιδίου που για SCLC ήταν 59, NSCLC περιλαμβάνονται 29 ενώ το σύνολο ΚΟΙΝΗ γονίδιο συνοψιστεί σε 25. Πρωτεΐνες για κάθε ομάδα γονιδίων που ελήφθησαν από τη βάση δεδομένων καρτών Gene [18], καθώς και τις αντίστοιχες αλληλουχίες πρωτεϊνών που προέρχονται από τη βάση δεδομένων UniProt Γνωσιακή Βάση [19]. Αυτές οι αλληλουχίες σώθηκαν ως αρχείο κειμένου και φορτώθηκε PROFEAT web server [20] – [21] για να υπολογίσει τις δομικές και φυσικοχημικές ιδιότητες που σχετίζονται με την πρωτεΐνη. Συνολικά χίλιες τετρακόσιες ενενήντα επτά χαρακτηριστικά υπολογίστηκαν και παρουσιάζονται ως Fi.jkl όπου «L» αντιπροσώπευε την αξία Περιγραφέας και «k» συμβολίζεται το Περιγραφέας ενώ το «j» ανέφερε το χαρακτηριστικό και «i», σηματοδότησε την ομάδα χαρακτηριστικό [ ,,,0],20] – [21]. Τα χαρακτηριστικά και οι σχολιασμοί τους έχουν παρασχεθεί ως S1 αρχείου. Το πλήρες σύνολο δεδομένων που αποτελείται από 1497 χαρακτηριστικά και 113 δείγματα όγκων [17] φορτώθηκαν στο WEKA 3.7.7 λογισμικό μηχανικής μάθησης [22], καθώς και ο τύπος του όγκου ορίστηκε να είναι η τάξη στόχο. Η πλήρης προ-επεξεργασία του συνόλου δεδομένων παρέχεται ως S2 αρχείου. Η διακύμανση του μεγέθους του δείγματος, σε σύγκριση με την προηγούμενη εργασία αποδίδεται σε πιθανή updations στη βάση δεδομένων. Η μεθοδολογία που προτείνεται σε αυτό το ερευνητικό έργο περιγράφεται στην επόμενη ενότητα

Προτεινόμενες Υπολογιστική Μεθοδολογία

Η προτεινόμενη μεθοδολογία αποτελείται από δύο φάσεις:. Η φάση της κατάρτισης και η φάση πρόβλεψη. Η φάση της κατάρτισης ενσωματωθεί η διαδικασία προετοιμασίας των δεδομένων, επιλογής χαρακτηριστικών και ταξινόμησης, ενώ η φάση πρόβλεψη συμμετέχουν αξιολόγηση του μοντέλου ταξινομητή χρησιμοποιώντας Jack-knife test διασταυρωμένης επικύρωσης με βάση τις παραμέτρους απόδοσης [23] – [24]: Matthews Συσχέτιση Συντελεστής ( MCC) και ακρίβεια. Η διαγραμματική απεικόνιση της προτεινόμενης μεθοδολογίας δίνεται στο σχήμα 1. Η προετοιμασία των δεδομένων φάση ενσωματώνεται κατηγοριοποίηση των γονιδίων εισόδου θέτει ως SCLC, NSCLC και η κοινή τάξεις. Αυτό ακολουθήθηκε από Hybrid επιλογή χαρακτηριστικών με τμηματικής Δυνατότητα επιλογής. Τα μοντέλα ταξινόμησης χτίστηκαν στη συνέχεια και σε σχέση με τον προσδιορισμό της καλύτερες επιδόσεις υπολογιστική τεχνική πρόβλεψη για την ταξινόμηση των όγκων του πνεύμονα, χρησιμοποιώντας πρωτεΐνη δομικές και φυσικοχημικές ιδιότητες. Επιλογή

Η

Υβριδικά χαρακτηριστικό.

Χαρακτηριστικό κατάταξη παρουσίασε σημαντική χαρακτηριστικά με τη σειρά της συμβολής τους στην κατηγοριοποίηση των δοκιμίων υπό τις διάφορες κατηγορίες στόχου [25] – [28]. Δεδομένου ότι οι περισσότεροι αλγόριθμοι επιλογής χαρακτηριστικών επικεντρώθηκε στην κατάταξη τα χαρακτηριστικά σύμφωνα με την αξία τους σημασία, η ευθύνη της επιλογής του περιορισμού της περιορισμό ξεκούραστα με το χρήστη [29] – [31]. Ως εκ τούτου, προκειμένου να αυτοματοποιήσει τη διαδικασία της εύρεσης του ελάχιστου ακόμη βέλτιστο σύνολο χαρακτηριστικών, οι αλγόριθμοι επιλογής κατάταξης χαρακτηριστικό ακολούθησε Συσχέτιση υποομάδα αξιολογητές [32] που περιλαμβάνονται χαρακτηριστικά υψηλή συσχέτιση με την τάξη και λιγότερο συσχετίζονται μεταξύ τους. Δεδομένου ότι τόσο η κατάταξη και υποσύνολο αξιολογητές χρησιμοποιήθηκαν για να επιτύχετε το βέλτιστο σύνολο χαρακτηριστικών γνωρισμάτων, αυτό ονομάζεται Hybrid στρατηγική Δυνατότητα επιλογής. Η περιγραφή των μεθόδων που χρησιμοποιούνται σε αυτή την έρευνα αναλυτικά παρακάτω

Gain Κριτήριο Λόγος

Αποκτήστε το κριτήριο λόγου [33] -.. [34], αποκάλυψε τη σχέση μεταξύ ενός χαρακτηριστικού και της αξίας της κατηγορίας , που υπολογίζεται κατά κύριο λόγο από το όφελος των πληροφοριών, χρησιμοποιώντας τις τιμές πληροφοριών Εντροπία (InfoE) [35]. Αφού ληφθεί η αξία της Εντροπίας H (S

R), και υποθέτοντας «F» είναι το σύνολο όλων των χαρακτηριστικών, και S

R να είναι το σύνολο όλων των εγγραφών, Αξία (r, στ) θεωρείται ότι είναι η αξία μιας συγκεκριμένης περιπτώσεως «r & lt? $ & gt? \\ raster =» Rg1 «& lt? $ & gt? S »για τη λειτουργία» στ & lt? $ & Gt? \\ Raster = «Rg1» & lt? $ & Gt? ΦΆ’. Gain Πληροφορίες για το χαρακτηριστικό υπολογίστηκε χρησιμοποιώντας την εξίσωση (1), ως εξής [35] 🙁 1)

Για να υπολογίσουμε την εγγενή αξία για μια δοκιμή, ο ακόλουθος τύπος εγκρίθηκε: (2)

Ο λόγος πληροφόρησης Gain [33] – [35] υπολογίστηκε ως ο λόγος μεταξύ του Gain πληροφορίες και την εγγενή αξία, σύμφωνα με την εξίσωση (3) (3)

Τα χαρακτηριστικά αυτά ως εκ τούτου κατατάσσονται σύμφωνα με κατάταξή τους στη φθίνουσα σειρά της βαθμολογίας Λόγος Gain και χρησιμοποιήθηκαν για τη μέθοδο CFS υποομάδα αξιολογητής που περιγράφονται παρακάτω.

Επιλογή Συσχέτιση Feature (CFS) υποομάδα αξιολογητής.

Η υπόθεση CFS [36] πρότεινε ότι οι πιο προγνωστική χαρακτηριστικά που απαιτούνται για να είναι υψηλή συσχέτιση με την τάξη στόχο και λιγότερο συναφείς με την αποδίδει άλλες πρόβλεψης. Η ακόλουθη εξίσωση [36] – [37] καταγράφεται η τιμή ενός χαρακτηριστικού υποσυνόλου S που αποτελείται από χαρακτηριστικά «k» (4), όπου, ήταν η μέση τιμή όλων των συσχετισμών χαρακτηριστικό ταξινόμησης, και ήταν η μέση τιμή όλων των feature- χαρακτηριστικό συσχετίσεις. Το κριτήριο CFS [36] ορίστηκε ως εξής:

(5) Σε περίπτωση που και οι μεταβλητές αναφέρονται ως συσχετισμούς. Τα χαρακτηριστικά που απεικονίζονται σε υψηλή συσχέτιση με την τάξη στόχο και λιγότερο ενδιαφέρον σε κάθε άλλη επιλέχθηκαν ως το καλύτερο υποσύνολο των γνωρισμάτων.

Τα χαρακτηριστικά φιλτράρονται με τη μέθοδο της CFS υποομάδα αξιολογητής προστέθηκαν σε μια στοιχειώδη τρόπο να προσδιορίσει το βέλτιστο σύνολο χαρακτηριστικών που συνέβαλαν στην κατηγοριοποίηση των πνευμόνων όγκου. Η μεθοδολογία αυτή αναφέρεται παρακάτω.

τμηματικής Δυνατότητα επιλογής.

Το προγνωστικό χαρακτηριστικά που δημιουργούνται από την αναλογία κέρδους και τη μέθοδο CFS υποομάδα Χαρακτηριστικό αξιολογητής (Hybrid Δυνατότητα επιλογής) αργότερα χρησιμοποιήθηκε για τμηματικής Δυνατότητα επιλογής (IFS ) [38] – [39], για να καθοριστεί η ελάχιστη και βέλτιστο σύνολο χαρακτηριστικών. Σχετικά με την προσθήκη κάθε χαρακτηριστικό, λήφθηκε ένα νέο σύνολο χαρακτηριστικών γνωρισμάτων και το k

ου σύνολο των χαρακτηριστικών θα μπορούσε να αναφέρεται ως (6)

Όταν M συμβολίζεται το συνολικό αριθμό των υποσυνόλων πρόβλεψης. Για την κατασκευή κάθε σύνολο χαρακτηριστικών γνωρισμάτων, το μοντέλο προγνωστικό κατασκευάστηκε και δοκιμάστηκε μέσω Jack-knife μέθοδο cross-επικύρωσης. Η MCC και η ακρίβεια των διασταυρωμένης επικύρωσης μετρήθηκε, οδηγώντας στο σχηματισμό του πίνακα IFS με τον αριθμό των χαρακτηριστικών και της ακρίβειας ταξινόμηση ήταν σε θέση να παράγουν. «AT

o ‘ήταν το ελάχιστο και το βέλτιστο σύνολο χαρακτηριστικών που συγκέντρωσαν την υψηλότερη MCC και την ακρίβεια.

Για να προσδιοριστεί το καλύτερο μοντέλο ταξινόμησης για την ταξινόμηση των πνευμόνων του όγκου [40], συνολικά πέντε αναφοράς πρόβλεψης τεχνικές δηλαδή, Support Vector Machine [29], Random Δάσος [1], Πλησιέστερα αλγόριθμο γείτονα [39], Bayesian δίκτυο μάθησης [22] και της Επιτροπής Τυχαία (Ensemble ταξινομητής) [22] αναλύθηκαν και συγκρίθηκαν. Τα αποτελέσματά μας επιβεβαίωσαν ότι η προσέγγιση Bayesian δίκτυο που δημιουργείται με μεγαλύτερη ακρίβεια ταξινόμησης όγκου με το βέλτιστο σύνολο χαρακτηριστικών γνωρισμάτων.

Μάθησης Bayesian Network.

Η φάση εκμάθησης σε αυτή την προσέγγιση ενσωματωθεί η διαδικασία για την εξεύρεση της κατάλληλης Bayesian δίκτυο [41] δίνεται ένα σύνολο δεδομένων D πάνω, όπου R = {r

1, r

n}, n ≥1 ήταν το σύνολο των μεταβλητών εισόδου. Το έργο ταξινόμηση αποτελούνταν από τον χαρακτηρισμό μιας μεταβλητής V = V

0 κάλεσε την κατηγορία μεταβλητή (NSCLC /SCLC /ΚΟΙΝΗ) δίνεται ένα σύνολο μεταβλητών R = r

1. . . r

n. Ένας ταξινομητής C: R → v ήταν μια λειτουργία που χαρτογραφείται μια παρουσία του «r» στην τιμή του «ν». Ο ταξινομητής είχε μάθει από ένα σύνολο δεδομένων D που αποτελούνταν από δειγμάτων πάνω (r, v) [42]. Ένα Bayesian δίκτυο πάνω από ένα σύνολο μεταβλητών R ήταν μια δομή δικτύου Β

s, μια κατευθυνόμενη ακυκλική γραφική παράσταση (DAG) πάνω από το σύνολο των μεταβλητών R και μια σειρά από πίνακες πιθανοτήτων [43] δόθηκε από (7)

Όταν pa (R) ήταν η σειρά των γονέων του r στο Β

S και το δίκτυο αντιπροσώπευε μια κατανομή πιθανοτήτων δίνεται από την Εξ. (8) (8)

Το συμπέρασμα γίνεται από το δίκτυο Bayesian [41] – [43] ήταν να διαθέσει την κατηγορία με τη μέγιστη πιθανότητα [44]. Η απλή Εκτιμητής με τη μέθοδο τοπικής αναζήτησης K2 χρησιμοποιώντας Bayes Σκορ χρησιμοποιήθηκαν (προεπιλεγμένες παραμέτρους) για την εκτέλεση του αλγορίθμου σε WEKA 3.7.7 [22]. Οι μέθοδοι ομαδοποίησης ενημέρωσε σχετικά με την ακόλουθη ενότητα

Εποπτευόμενοι Clustering

Εποπτευόμενοι clustering [45] -.. [47] παρεκκλίνει από ανεξέλεγκτους ομαδοποίησης στο ότι εφαρμόστηκε στην ήδη χαρακτηριστεί παραδείγματα με το πρωταρχικό στόχο την ανίχνευση συστάδες που είχαν υψηλής πυκνότητας πιθανότητας σε σχέση με μία μόνο κατηγορία. απαιτείται Εποπτευόμενοι ομαδοποίηση ο αριθμός των συνεργατικών σχηματισμών πρέπει να περιορίζονται στο ελάχιστο, και τα αντικείμενα που είχαν ανατεθεί σε συστάδες με τη χρήση της έννοιας της εγγύτητας σε σχέση με μια συγκεκριμένη λειτουργία εξ αποστάσεως [48] – [49]. Εποπτευόμενοι ομαδοποίηση αξιολογηθεί μια τεχνική ομαδοποίησης με βάση τα ακόλουθα δύο κριτήρια [47] – [49]:

Class ακαθαρσία, ακαθαρσία (Χ):

Είναι μετρήθηκε με το ποσοστό της οριακής παραδείγματα οι διαφορετικές ομάδες μιας ομαδοποίησης X. μια οριακή παράδειγμα ήταν ένα παράδειγμα που ανήκε σε μια κατηγορία διαφορετική από την πιο συχνή κατηγορία στο ταμπλό του.

αριθμός των συστάδων, k.

η

σε αυτή την έρευνα που έχουμε σε σύγκριση με τις κλάσεις να συγκεντρώνονται ακρίβεια την αξιολόγηση των επτά αλγορίθμων ομαδοποίησης [22] δηλαδή Προσδοκία Μεγιστοποίηση (ΕΜ) Αλγόριθμος, ιστός αράχνης [22], Ιεραρχική ομαδοποίηση, η ομαδοποίηση K-Means, Ρεκόρ Πρώτα clustering, Πυκνότητα-βάση ομαδοποίησης και φιλτράρεται Clustering. Ο αριθμός των συστάδων ήταν εκχωρείται αυτόματα στον αλγόριθμο ιστό αράχνης, ενώ οι υπόλοιποι αλγόριθμοι επιτρέπεται στο χρήστη να επιλέξει τον επιθυμητό αριθμό των clusters [22]. Μερικοί αλγόριθμοι παρουσίασαν καλύτερη απόδοση για την ένταξη όλων των χαρακτηριστικών για ομαδοποίηση, ενώ η απόδοση επιδεινώθηκε στα υβριδικά σύνολα δεδομένων επιλογής χαρακτηριστικών. Οι μέθοδοι και οι παράμετροι αξιολόγησης των επιδόσεων ενημέρωσε σχετικά στις επόμενες ενότητες.

Jack-knife Cross-Validation Test.

Στατιστικές μέθοδοι πρόβλεψης [50] χρησιμοποιήθηκαν για τη μέτρηση της απόδοσης προγνωστικό παράγοντα για την αξιολογούν την αποτελεσματικότητα τους σε πρακτικές εφαρμογές. Σε αυτή τη μελέτη, η μέθοδος σουγιά σταυρό επικύρωση [50] – [51] χρησιμοποιήθηκε για την επαλήθευση και την επικύρωση της ακρίβειας ταξινομητή δεδομένου προηγούμενες εκθέσεις που έχουν δηλώσει ότι είναι τουλάχιστον αυθαίρετη στη φύση και ευρέως αναγνωρισμένη από τους ερευνητές και τους επαγγελματίες για την εκτίμηση της απόδοσης των προγνωστικών. Σε σουγιά διασταυρωμένης επικύρωσης [38] – [39], [52], κάθε ένα από τα στατιστικά στοιχεία στο σύνολο δεδομένων εκπαίδευσης ήταν με τη σειρά ξεχώρισε ως δείγμα δοκιμής και η ικανότητα πρόβλεψης εκπαιδεύτηκε από τα υπόλοιπα δείγματα. Κατά τη διαδικασία jack-μαχαιρώματα [23] – [24], [39], τόσο το σύνολο δεδομένων εκπαίδευσης και το σύνολο δεδομένων δοκιμής ήταν πραγματικά ανοικτό, και ένα στατιστικό δείγμα μετακινείται από τη μία ομάδα στην άλλη. Σε αυτή την έρευνα, οι ακόλουθοι δείκτες [50] – [52] εκδόθηκαν για να δοκιμάσουν την προτεινόμενη μεθοδολογία (9) (10), όπου αποτυπώνεται το Συντελεστή Συσχέτισης Mathews.? αντανακλούσε την ακρίβεια, δηλαδή, το ποσοστό των προβλέψει σωστά κατηγορία καρκίνο του πνεύμονα όγκου? TP, TN, FP και FN συμβολίζεται ο αριθμός των πραγματικά θετικά, αλήθεια αρνητικά, ψευδώς θετικά και ψευδώς αρνητικά, αντίστοιχα.

Πειραματική Αποτελέσματα και Συζήτηση

Τα πειραματικά αποτελέσματα που συζητήθηκαν σε τρία τμήματα. Το κύριο περιγράφει την κατάταξη των δομικών και φυσικοχημικών ιδιοτήτων σύμφωνα με αναλογία κέρδους τους. Ολόκληρη η λίστα των χαρακτηριστικών κατετάγη και το αρχείο παρέχεται ως Πίνακα S1. Η δεύτερη ενότητα ασχολείται με τα αποτελέσματα της τμηματικής Δυνατότητα επιλογής ενώ η τελευταία ενότητα παρουσιάζει τη συγκριτική απόδοση των αναφοράς μοντέλα κατάταξης για τις ιδιότητες αλληλουχίας της πρωτεΐνης στην κατηγοριοποίηση όγκων του πνεύμονα.

Hybrid Δυνατότητα επιλογής

συνολικά 1497 γνωρίσματα φορτώθηκαν αρχικά ως δεδομένα εκπαίδευσης με 113 περιπτώσεις [17] – [18]. Δε βρέθηκαν εγγραφές αντιγραφεί και δεν υπήρχαν τιμές που λείπουν. Για την κατάταξη των χαρακτηριστικών από το κριτήριο της αναλογίας κέρδους, συνολικά 134 χαρακτηριστικά του έχουν ανατεθεί μια αναλογία κέρδους μεγαλύτερο από το μηδέν. Το υποσύνολο αξιολογητής CFS επέστρεψε 39 χαρακτηριστικά με το βέλτιστο υποσύνολο που υψηλή συσχέτιση με την τάξη στόχο, αλλά τουλάχιστον συσχετίζονται μεταξύ τους. Τα χαρακτηριστικά αυτά στη συνέχεια χρησιμοποιούνται για τη διαδικασία επιλογής δυνατότητα τμηματικής. Τα αποτελέσματα των τεχνικών Hybrid Δυνατότητα επιλογής δίνεται ως Πίνακας S1.

Στοιχειώδες Feature Selection

Οι κατετάγη χαρακτηριστικά από το υποσύνολο αξιολογητή CFS ήταν τότε εισόδου στη φθίνουσα σειρά κατάταξης τους στον ταξινομητή . Σε κάθε είσοδο χαρακτηριστικό, το MCC και την ακρίβεια του ταξινομητή για δοκιμή Jack-knife υπολογίστηκε. Η Bayesian Δίκτυο Μάθησης βρέθηκε να δώσει την υψηλότερη πρόβλεψη MCC του 0,812 και η ακρίβεια του 87,6% με 36 χαρακτηριστικά. Οι καμπύλες IFS που δημιουργούνται για την ακρίβεια ταξινομητή και το αντίστοιχο MCC αναπαρίσταται στο Σχήμα 2. Η βέλτιστη ακρίβεια πρόβλεψης με την προτεινόμενη μεθοδολογία για κάθε υποσύνολο χαρακτηριστικό δίνεται στον Πίνακα 1. Τα πλήρη αποτελέσματα της διαδικασίας επιλογής Στοιχειώδες χαρακτηριστικό σε όλες τις τρεις Hybrid Δυνατότητα επιλογής τα σύνολα δεδομένων που δίνονται στον πίνακα S2.

(Α) Η καμπύλη IFS που παράγεται με τη χρήση ταξινόμησης Ακρίβεια στον πνεύμονα όγκου κατηγοριοποίηση. Ο άξονας x αντιπροσώπευε τον αριθμό των χαρακτηριστικών, ενώ ο άξονας y αντιπροσώπευε το σουγιά ακρίβεια διασταυρωμένης επικύρωσης. Η κορυφή της ακρίβειας ταξινόμησης επιτυγχάνεται ήταν 87,6% με 36 χαρακτηριστικά. Οι top 36 χαρακτηριστικά που προέρχονται από Hybrid Δυνατότητα επιλογής (Gain Ratio + υποομάδα CFS) προσέγγιση αποτελούν τη βέλτιστη σύνολο χαρακτηριστικών γνωρισμάτων. (Β) Η καμπύλη IFS δημιουργείται χρησιμοποιώντας τιμές MCC που λαμβάνονται από τους αλγορίθμους ταξινόμησης. Η κορυφή του MCC είναι 0,812 με 36 χαρακτηριστικά. Οι top 36 χαρακτηριστικά που προέρχονται από την προσέγγιση Επιλογής Hybrid Feature (Gain Ratio + CFS υποομάδα) αποτέλεσε τη βέλτιστη σύνολο χαρακτηριστικών γνωρισμάτων.

Η

Μοντέλα Classifier

Benchmark μοντέλα ταξινόμησης που έχουν αναφερθεί [14], [38] – [39] [53] – [54] για να δημιουργήσει υψηλής ακρίβειας σε ταξινόμηση των βιολογικών δεδομένων συγκρίθηκαν για να προσδιοριστεί η βέλτιστη τεχνική πρόβλεψη που δημιουργείται υψηλότερη ακρίβεια σε πρόβλεψη. Η συγκριτική απόδοση των μοντέλων ταξινόμησης με το σύνολο των χαρακτηριστικών που προκύπτουν από την τεχνική Hybrid Δυνατότητα επιλογής απεικονίζεται στον Πίνακα 2. Η απόδοση συγκρίνεται με βάση το MCC και ακρίβεια πρόβλεψης.

Η

Ομαδοποίηση Μοντέλα

Αυτή η μελέτη χρησιμοποίησε επτά αλγορίθμων ομαδοποίησης [22], προκειμένου να συγκρίνουν τις επιδόσεις τους στην κατηγοριοποίηση των κατηγοριών των όγκων των πνευμόνων με βάση τις τιμές του χαρακτηριστικού. Τα αποτελέσματα της δημιουργίας των αλγορίθμων ομαδοποίησης για το σύνολο δεδομένων πριν και μετά την εκτέλεση υβριδικό επιλογής χαρακτηριστικών που παρουσιάζονται. Τα μαθήματα για να συγκεντρωθούν τα αποτελέσματα της αξιολόγησης παρουσιάζεται στον Πίνακα 3. Είναι εμφανές από τα αποτελέσματα σε πίνακα που συσπειρώνονται αλγόριθμοι δεν ήταν χρήσιμα για την παροχή κάθε νέα ιδέα για το χαρακτηριστικό σημασία στην ανίχνευση συστάδες αφού ακρίβεια τις επιδόσεις τους ήταν σημαντικά χαμηλό. Οι συζητήσεις σχετικά με τα δεδομένα και τα αποτελέσματα που παρουσιάζονται στην ενότητα που ακολουθεί.

Η

Συζήτηση

Επίδραση των διαρθρωτικών και φυσικοχημικές ιδιότητες

Έχουν υπάρξει πολλές έρευνες σχετικά πνεύμονα ταξινόμηση του καρκίνου [55] – [65], αλλά η μόνη προηγούμενη υπολογιστική μελέτη σχετικά με την επίδραση της πρωτεϊνικής αλληλουχίας με βάση δομικές και φυσικοχημικές ιδιότητες σε κατηγοριοποίηση των όγκων του πνεύμονα έγινε με Hosseinzadeh et.al [1], ο οποίος χρησιμοποίησε το δέντρο απόφασης που παράγεται από το Random δάσος ταξινομητή για τον εντοπισμό των συμβάλλοντας χαρακτηριστικά. Σε αυτή τη μελέτη, χρησιμοποιήσαμε το μικρότερο δέντρο από τα μοντέλα δέντρων 10 απόφαση που παράγεται από το ταξινομητή Τυχαία δάση [66] για το σύνολο δεδομένων εκπαίδευσης, προκειμένου να εντοπίσει τα πιο συμβάλλουν χαρακτηριστικά στην ταξινόμηση των πνευμόνων όγκου. Αν και το Τυχαίο αλγόριθμο Επιτροπή απεικονίζεται επίσης το 100% ακρίβεια και υψηλή MCC 1 στη φάση της κατάρτισης, τα αποτελέσματα που λαμβάνονται για Jack-knife διασταυρωμένης επικύρωσης δεν ήταν τόσο υψηλές όσο το Random Δάσος μοντέλο. Το μοντέλο δέντρο απόφασης με το μικρότερο αριθμό κόμβων που παράγεται από το Random Forest στο σύνολο δεδομένων εκπαίδευσης απεικονίζεται στο σχήμα 3. Η απεικόνιση αυτού του δέντρου διευκόλυνε τον προσδιορισμό της σύνθεσης του κάθε ακινήτου πρωτεΐνης στους διάφορους τύπους όγκων καρκίνου του πνεύμονα, παρέχοντας έτσι μια πηγή για το σχεδιασμό φαρμάκων που στοχεύουν την πρωτεϊνική σύνθεση.

η

Οι ακόλουθες νέες γνώσεις σχετικά με τις ιδιότητες πρωτεΐνης που αποκτήθηκε από την Random Forest Μοντέλο με ένα νέο σύνολο των διακριτικών χαρακτηριστικών που αναφέρθηκαν για πρώτη φορά στην διακρίσεις τις τάξεις των όγκων του πνεύμονα.

σύνθεση διπεπτιδίων ήταν το πιο απαιτητικό χαρακτηριστικό μεταξύ των τάξεων. F1.2 [διπεπτιδίων Σύνθεση], F5.3 [περιγραφής Διανομή], F4.1 [Geary Auto-συσχέτιση] και F6.1 [Ακολουθία αριθμό σύζευξης παραγγελία] ήταν οι επόμενες σημαντικές ιδιότητες της πρωτεΐνης που χρησιμοποιείται από το Τυχαίο Δάσος μοντέλο να διακρίνει το πνεύμονα τάξεις του όγκου.

Μια χαμηλή τιμή του F5.3.2 [όγκους Κανονικοποιημένη VDW] και F σύνθεση [7,1] ψευδο αμινοξέων μετακινηθεί τα αρχεία στην κοινή τάξη. Ένα υψηλό F5.3.1 [διανομή υδροφοβικότητας] και F5.3.3 [διανομή της πολικότητας] βρέθηκε μεταξύ των κοινών σε δύο κατηγορίες γονιδίων των όγκων, ενώ μια χαμηλότερη συγκέντρωση της ίδιας βρέθηκε μεταξύ των γονιδίων του όγκου NSCLC. Αυτό κατευθύνει μοριακή έρευνα για το σχεδιασμό φαρμάκων που θα μειώσουν τη διανομή των υδροφοβικότητα και πολικότητας, ενώ η αύξηση των κανονικοποιημένων όγκους VDW και ψευδο αμινοξέων σύνθεσης με στόχο την κοινή τάξεις των όγκων.

Μια σύνθεση υψηλής διπεπτίδιο ήταν χαρακτηριστικό της NSCLC γονίδια και μια σχετικά χαμηλή τιμή αντιπροσώπευαν τις SCLC όγκους. Μια υψηλή συγκέντρωση F5.3.1 [Κατανομή των υδροφοβικότητα] και F5.3.7 [διανομή των διαλυτών Πρόσβαση] ήταν εμφανής στην κοινή τάξεις των όγκων. Τα ευρήματα αυτά υποδηλώνουν το σχεδιασμό φαρμάκων που αυξάνουν τη σύνθεση διπεπτίδιο για να βοηθήσουν στην θεραπεία του μικροκυτταρικού καρκίνου του πνεύμονα όγκους και τα φάρμακα που μειώνουν τη σύνθεση διπεπτίδιο για να θεραπεύσει NSCLC όγκους. Επιπλέον σχεδιασμό των φαρμάκων που μειώνουν τη διανομή των υδροφοβικότητα και της προσβασιμότητας διαλύτη θα μπορούσε να βοηθήσει στη θεραπεία των όγκων και των δύο ειδών.

Η

Ήταν προφανές ότι η αυστηρή οριοθέτηση μεταξύ των κατηγοριών των όγκων ήταν ένα περίπλοκο έργο, δεδομένου ότι πολλές ιδιότητες ήταν βρεθεί να επιδεικνύουν παρόμοια σύνθεση και στις δύο τάξεις του όγκου. Ωστόσο, η προτεινόμενη μεθοδολογία βρέθηκε να γίνει διάκριση μεταξύ των κατηγοριών των όγκων με υψηλό MCC του 0,812 και η ακρίβεια ταξινόμησης των 87,6%, το υψηλότερο αναφερθεί μέχρι στιγμής σε πρωτεΐνες -Ιδιοκτησίες με βάση την κατηγοριοποίηση του πνεύμονα όγκου.

σύγκριση με την προηγούμενη εργασία

Όπως αναφέρθηκε προηγουμένως, η μόνη προηγούμενη υπολογιστική μελέτη σχετικά με την κατηγοριοποίηση των πνευμόνων του όγκου με βάση τις πρωτεΐνες δομικές και φυσικοχημικές ιδιότητες σειρά που βασίζεται αναφέρθηκε από Hosseinzadeh et.al [1], η οποία έκανε μια σύγκριση των δέκα διαφορετικές τεχνικές επιλογής χαρακτηριστικών και αναφερθεί το σύνολο των χαρακτηριστικών που παράγεται από το κριτήριο της αναλογίας κέρδους για να δημιουργήσει τη βέλτιστη 10 φορές σταυρό ακρίβεια επικύρωση των 86% με τον ταξινομητή Τυχαία Δάσος. μεθοδολογία τους ενσωματώθηκαν 114 σειρές με 30 γονίδια στην κατηγορία NSCLC, 59 στο SCLC και 25 στην κοινή κατηγορία των όγκων. Επιπλέον, η μεθοδολογία τους εμπλέκονται επίσης εκτεταμένες καθαρισμού των δεδομένων και προ-επεξεργασίας. Εδώ κάναμε χρήση των 113 αλληλουχιών [16] – [18] από τα σύνολα γονιδίων KEGG που αντιστοιχούν στις τάξεις του όγκου NSCLC και SCLC και διαχωρίζονται τα γονίδια κάτω από τις τρεις κατηγορίες δηλαδή, NSCLC, SCLC και τα κοινά. Ο αριθμός των εγγραφών συνόψισε σε 113 με 29 γονίδια [16] – [17] στην κατηγορία NSCLC. Η μελέτη αυτή είχε ως στόχο τον προσδιορισμό της ελάχιστης και βέλτιστο σύνολο χαρακτηριστικών για να κατηγοριοποιήσει τις τάξεις του πνεύμονα όγκου για χρήση σε διαγνωστικές πρακτικές και τον σχεδιασμό των φαρμάκων. Ως εκ τούτου, χρησιμοποιήσαμε το κριτήριο αναλογίας κέρδους, το κριτήριο Πληροφορίες Gain και συμμετρική Αβεβαιότητα για να ταξινομήσει τα χαρακτηριστικά και στη συνέχεια να εφαρμοστεί η συσχέτιση Χαρακτηριστικό υποομάδα αξιολογητή [22] με ένα όριο τερματισμού αναζήτηση των 5 και Best First Search προσέγγιση για την αναγνώριση και το μικρότερο υποσύνολο των χαρακτηριστικών με υψηλή συσχέτιση με την τάξη στόχο και τουλάχιστον συσχέτιση μεταξύ τους. Αυτό είχε ως αποτέλεσμα ένα χαρακτηριστικό υποσύνολο με 39 χαρακτηριστικά. Συγκρίνοντας το σουγιά ακρίβεια διασταυρωμένης επικύρωσης των πέντε αναφοράς μοντέλα ταξινόμησης, ο αλγόριθμος μάθησης Bayesian Network βρέθηκε να παράγει την υψηλότερη MCC 0,77 με ακρίβεια 85% με το σύνολο των τριών υβριδικών υποσύνολα επιλογής χαρακτηριστικών. Σχετικά με την εφαρμογή Στοιχειώδες Δυνατότητα επιλογής θα ληφθεί το βέλτιστο σύνολο χαρακτηριστικών γνωρισμάτων των 36 χαρακτηριστικά (χαρακτηριστικό υποσύνολο του δείκτη απόδοσης + CFS) δημιουργώντας ακρίβεια 87,6%.

Το προηγούμενο έργο του Hosseinzadeh ανέφερε et.al υψηλή ακρίβεια 86% μόνο για τα καθαρισμένα δεδομένων μετά την απομάκρυνση των διπλών εγγραφών, συσχετίζονται αρχεία και βάσει των κατ ‘αποκοπή τιμών απόκλισης. Κατά την εξέταση των ίδιων δεδομένων, προτείνεται το έργο μας έχει επιτύχει μεγαλύτερη ακρίβεια με τα αρχικά, μη τροποποιημένα δεδομένα με αποτέλεσμα την εξοικονόμηση υπολογιστικού χρόνου, με την κατάργηση της διαδικασίας καθαρισμού των δεδομένων. Προκειμένου να αναδείξει τη σύγκριση με μεγαλύτερη σαφήνεια έχουμε εντοπίσει την ακρίβεια των Random Δάσος με Gain Ratio (προηγουμένως προτεινόμενο μοντέλο ταξινομητή) στο αρχικό δεδομένα τα οποία ήταν σε θέση να δημιουργήσει μια βέλτιστη ακρίβεια μόνο το 79,6% με 26 χαρακτηριστικά από την αναλογία Gain – CFS χαρακτηριστικό σύνολο σε σύγκριση με την προτεινόμενη μέθοδο μας, η οποία παρήγαγε 87,6% ακρίβεια με 36 χαρακτηριστικά από τον ίδιο χαρακτηριστικό υποσύνολο. Πιστεύουμε προτεινόμενη μεθοδολογία μας μπορεί εύκολα να επεκταθεί για την ταξινόμηση και διάκριση μεταξύ των άλλων ογκογόνων όγκων αφού τα αρχικά δεδομένα διατηρήθηκε για υπολογιστική ανάλυση. Ωστόσο, η προηγούμενη μέθοδος φαίνεται να έχουν δημιουργήσει μια υψηλή ακρίβεια (86%) μόνο στην καθαριστεί δεδομένα που το καθιστά ένα περιορισμό κατά την επέκταση της μεθοδολογίας σε άλλα σύνολα δεδομένων του καρκίνου. Επιπλέον, η προηγουμένως προτεινόμενο μοντέλο θα απαιτούσε χρόνο προ-επεξεργασίας πρόσθετα στοιχεία, όταν εφαρμόζεται σε νέα σύνολα δεδομένων του καρκίνου.

Σύγκριση με άλλες μεθόδους

σύγκριση τριών μεθόδων επιλογής χαρακτηριστικών [22] δηλαδή Πληροφορίες Gain, συμμετρική Η αβεβαιότητα και η αναλογία κέρδους. Εφαρμόσαμε CFS υποομάδα αξιολογητή για όλα τα σύνολα χαρακτηριστικών γνωρισμάτων ανάλογα με τις τρεις αλγορίθμους. Όλες οι πέντε αναφοράς αλγόριθμοι ταξινόμησης [67] – [68] εφαρμόστηκαν στις μειωμένες σύνολα δεδομένων χαρακτηριστικό. Τα αποτελέσματα συνοψίζονται στον Πίνακα 2. Όλες οι τρεις μέθοδοι προγνωστικός εμφανίζεται σταθερά υψηλή ακρίβεια με την τεχνική πρόβλεψη Bayesian Network. Η βέλτιστη ακρίβεια επιτεύχθηκε μόνο κατά τη διαδικασία της τμηματικής Δυνατότητα επιλογής με τον δείκτη Gain και ο συνδυασμός υποσύνολο αξιολογητής CFS που επιτυγχάνεται βελτιωμένη ακρίβεια 87,6% με 36 χαρακτηριστικά.

You must be logged into post a comment.