You must be logged into post a comment.
Αφηρημένο
πρόβλεψη επιβίωσης και την επιλογή της θεραπείας σε πνεύμονα φροντίδα του καρκίνου χαρακτηρίζονται από υψηλά επίπεδα αβεβαιότητας. Bayesian Networks (BNs), η οποία λόγο φυσικά με αβέβαιη γνώση του τομέα, μπορεί να εφαρμοστεί για να βοηθήσει τους ειδικούς του καρκίνου του πνεύμονα με την παροχή εξατομικευμένων εκτιμήσεων επιβίωση και συστάσεις επιλογή θεραπείας. Με βάση την Βάση Δεδομένων Αγγλικά Καρκίνο του Πνεύμονα (LUCADA), θα αξιολογηθεί η σκοπιμότητα BNs για τα δύο αυτά καθήκοντα, ενώ συγκρίνοντας τις αποδόσεις των διαφόρων αιτιώδης ανακάλυψη προσεγγίσεις για να αποκαλύψει την πιο εφικτή δομή του δικτύου από την εξειδικευμένη γνώση και τα δεδομένα. Θα δείξουμε πρώτα ότι η δομή ΒΝ προκάλεσε από τους κλινικούς γιατρούς επιτυγχάνει μια απογοητευτική περιοχή κάτω από την καμπύλη ROC 0,75 (± 0,03), ενώ μια δομή που αντλήθηκαν από την CAMML υβριδικό αλγόριθμο αιτιώδη ανακάλυψη, το οποίο προσκολλάται με τους χρονικούς περιορισμούς, επιτυγχάνει 0,81 (± 0,03) . Δεύτερον, τα αποτελέσματα αιτιώδης παρέμβασή μας αποκαλύπτουν ότι οι συστάσεις θεραπείας ΒΝ, με βάση τη συνταγογράφηση το σχέδιο θεραπείας που μεγιστοποιεί την επιβίωση, δεν μπορεί να προβλέψει μόνο το εγγεγραμμένο πρόγραμμα θεραπείας το 29% του χρόνου. Ωστόσο, το ποσοστό αυτό ανεβαίνει στο 76% όταν οι επιμέρους αγώνες περιλαμβάνονται.
Παράθεση: Sesen MB, Nicholson AE, Banares-Alcantara R, Kadir Τ, Brady Μ (2013) Bayesian Δίκτυα Κλινικής Υποστήριξης Αποφάσεων στην πνεύμονα φροντίδα του καρκίνου. PLoS ONE 8 (12): e82349. doi: 10.1371 /journal.pone.0082349
Επεξεργαστής: Raffaele Μια Calogero, Πανεπιστήμιο του Τορίνο, Ιταλία
Ελήφθη: 29 Αυγ 2013? Αποδεκτές: 30η Οκτωβρίου του 2013? Δημοσιεύθηκε: 6 Δεκ 2013
Copyright: © 2013 Sesen et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται
Χρηματοδότηση:. Αυτή η έρευνα έχει χρηματοδοτηθεί από το Clarendon και οι New College Graduate Υποτροφίες μέσω του CDT στο πρόγραμμα Καινοτομίας Υγείας στο Βιοϊατρικής Τεχνολογίας Ινστιτούτο του Πανεπιστημίου της Οξφόρδης. MB αναγνωρίζει υποστήριξη από theCancer Έρευνας Ηνωμένο Βασίλειο /Μηχανικών και Κέντρο Φυσικών Επιστημών Συμβούλιο Έρευνας της Οξφόρδης απεικόνισης καρκίνου. AN αναγνωρίζει χρηματοδότηση από πόρους του ΕΤΠΑ και από την ισπανική κυβέρνηση (Ministerio Επιστημών e Innovación) μέσω του έργου TIN2010-20900-C04-03. Οι χρηματοδότες δεν είχε κανένα ρόλο στο σχεδιασμό της μελέτης, τη συλλογή και ανάλυση των δεδομένων, η απόφαση για τη δημοσίευση, ή την προετοιμασία του χειρογράφου
Αντικρουόμενα συμφέροντα:. Οι συγγραφείς θα ήθελαν να δηλώσει ότι ένας από τους συντάκτες, ΤΚ, απασχολείται από η εμπορική εταιρεία: Mirada Ιατρική. Ωστόσο, αυτό δεν δημιουργεί κανένα συγκρούσεις συμφερόντων που σχετίζονται με την εργασία παρουσιάζονται. Επιπλέον, οι συγγραφείς θα ήθελα να τονίσω ότι αυτό δεν μεταβάλλει την προσκόλλησή τους σε όλες τις PLoS ONE πολιτικές για την ανταλλαγή δεδομένων και υλικών.
Εισαγωγή
Η επιταχυνόμενη τάση προς την εξατομικευμένη ιατρική, παράλληλα με την ταχεία ανάπτυξη των διαφόρων μηχανικής μάθησης (ML) εργαλεία, έδωσε το έναυσμα για την αξιοποίηση των ιατρικών σύνολα δεδομένων να προτείνει διαγνωστικές και προγνωστικές επιλογές, σε σημείο ακόμα και συνιστώντας σχέδια εξατομικευμένη θεραπεία [1,2]. Στο πλαίσιο της κλινικής υποστήριξης αποφάσεων (CDS), τα εργαλεία ML χρησιμοποιούνται για να βοηθήσουν οι κλινικοί γιατροί καταλήξουμε σε πιο ενημερωμένες αποφάσεις μεταχείριση με βάση την τελευταία τους φακέλους των ασθενών. Τέτοια συστήματα συνήθως λειτουργούν με το ταίριασμα ρεκόρ του ασθενούς με τις πληροφορίες «μάθει» από το παρελθόν τους φακέλους των ασθενών για τους οποίους είναι γνωστό ταχθείσας σχέδια θεραπείας και τις εκβάσεις των ασθενών.
Ιατρική σύνολα δεδομένων είναι συνήθως χαρακτηρίζονται από ελλιπή και θορυβώδες τους, τα οποία προκαλούν μια σημαντικό επίπεδο της αβεβαιότητας κατά την επεξεργασία τους [2]. Συνολικά, η αβεβαιότητα διαπερνά αιτιότητα στον τομέα της ιατρικής, αν και δεν είναι πάντα σαφής. Για παράδειγμα, σε ένα σύνολο δεδομένων που περιέχει «Εποχή» και «επιβίωσης», η αιτιώδης σχέση μεταξύ των δύο είναι εμφανής ακόμη και αν δεν μπορεί να είναι εύκολο να εντοπιστούν μέσω των οποίων οι μεταβλητές μπορεί να διαπιστωθεί. Το πιο σημαντικό, η αβεβαιότητα προκύπτει επίσης φυσικά στις διαδικασίες φροντίδας του ασθενούς οποίες διαμορφώθηκαν τα δεδομένα, αν μη τι άλλο σε ερωτήματα όπως: «Ποια είναι η πιθανότητα επιβίωσης για αυτόν τον ασθενή;» και «Πώς να κάνει διάφορες θεραπευτικές αποφάσεις επηρεάζουν αυτή την πιθανότητα;»
ένα χαρακτηριστικό παράδειγμα σε κλινικό περιβάλλον, στο οποίο η αβεβαιότητα είναι πανταχού παρόν, είναι η επιλογή της θεραπείας στη φροντίδα του καρκίνου, όπου η ποικιλομορφία των χαρακτηριστικών του ασθενούς και της ασθένειας και η ταχέως αναπτυσσόμενη γκάμα επιλογών θεραπείας συχνά παρουσιάζουν τα διλήμματα σχετικά με τη βέλτιστη αποφάσεις για τη θεραπεία [ ,,,0],3]. Ως συνέπεια του συγκροτήματος και διεπιστημονική φύση της διαδικασίας λήψης αποφάσεων, τα σχέδια θεραπείας για ασθενείς με καρκίνο διαχείριση διεπιστημονική ομάδα (MDT) συναντήσεις που κινητοποιούν την κοινή εμπειρία των γιατρών από διάφορες ειδικότητες.
πρόβλεψη Εξατομικευμένες την επιβίωση και την επιλογή της θεραπείας είναι εμφανή στο περιβάλλον MDT. Προβλέποντας την απάντηση στο πρώτο από τα ανωτέρω ερωτήματα σχετίζεται με προγνωστική συλλογισμό [4]. Μια ακριβής πρόβλεψη της επιβίωσης μπορούν να χρησιμοποιούνται για τη διαστρωμάτωση ασθενείς με καρκίνο σε διαφορετικές ομάδες κινδύνου και ενδεχομένως να βοηθήσει στην εκπόνηση εξατομικευμένων σχεδίων θεραπεία [5,6]. Επιπλέον, προέβλεψε πληροφορίες επιβίωσης μπορεί επίσης να είναι καθοριστική για τη διαχείριση των προσδοκιών του ασθενούς και της οικογένειας σχετικά με τα αποτελέσματα της θεραπείας [7]. Ως πιθανολογική έκφραση, αυτή η προγνωστική ερώτημα μπορεί να συμβολίζεται «P (επιβίωσης = Alive | Αποδείξεις) =;». Χρησιμοποιώντας ένα ΒΝ, το ερώτημα αυτό μπορεί να απαντηθεί μέσω της παρατήρησης συμπέρασμα, όπου η εστίαση είναι στην ανακάλυψη της οπίσθιας κατανομής της μεταβλητής ερώτημα:. Επιβίωσης, υπό την προϋπόθεση να παρατηρηθεί ένδειξη για άλλους κόμβους
Από την άλλη πλευρά, η το δεύτερο ερώτημα, το οποίο διερωτάται τις συνέπειες των επιλογών θεραπείας για την προγνωστική έκβαση, αντιμετωπίζει την ρεαλιστική στόχος της θεραπευτικής φροντίδας του καρκίνου. Φυσικά, εάν η πρόγνωση για τον ασθενή είναι κακή, ο τελικός στόχος μπορεί να είναι ανακούφιση και τη διαχείριση των συμπτωμάτων, παρά την αύξηση της πιθανότητας επιβίωσης. Από την άποψη της θεωρίας των πιθανοτήτων, αυτό το ερώτημα συμβολίζεται ως «P (επιβίωσης = Alive | Αποδεικτικά στοιχεία, T) =;», όπου Τ αντιπροσωπεύει τη μεταβλητή σχέδιο θεραπείας. Σε σύγκριση με το προηγούμενο, αυτό το ερώτημα έχει ως στόχο να βρει το οπίσθιο διανομή επιβίωση εξαρτάται σε Τ, το οποίο είναι – σε αντίθεση με τεκμηριωμένης απαρατήρητο κατά τη στιγμή της την ερώτηση. Με άλλα λόγια, το ζήτημα είναι υποθετικό και δεν μπορούν να απαντηθούν απλά με τις τιμές που παρατηρούνται σε αυτό το σημείο. Για να προβλέψουμε τι η πιθανότητα επιβίωσης θα είναι, λαμβανομένων υπόψη των διαφορετικών θεραπευτικών επιλογών, θα πρέπει να κάνει μια παρέμβαση συνάφεια, η οποία μας επιτρέπει να ρωτήσω «Τι και αν;» ερωτήσεις. Αυτό το είδος της αιτιώδους σκεπτικό είναι εξαιρετικά σημαντική σε CDS εφαρμογές και να μην είναι συμβατή με διακριτική μεθοδολογίες ML, όπως τα μοντέλα παλινδρόμησης [8,9].
Bayesian Δίκτυα
BNs επιτρέπουν αιτιολογικά σκεπτικό με τις έννοιες του τομέα σε ένα οπτικά ελκυστικό και πιο διαισθητική μόδα σε σύγκριση με πολλές άλλες τεχνικές ML [9], και μπορούν να χρησιμοποιηθούν για την αντιμετώπιση των παραπάνω κλινικών ερωτήσεις. Μπορούν να κωδικοποιούν αβέβαιη γνώση τομέα σε ένα φυσικό τρόπο. Ένα ΒΝ αποτελείται από ένα κατευθυνόμενο ακυκλικό γράφημα (DAG), και ένα υποκείμενο κατανομής πιθανότητας, τα οποία μαζί παρέχουν μια μαθηματικώς ήχο και συμπαγή τρόπο για να κωδικοποιήσει αβεβαιότητα σε ένα δεδομένο τομέα. Από την αρχή, η ιατρική πληροφορική ήταν η βασική κινητήρια δύναμη για την ανάπτυξη της BNs [10,11]. Αυτό οφείλεται εν μέρει στην ικανότητά τους να ενσωματώσουν διαισθητικά των δεσμών συνάφειας μεταξύ των διαγνωστικών ή προγνωστικών παραγόντων που είναι αποθηκευμένα σε ιατρικές σύνολα δεδομένων [4,12,13].
BNs είναι κατάλληλα εργαλεία για την πιθανολογική συμπέρασμα που μπορεί να βοηθήσει την κλινική λήψη αποφάσεων, από την 1η) γραφική φύση τους επιτρέπει την πληροφορία που περιέχουν να είναι εύκολα κατανοητό από ένα κλινικό ιατρό [14]? 2) μπορούν να ενσωματωθεί επίσημα προηγούμενη γνώση ενώ η εκμάθηση της δομής και των παραμέτρων του δικτύου [15]? 3) να διευκολύνουν την εκτίμηση των παραμέτρων λόγω του συμπαγούς εκπροσώπησή τους από το κοινό χώρο πιθανότητα? 4) επιτρέπουν όχι μόνο παρατήρησης συμπέρασμα, αλλά και την αιτιώδη παρεμβάσεις [9]? 5) μπορούν να χρησιμοποιηθούν για την αναζήτηση οποιαδήποτε δεδομένη κόμβο του δικτύου και ως εκ τούτου ουσιαστικά περισσότερο ευέλικτο σε σύγκριση με ταξινομητές κατασκευαστεί με βάση τις ειδικές μεταβλητές έκβασης? και 6) που αποδίδουν καλά στη λήψη προβλέψεις με ελλιπή δεδομένα, αφού οι μεταβλητές πρόβλεψης που χρησιμοποιούνται για την εκτίμηση όχι μόνο τη μεταβλητή ερώτημα, αλλά και το ένα το άλλο [16] [5,17]. Για μια λεπτομερή κάλυψη των BNs, ο αναγνώστης παραπέμπεται στο [9,13].
Το κύριο κίνητρο αυτής της εργασίας είναι να διερευνήσει τη σκοπιμότητα της ανάπτυξης BNs στην παροχή υποστήριξης αποφάσεων για την πρόβλεψη της επιβίωσης και την επιλογή της θεραπείας στον πνεύμονα φροντίδα για τον καρκίνο. Ο καρκίνος του πνεύμονα είναι η κύρια αιτία θνησιμότητας σχετίζονται με τον καρκίνο σε όλο τον κόσμο [18] [6]. Οι αναλύσεις μας βασίζονται σε ανώνυμα υποσύνολο της βάσης δεδομένων Αγγλικά Καρκίνο του Πνεύμονα (LUCADA), η οποία περιλαμβάνει περισσότερα από 126.000 ασθενείς που είχαν διαγνωστεί μεταξύ 2006 και 2010. Έχουμε χρησιμοποιήσει αυτό το μεγάλο και μοναδικό σύνολο δεδομένων για την ανάπτυξη και την αξιολόγηση μιας σειράς BNs των οποίων οι δομές είναι έμαθε με τη σειρά του από το εγχειρίδιο, αυτοματοποιημένη και υβριδικές προσεγγίσεις. Δομή εκμάθηση BNs παραμένει κάτι σαν μαύρη μαγεία και ως εκ τούτου, μια δευτερεύουσα στόχος της εργασίας είναι να αξιολογήσει την καταλληλότητα των διαφορετικών μεθοδολογιών για να αποκαλύψει τη δομή συνάφεια του τομέα χρησιμοποιώντας μια πραγματική ζωή ιατρική σύνολο δεδομένων του μεγέθους και της πολυπλοκότητας των LUCADA.
Λογοτεχνία
για
Cruz και Wishart [19] αναφέρουν ότι η υιοθέτηση των τεχνικών ML για την πρόβλεψη της πρόγνωσης και η επιλογή της θεραπείας είναι μια σχετικά πρόσφατη εξέλιξη. Η υπάρχουσα βιβλιογραφία σχετικά με BNs και τον καρκίνο αφορά κυρίως τις εφαρμογές για να βοηθήσει τη διάγνωση, την αξιολόγηση των κινδύνων και την πρόβλεψη της επιβίωσης. Επιπλέον, μεταξύ των διαφορετικών τομέων του καρκίνου, έχει υπάρξει μια συγκέντρωση σε εφαρμογές στον καρκίνο του μαστού [20-24], σε σύγκριση με ΒΝ εφαρμογές σε άλλους τύπους καρκίνου [5,7,25-28].
Όσον αφορά τις σχετικές αιτήσεις ΒΝ για την πρόβλεψη της επιβίωσης, σε μια μελέτη που δημοσιεύθηκε το 2011, η οποία έχει ως στόχο να προβλέψουν το προσδόκιμο ζωής 1 έτος 189 ασθενείς με σκελετικές μεταστάσεις, Forsberg et al. επιτευχθεί καλή προβλεπτική απόδοση με μια περιοχή κάτω από την καμπύλη ROC (AUC) της 0.83 [7]. Σε μια πιο πρόσφατη μελέτη βασίζεται σε ένα πολύ μεγαλύτερο σύνολο δεδομένων που περιέχει 146.248 αρχεία ασθενών, Στογιαντίνοβιτς et al. έχτισε ένα BN να πραγματοποιήσει εξατομικευμένη πρόβλεψη επιβίωσης για τον καρκίνο του παχέος εντέρου, την υποβολή εκθέσεων τιμή AUC 0,85 [16]. Καμία από αυτές τις μελέτες συνέκριναν την καταλληλότητα των διαφορετικών προσεγγίσεων στην αιτιώδη ανακάλυψη της δομής του τομέα. Επιπλέον, τόσο συνάφεια των παρεμβάσεων και τη σκοπιμότητα των συστάσεων της θεραπείας από τους BNs ήταν εκτός του πεδίου εφαρμογής και των δύο μελετών.
Εστιάζοντας σε καρκίνο του πνεύμονα συγκεκριμένες εφαρμογές της BNs, το 2010 Jayasurya et al. σχεδίασε ένα ΒΝ με σκοπό την πρόγνωση επιβίωσης σε μη-μικροκυτταρικό καρκίνο του πνεύμονα (NSCLC) ασθενείς που έλαβαν θεραπεία με ακτινοθεραπεία. Κατέληξαν στο συμπέρασμα ότι τα μοντέλα ΒΝ επίτευξη υψηλότερου πρόβλεψης απόδοσης με τα δεδομένα που λείπουν, σε σύγκριση με την υποστήριξη μηχανημάτων φορέα και ως εκ τούτου πιο κατάλληλο για το ιατρικό τομέα [5]. Σε μια πιο τεχνικά προσανατολισμένη δημοσίευση, Oh et al. πρότεινε μάθησης αλγόριθμο BN δομή που συνδυάζεται τόσο σωματική όσο και βιολογικοί παράγοντες για την πρόβλεψη της τοπικής αστοχίας στον καρκίνο του πνεύμονα [27]. Ωστόσο, και οι δύο από αυτές τις μελέτες βασίστηκαν σε σύνολα δεδομένων που περιείχε περιορισμένο αριθμό των φακέλων των ασθενών -για μια μελέτη στο [27] μόνο 18 ασθενών- αναγκαία αντιγραφή σε μεγαλύτερα σύνολα δεδομένων.
Εν περιλήψει, ο αριθμός των μελετών που αναφέρουν την εφαρμογή της BNs στον καρκίνο είναι περιορισμένη. Επιπλέον, εκτός από ελάχιστες εξαιρέσεις, τα περισσότερα δημοσιευμένα αποτελέσματα είναι από τις πρώτες μελέτες με βάση τα στοιχεία περιορισμένη ασθενή. Για τις γνώσεις μας, χωρίς προηγούμενη εργασία, η οποία λαμβάνει υπόψη τις ιστολογικές, κλινικά και δημογραφικά στοιχεία βασίζονται σε εθνικό σύνολο δεδομένων του μεγέθους της LUCADA, υπάρχει στην πρόβλεψη επιβίωσης ή σύσταση θεραπείας στον καρκίνο του πνεύμονα.
Υλικά και Μέθοδοι
Η National Audit Καρκίνο του πνεύμονα (NLCA) έχει τη συλλογή ηλεκτρονικών δεδομένων των ασθενών εντός της βάσης δεδομένων Αγγλικά Καρκίνο του πνεύμονα (LUCADA) από το 2004. μέσα από μια συμφωνία κατανομής δεδομένων μεταξύ του NLCA και το Πανεπιστήμιο της Οξφόρδης, είχαμε πρόσβαση σε μια ανώνυμα υποσύνολο του συνόλου δεδομένων LUCADA, προκειμένου να διεξάγουν έρευνα στις βιοϊατρικές τομείς της μηχανικής της στήριξης κλινικών αποφάσεων και μηχανική μάθηση. Αυτό το σύνολο δεδομένων περιλαμβάνει 126.986 εγγραφές Αγγλικά ασθενών που εισάγονται στο σύστημα από τις αρχές του 2006 μέχρι το τέλος του 2010. Όλα τα δυνητικά ασθενή αναγνωρίσιμα στοιχεία αφαιρέθηκαν από το NLCA πριν από τη διάθεση των δεδομένων.
Από LUCADA συλλέγονται κατά κύριο λόγο για σκοπούς ελέγχου, περιλαμβάνει πολλά διοικητικά μεταβλητές που είναι εφαπτόμενη ενδιαφέρον για τη μελέτη αυτή. Με βάση την είσοδο της κλινικής τους συνεργάτες μας και την ανασκόπηση της βιβλιογραφίας, εστιάσαμε τις αναλύσεις μας σχετικά με τα 13 πιο συχνά συναντώνται μεταβλητές LUCADA στα μεγάλα εθνικά και διεθνή έγγραφα κατευθυντήρια γραμμή θεραπείας του καρκίνου του πνεύμονα [6,29-31]. Εκτός από την κλινική σημασία τους, αυτοί επιλέχθηκαν με βάση του να είναι διαθέσιμα κατά το χρόνο ένας νέος ασθενής παρουσιάζεται απόφασης θεραπεία για την MDT. Αυτές οι μεταβλητές που παρατίθενται στον Πίνακα 1.
Κωδικός
Όνομα
Αξίες
Χρονική Tier
1Age μεσαία γραμμή? Διμερής; Δεν ApplicablePre-treatment9TNM CategoryIA? ΙΒ? ΔΣ? ΙΙΒ? ΙΙΙΑ? ΙΙΙΒ? IV? UncertainPre-treatment10HistologyM8010 /2? M8041 /3? M8046 /3? M8070 /3? M8140 /3? M8250 /3? M8012 /3? M8020 /3? M8013 /3? M8240? M8980 /3? M8940 /3? M9999 /9Pre-treatment11Site ειδικά ανασυγκρότησης ClassificationLimited? Εκτενής; θεραπεία του καρκίνου UnknownPre-treatment12Suggested planListed στον Πίνακα 2Treatment131-yr SurvivalAlive? DeadPost-treatmentTable 1. Τα 13 ασθενούς και της ασθένειας συγκεκριμένες μεταβλητές από LUCADA, μαζί με τις τιμές που μπορεί να πάρει και χρονική τις παραγγελίες τους.
CSV Λήψη CSV
Στον Πίνακα 1, οι πρώτες 11 μεταβλητές κατηγοριοποιούνται ως «προ- μεταβλητές θεραπεία «. Περιέχουν πληροφορίες σχετικά με τον ασθενή ή νόσο συγκεκριμένες πτυχές του ιστορικού του ασθενούς που απαιτούνται πριν ληφθεί απόφαση θεραπείας. Μεταξύ των λεπτομέρειες σχετικά με τους ασθενείς αναφέρονται: «Κατάσταση Απόδοσης» δηλώνει η γενική φυσική ευεξία, ενώ «FEV1 απόλυτο ποσό» και «Ποσοστό FEV1» αποθηκεύσετε την χωρητικότητα των πνευμόνων (ακριβέστερα, εκπνεόμενο όγκο σε 1 δευτερόλεπτο) του ασθενούς. Επιπλέον, ο «αριθμός των συνοδών νοσημάτων» παρέχει πληροφορίες για τον αριθμό των σημαντικών συννοσηρότητα, όπως καρδιαγγειακή νόσο και νεφρική δυσλειτουργία, ότι ένας ασθενής έχει κατά τη στιγμή της διάγνωσης.
Μεταξύ των συγκεκριμένων μεταβλητών της νόσου «Πρωτογενής Διάγνωση» καθορίζει το ICD-10 κωδικός [32] που περιγράφει καλύτερα τη θέση και το γενικό τύπο της νόσου. «Ιστολογίας» δηλώνει τον κωδικό SNOMED [33] της ιστο-παθολογική τύπο του πρωτοπαθούς όγκου, και η αμερικανική μεικτής επιτροπής για τον Καρκίνο (AJCC) ορίζεται «κατηγορία ΤΝΜ» συνοψίζει τη συνολική βαρύτητα της νόσου από την άποψη του μεγέθους του όγκου και την εξάπλωση των καρκινικών κυττάρων. Ομοίως, η «περιοχή-ειδικά σταδιοποίηση Ταξινόμηση» καταστήματα αν η ασθένεια είναι περιορισμένη ή εκτεταμένη για τους ασθενείς με καρκίνο του πνεύμονα.
μεταβλητή αποθηκεύει το «σχέδιο θεραπείας Προτεινόμενη του καρκίνου» της θεραπείας δίνεται στον ασθενή. Η οριστική θεραπεία για μη μεταστατικό καρκίνο του πνεύμονα είναι η χειρουργική εκτομή. Ωστόσο, δεδομένου ότι οι περισσότεροι ασθενείς διαγιγνώσκονται μόνο όταν η ασθένεια βρίσκεται σε προχωρημένο στάδιο, μόνο το 10-15% των ασθενών μπορεί να αντιμετωπιστεί με χειρουργική επέμβαση [34,35]. Ο Πίνακας 2 παραθέτει όλους τους διαθέσιμους τύπους σχέδιο θεραπείας μέσα LUCADA, μαζί με τις συχνότητές τους. Σε αυτόν τον πίνακα, όλοι οι τύποι θεραπεία, εκτός από Παρηγορητικής Φροντίδας (5) και ενεργητική παρακολούθηση (6), κατηγοριοποιούνται ως θεραπευτικών αγωγών. Οι θεραπείες κωδικοποιημένες 1, 9, 10 και 11 είναι εκείνες που περιλαμβάνουν χειρουργική εκτομή. Το υπόλοιπο των θεραπειών, κωδικοποιημένα 2, 3, 7 και 8, περιλαμβάνουν μεμονωμένες χημειοθεραπεία και ακτινοθεραπεία ή ένα συνδυασμό και των δύο.
Κωδικός
Όνομα
Ποσοστό (%)
1Surgery102Radiotherapy14.793Chemotherapy195Palliative care236Active Monitoring97Sequential χημειοθεραπεία και radiotherapy78Concurrent χημειοθεραπεία και radiotherapy19Induction χημειοθεραπεία για downstage πριν surgery0.0810Neo-επικουρική χημειοθεραπεία και surgery0.1311Surgery ακολουθούμενη από επικουρική chemotherapy2-Null14Table 2. Οι διαθέσιμες επιλογές σχέδιο θεραπείας σε LUCADA και τη συχνότητά τους.
CSV Λήψη CSV
Τέλος, στον πίνακα 1, η μεταβλητή του «1-ετής επιβίωση» περιέχει τις πληροφορίες αποτελέσματος επιβίωσης για όλους τους φακέλους των ασθενών. Στη φροντίδα για τον καρκίνο, το ποσοστό επιβίωσης 5 ετών είναι η πιο συχνά χρησιμοποιούμενη σημείο αποκοπής για να μετρήσει την ελεύθερη νόσου επιβίωση. Από LUCADA δεν περιλαμβάνει πολλά στοιχεία των ασθενών στην επιβίωση 5 ετών, χρησιμοποιούμε επιβίωσης 1-χρόνου ως υποκατάστατο μέτρο έκβασης. Η επιλογή αυτή υποστηρίζεται τόσο από την κλινική τους συνεργάτες μας και από τη βιβλιογραφία, η οποία αναφέρει το σύνολο σχεδόν βελτίωση στην επιβίωση του καρκίνου του πνεύμονα, όπως αυτή οφείλεται στην αύξηση της 1-ετής επιβίωση [36,37]. Η συνολική «επιβίωσης 1-χρόνου» ρυθμό στο LUCADA είναι 33%.
Προ-επεξεργασία του LUCADA σύνολο δεδομένων
Πριν από το σχεδιασμό ενός συνόλου BNs συγκεκριμένους τομείς, αναλύσαμε την πρώτη και προ-επεξεργασία το σύνολο δεδομένων LUCADA. Προ-επεξεργασία δεδομένων είναι ένα κρίσιμο βήμα σε οποιαδήποτε μηχανή εκμάθησης της άσκησης, δεδομένου ότι η αξιοπιστία ενός μοντέλου πρόβλεψης εξαρτάται σε μεγάλο βαθμό από την ποιότητα των δεδομένων που χρησιμοποιούνται [38]. Για το σκοπό αυτό, θα πραγματοποιηθεί τα ακόλουθα βήματα προ-επεξεργασίας.
Κατ ‘αρχάς, θα αφαιρεθεί χειροκίνητα αυτά τα αρχεία, όπου ο ασθενής διαγνώστηκε με μεσοθηλίωμα, δεδομένου ότι η εστίασή μας ήταν για NSCLC και μικροκυτταρικό καρκίνο του πνεύμονα (SCLC) ασθενείς . Επιπλέον, θα αφαιρεθούν αυτά τα αρχεία των ασθενών για τους οποίους η καταγεγραμμένη σχέδιο θεραπείας ήταν βραχυθεραπεία (λιγότερο από 100 ασθενείς, γεγονός που καθιστά απίθανο) ή δεν υπήρχε καμία πληροφορία επιβίωσης 1-χρόνου. Αυτές οι διαγραφές μείωσε τον αριθμό των παρατηρήσεων διατίθεται στο σύνολο δεδομένων από 126.987 έως 117.426.
Δεύτερον, εμείς discretised το «
Ηλικία
«, «FEV1 Ποσοστό» και «FEV1 Απόλυτη ποσότητα» πεδία δεδομένων, οι οποίες είναι οι μόνες μη κατηγορηματική πεδία στο σύνολο δεδομένων LUCADA. Ενώ είναι δυνατή η κατασκευή BNs με συνεχείς μεταβλητές, η πλειοψηφία των κλινικών εφαρμογών μέχρι σήμερα χρησιμοποιούν κατηγορηματικές μεταβλητές [4]. Αυτές οι τρεις μεταβλητές διακριτοποιούνται βασίζεται σε κλινικό συμβουλές και στις αποκοπεί τιμές που δίνονται στους κανόνες κατευθυντήρια γραμμή. Αν και υπάρχουν διάφορες τεχνικές για την αυτόματη διακριτοποίηση των συνεχών μεταβλητών [39-41], η διαθεσιμότητα των cut-off τιμές στα έγγραφα κατευθυντήρια γραμμή και κλινικές συμβουλές συνεργάτη μας επέτρεψε να εκτελέσετε μη αυτόματη διακριτοποίηση βασίζεται σε κλινικά σημαντικές διαστήματα. Αυτά εμπειρογνώμονας προκάλεσε διαστήματα είναι όπως παρατίθενται στον Πίνακα 1.
Τρίτον, έχουμε αναπτύξει μια στρατηγική για την αντιμετώπιση ελλείποντα στοιχεία, το οποίο περιλαμβάνει 32% του LUCADA. ελλιπή δεδομένα είναι ένα γεγονός της ζωής για κλινικές σύνολα δεδομένων [5,42] και ανάλογα με το πώς η μη πληρότητα οποιασδήποτε συγκεκριμένης μεταβλητής σχετίζεται με άλλες μεταβλητές, τα δεδομένα που λείπουν συνήθως από τα μοντέλα που βασίζονται σε μία από τις τρεις διαφορετικές υποθέσεις: 1) λείπει εντελώς τυχαία (το οποίο πρόκει- ται)? 2) λείπει τυχαία (MAR)? ή 3) δεν λείπουν τυχαία (NMAR), όπου ο τελευταίος περιλαμβάνει όλες εκείνες τις περιπτώσεις που δεν εμπίπτουν στο σημείο 1 ή 2, και ως εκ τούτου απαιτεί λείπει μοντελοποίησης δεδομένων ρητά.
Οι δύο κοινές μεθόδους για να ασχοληθεί με τα δεδομένα MAR είναι Προσδοκία Μεγιστοποίηση (ΕΜ) και Πολλαπλές Καταλογισμός (MI) [43]. Ωστόσο, πρέπει να ληφθεί υπόψη το γεγονός ότι τόσο η EM και ΜΙ είναι υπολογιστικά πολύπλοκων αλγορίθμων που μπορεί να μην είναι εφικτό για μεγάλα σύνολα δεδομένων με υψηλά ποσοστά της μη πληρότητας. Το πιο σημαντικό, η χρήση τους εξαρτάται ουσιαστικά από την εγκυρότητα της υπόθεσης MAR, χωρίς το οποίο θα οδηγήσει σε μεροληπτικές εκτιμήσεις [44]. Graham συμβουλεύει ότι «ο καλύτερος τρόπος για να σκεφτούμε όλα τα δεδομένα που λείπουν είναι σαν ένα συνεχές μεταξύ MAR και MNAR» και κάποιος πρέπει να αποφασίσει κατά πόσον η παραβίαση MAR σε ένα δεδομένο σύνολο δεδομένων είναι αρκετά μεγάλη για να καταστήσει τις εκτιμήσεις των MI και ΕΜ άκυρη [45 ].
ενημερωθεί από τις αλληλεπιδράσεις μας με το προσωπικό NLCA, καταλήξαμε στο συμπέρασμα ότι NMAR missingness κατείχε εξέχουσα θέση στο LUCADA και η υιοθέτηση του ΕΜ ή ΜΙ θα μπορούσε να έχει αρνητικές επιπτώσεις. Ως αποτέλεσμα έχουμε επιλέξει για το μοντέλο «missingness» δίνεται ρητά το πλαίσιο. Στην πραγματικότητα, λείπουν τα πρότυπα δεδομένων στην κλινική σύνολα δεδομένων είναι συχνά συσχετίζεται με την κλινική σημασία των ελλείπουσες τιμές για ένα συγκεκριμένο ασθενή και μπορεί συχνά να ενσωματώνουν πληροφορίες [42,46]. Προκειμένου να αξιολογηθεί κατά πόσον ή όχι την απουσία των δεδομένων στα δεδομένα LUCADA θα μπορούσε να παρέχει χρήσιμες πληροφορίες για τη δημιουργία μοντέλων πρόβλεψης, τρέξαμε μια σειρά πειραμάτων σε επιλεγμένα 13-μεταβλητή υποσύνολο μας με 117.426 αρχεία ασθενών.
Για το σκοπό αυτό, επιλέξαμε επιβίωσης 1-χρόνου ως δυαδική μεταβλητή έκβασης μας και διαχωρίζεται το υπόλοιπο του συνόλου δεδομένων ως μήτρα πρόβλεψη μας. Μετά από αυτό, έχουμε ετοιμάσει ένα δυαδικό «μήτρα δείκτης» του οποίου τα στοιχεία ήταν μηδέν ή ένα, ανάλογα με το αν τηρήθηκαν τα αντίστοιχα στοιχεία του πίνακα πρόβλεψης ή έλειπαν. Εμείς εισόδου ο πίνακας που προκύπτει δείκτης στο Naïve Bayes [47] και Logistic Regression [47] αλγόριθμους και σε κάθε περίπτωση προβλεπόμενη επιβίωσης 1-χρόνου. Οι τιμές AUC και προγνωστική ποσοστά ακρίβειας επιτυγχάνεται με την πληροφόρηση σχετικά με τα δεδομένα ελλιπή και μόνο δίνονται στον Πίνακα 3. Οι τιμές που αναφέρονται στον πίνακα είναι οι μέσοι όροι και οι τυπικές αποκλίσεις των 10-φορές στρωματοποιημένη αποτελέσματα διασταυρωμένης επικύρωσης.
Η μέση AUC
Std. Dev. AUC
Μέση Ακρίβεια
Std. Dev. Ακρίβεια
Logistic Regression0.720.024720.37Naive Bayes0.690.021710.36Table 3. Η περιοχή κάτω από την καμπύλη (AUC) και προγνωστική αποτελέσματα απόδοσης της ακρίβειας για τον ελλείποντα μήτρα δείκτης δεδομένα στην πρόβλεψη 1 έτους αποτέλεσμα επιβίωσης.
CSV Λήψη CSV
Αυτά τα αποτελέσματα δείχνουν σαφώς ότι το ελλείπον σχέδιο δεδομένων είναι πραγματικά ιδιαίτερα κατατοπιστική στην πρόβλεψη επιβίωσης 1-χρόνου στο σύνολο δεδομένων LUCADA. Για το λόγο αυτό, έχουμε επιλέξει να διαμορφώσει τα δεδομένα που λείπουν ρητά στις αναλύσεις μας. Με τον τρόπο αυτό, χρησιμοποιήσαμε PostgreSQL [48] ερωτήματα για την αντικατάσταση των null παρατηρήσεις στη βάση δεδομένων με ένα ρητό «Άγνωστο /Missing» κατάσταση.
Μέθοδοι Πειραματική
Η εφαρμογή του BNs με πρόβλεψη 1 -year επιβίωσης στη δέσμη στοιχείων LUCADA είχε ως κίνητρο παραπάνω. Δομή εκμάθησης των συνδεδεμένων ΚΑΓ μπορεί να πραγματοποιηθεί με το χέρι ή, με την παρουσία ενός ολοκληρωμένου συνόλου δεδομένων, μέσω αυτόματων αιτιώδης αλγόριθμοι ανακάλυψης. Στα πειράματά μας, συγκρίναμε την αληθοφάνεια των δομών Δ.Σ.Ε., η οποία ήταν 1) προκάλεσε από την αντίληψη των κλινικών γιατρών της περιοχής? 2) έμαθε αυστηρά από τα δεδομένα? και 3) έμαθε μέσω υβριδική προσέγγιση που ενσωματώνει τη γνώση των εμπειρογνωμόνων σε αυτοματοποιημένα μάθησης δομή.
Εμπειρογνώμονας προκάλεσε δομές είναι πολύ κοινά σε κλινικές εφαρμογές, καθώς οι αιτιώδεις σχέσεις μεταξύ των διαφόρων μεταβλητών είναι καλά κατανοητές από τους κλινικούς γιατρούς. Lucas et al. αναφέρουν ότι πολλά από τα BNs [28,49-55] που αναπτύχθηκε για πραγματικές εφαρμογές ζωή στη βιοϊατρική και την υγειονομική περίθαλψη έχουν κατασκευαστεί με το χέρι [4]. Ωστόσο, όπως BNs είναι επιρρεπείς σε υποκειμενικές προκαταλήψεις και μπορεί να μην είναι σε θέση να συλλάβει πλήρως τις στατιστικές υπογραφές (όπως independencies) που είναι εγγενείς στα δεδομένα. Αυτά μπορεί να οδηγήσει σε μη βέλτιστη μοντέλα, ιδίως σε περιπτώσεις όπου ο τελικός στόχος είναι η οπίσθια εκτίμησης παραμέτρων ή της κατάταξης, αντί να κάνει ρητή τις αιτιώδεις σχέσεις να αποκτήσουν μια καλύτερη κατανόηση του τομέα προβλήματος.
Από την άλλη πλευρά, η αυτόματη εκμάθηση της δομής συνάφεια του ΒΝ από τα δεδομένα είναι ένα ενεργό πρόκληση επιδιωχθεί ML, κυρίως επειδή δεν υπάρχει μοναδική ΒΝ που αντιπροσωπεύει την κοινή κατανομή πιθανότητας δίνεται από τα στοιχεία [9]. Σε γενικές γραμμές, οι αλγόριθμοι μάθησης αυτόματη δομή μπορούν να κατηγοριοποιηθούν σε: 1) αλγορίθμων βασίζεται σε περιορισμούς που χρησιμοποιούν independencies υπό όρους? και 2) Βαθμολογία με βάση τους αλγόριθμους αναζήτησης, όπου η έρευνα για το μοντέλο του Δ.Σ.Ε. που μεγιστοποιεί ένα μετρικό σκορ στο μοντέλο αιτιώδη χώρου [13]. Οι μέθοδοι περιορισμού βάση επικεντρώνεται στην ανάκτηση μιας δομής συνάφειας με βάση independencies υπό όρους στα δεδομένα. Στα πειράματά μας κάναμε χρήση μιας βελτιωμένης έκδοσης του συναχθεί Πρόκληση αλγορίθμου (IC), όπως περιγράφεται στο [56] και υλοποιείται από Bouckaert στο WEKA 3 [57].
Τα βαθμολογίας με βάση αλγόριθμους αναζήτησης κάνουν χρήση των αποσυντιθέμενο βαθμολογίες που επιτρέπουν τη συνολική βαθμολογία για ένα DAG να υπολογίζεται ως το άθροισμα (ή προϊόν) των επιμέρους βαθμολογιών κόμβος στο δίκτυο. Στα πειράματά μας, κάναμε χρήση της βαθμολογίας K2 [58], η οποία είναι ένα είδος Bayesian βαθμολογίας [58-60], προκειμένου να υπολογίσει την κοινή πιθανότητα ενός γραφήματος (G) και το σύνολο δεδομένων (D) [58] . Η γενική εξίσωση για μια Bayesian βαθμολογία δίνεται στην εξίσωση 1.
(1)
Όλα τα αυτοματοποιημένα αλγόριθμοι μάθησης που παρουσιάζονται σε αυτό το έγγραφο υλοποιήθηκαν είτε στην εργαλειοθήκη MatLab BNT [61] ή το WEKA 3 [57] μηχανικής μάθησης λογισμικό. Συγκεκριμένα, στα πειράματά μας χρησιμοποιήσαμε τις ακόλουθες βαθμολογίας με βάση αλγόριθμους αναζήτησης: 1) Δέντρο Augmented Naïve Bayes (ΤΑΝ), το οποίο εισήχθη από τους Friedman και Geiger ως χαλάρωση της έντονης υπόθεση της ανεξαρτησίας μεταξύ των μεταβλητών πρόβλεψης σε ένα Naïve Bayes ταξινομητή [ ,,,0],62]. Η έκδοση του ΤΑΝ που χρησιμοποιήσαμε υλοποιήθηκε στο WEKA 3? 2) Κ2, η οποία προτάθηκε από [58] και να εφαρμοστεί στην εργαλειοθήκη BNT? 3) Markov Chain Monte Carlo Μοντέλο αποσύνθεσης MC
3, προτάθηκε για πρώτη φορά από Madigan και Υόρκη [63] και να εφαρμοστεί στην εργαλειοθήκη BNT? και, τέλος, 4) προσομοιωμένης ανόπτησης για την αναζήτηση στο χώρο της όλα τα μοντέλα πιθανοτήτων, όπως εφαρμόζεται από Bouckaert στο WEKA 3 [57].
Εκτός από αυτά τα πλήρως αυτοματοποιημένο αλγόριθμους, διερευνήσαμε επίσης τη χρήση μιας εκπαιδευτικής υβριδική δομή αλγόριθμο, που ονομάστηκε Μήκος Αιτιώδης Ελάχιστη μηνυμάτων (CaMML) [64], το οποίο επιτρέπει διαφορετικούς τύπους ειδικών γνώσεων, όπως η χρονική βαθμίδες (Α συμβεί πριν από Β, που συμβολίζεται ως Α ≺ Β), άμεσες σχέσεις (Α και Β συνδέονται μεταξύ τους, που συμβολίζεται ως Α – Β) και απευθείας συνδέσεις συνάφεια (Α επηρεάζει άμεσα Β, που συμβολίζεται ως Α → Β), πρέπει να ενσωματωθεί στην αυτοματοποιημένη διαδικασία μάθησης. Για τη μάθηση δομή, χρησιμοποιήσαμε την εφαρμογή Java του CaMML, που αναπτύχθηκε στο Πανεπιστήμιο Monash. Έχει προηγουμένως χρησιμοποιηθεί από Flores et al. [15] και TWARDY et al. [65] για να μάθουν τις κλινικές δομές συνάφεια στον τομέα των καρδιαγγειακών παθήσεων. Συνολικά, ένα κοινό χαρακτηριστικό όλων των αλγορίθμων εκμάθησης δομής που χρησιμοποιήθηκε ήταν ότι υποτίθεται ότι όλες οι μεταβλητές να είναι διακριτές και το σύνολο δεδομένων που πρέπει να τηρούνται πλήρως.
Πειραματική Ρύθμιση
Σε όλα τα πειράματα ΒΝ, που αντιπροσώπευαν τις κοινές κατανομές πιθανοτήτων χρησιμοποιώντας όρους πίνακες πιθανοτήτων (CPT που), οι οποίες είχαν μάθει μέσω μέγιστο εκτιμήσεις πιθανότητας υποθέτοντας ομοιόμορφη πριν από διανομές Dirichlet πάνω από όλα διακριτές μεταβλητές. Αυτή η «σταθεροποιηθεί στον αγωνιστικό χώρο» από την άποψη της παραμετροποίησης. Εμείς επικέντρωσε τις προσπάθειές μας για τη σύγκριση της διακύμανσης των αλγορίθμων εκμάθησης δομής.
Πραγματοποιήσαμε όλα τα πειράματα με παραπετάσματα τον επιλεγμένο 117426-ασθενή ισχυρό υποσύνολο LUCADA σε 10 ισομεγέθη τμήματα με περίπου ίσες πιθανότητες πριν από το αποτέλεσμα, όπου πιθανότητα επιβίωσης 1-χρόνου ήταν 0,33. Για κάθε πείραμα ΒΝ, η δομή και η παράμετρος μάθησης πραγματοποιήθηκαν στις 9 χωρίσματα και δοκιμάζονται στο υπόλοιπο ένα. Με την επανάληψη αυτής της διαδικασίας πάνω από δέκα χωρίσματα, διασφαλίσαμε την ένταξη όλων των φακέλων των ασθενών στα πειράματα. Οι παραστάσεις όλων των αιτιώδους BNs και άλλα προβλεπτικά μοντέλα αξιολογήθηκαν με βάση τις τιμές AUC και η προγνωστική ποσοστά ακρίβειας αυτών των στρωματοποιημένη δέκα φορές cross-επικυρώσεις.
Η πειραματική διάταξη με την οποία μάθαμε τη δομή και τις παραμέτρους και να υποβάλει έκθεση πρόβλεψης μετρήσεις απόδοσης με κάθε αλγόριθμο συνοψίζεται στο σχήμα 1. Για κάθε πτυχή της διασταυρωμένης επικύρωσης, χωρίσαμε το σύνολο δεδομένων D (xv) σε της κατάρτισης και της δοκιμής σύνολα. Χρησιμοποιήσαμε την εκπαίδευση που να μάθουν την DAG και τις παραμέτρους του ΒΝ, και στη συνέχεια η δοκιμή που να αξιολογήσει την προγνωστική απόδοση του έμαθε δομής. Σύμφωνα με αυτό, αντιπροσώπευε το DAG (xv) για κάθε πτυχή, με τη μορφή ενός λογικού πίνακας γειτνίασης. Στο τέλος του σταυρού επικύρωσης, εμείς εισόδου η σειρά Δ.Σ.Ε., η οποία αποτελούνταν από όλες τις δομές που αντλήθηκαν κατά τη διάρκεια της επικύρωσης 10 φορές σταυρό, σε σκηνοθεσία μέγιστο αλγόριθμο spanning tree (MwSt), προκειμένου να αποκτήσουν το προκύπτον Δ.Σ.Ε.
τελικό. Στη συνέχεια έκανε χρήση της Bayesian Score μετρικό, δίνεται στην Εξίσωση 1, προκειμένου να υπολογίσει την P (D, Δ.Σ.Ε.
τελικό).
Ο ψευδο-κώδικας της πειραματικής διάταξης για τη μάθηση και την αξιολόγηση ΚΑΓ μέσω διαφορετικούς αλγορίθμους.
η
Αν και κύριος στόχος μας είναι BNs, προκειμένου να παρέχουν βασική γραμμή αναφοράς αναφοράς, μπορούμε επίσης να αναφέρουν παραστάσεις κατάταξης τα οποία ελήφθησαν από το ευρέως χρησιμοποιούμενο Naïve Bayes (NB), Λογιστική Παλινδρόμηση, και το C4 0.5 αλγόριθμο δέντρου απόφασης. Στα πειράματά μας, κάναμε χρήση του αλγόριθμου NB σε MATLAB R2011a. Για Logistic Regression και των αλγορίθμων δέντρο απόφασης C4.5 χρησιμοποιήσαμε WEKA 3 [66]. ΣΗΜ έχει υιοθετηθεί ως η βασική μετρική απόδοσης σε πολλές μελέτες ML. Παρά την απλότητά του, έχει αναφερθεί για να δώσει συγκρίσιμα αποτελέσματα σε πιο εξελιγμένες τεχνικές ML, ειδικά στην παρουσία μεγάλων συνόλων δεδομένων [67,68]. Λογιστικής παλινδρόμησης χρησιμοποιείται ευρέως σε μελέτες και δοκιμές [69] κλινική ομάδα. Η συγκεκριμένη εφαρμογή της λογιστικής παλινδρόμησης στην WEKA 3 βασίζεται στη χρήση «εκτιμητές κορυφογραμμή» για τη βελτίωση των εκτιμήσεων συντελεστή [70]. C4.5 είναι ένα ευρέως χρησιμοποιούμενο αλγόριθμο για την κατασκευή δέντρα απόφασης, οι οποίες θεωρούνται ότι είναι ιδιαίτερα κατάλληλο για περιοχές με διακριτές μεταβλητές όπως ο δικός μας [71,72]. Η συγκεκριμένη υλοποίηση του αλγορίθμου C4.5 που χρησιμοποιούνται σε WEKA 3 ονομάζεται «J48».
Συμπερασμός
Όπως τονίστηκε νωρίτερα, ένας από τους λόγους μας να εκπροσωπεί τον τομέα μας ως μια ΒΝ είναι η προσαρμοστικότητα του πιθανολογική συμπέρασμα που παρέχονται από BNs, σύμφωνα με την οποία εισέρχονται στοιχεία για κάθε μεταβλητή στα αποτελέσματα του δικτύου στην ενημέρωση των οπίσθιο κατανομές των υπολοίπων μεταβλητών. Αυτές οι ενημερώσεις πιθανοτήτων, δηλαδή ενημερώσεις πεποιθήσεων, μπορεί να απεικονιστεί στην κορυφή των δομών γράφημα, παρέχοντας ένα βαθμό διαφάνειας κατά τη διάρκεια της εξαγωγής συμπερασμάτων. Αυτό που διαφοροποιεί BN συμπέρασμα από το «μαύρο κουτί» διαδικασίες ML [9].
Σε όλα τα πειραματικά αποτελέσματα μας, κάναμε χρήση του αλγορίθμου Junction Δέντρο [73], όπως εφαρμόζεται χωριστά από Murphy [61] στην εργαλειοθήκη MatLab BNT και από Bouckaert [57] στο WEKA 3. Ο αλγόριθμος αυτός αποτελείται από
You must be logged into post a comment.