PLoS One: Λογιστική εξάρτηση Induced από Σταθμισμένη Καταλογισμός KNN σε ζεύγη δειγμάτων, Παρακινημένος από καρκίνο του παχέος εντέρου Study


Αφηρημένο

Λείπουν τα δεδομένα μπορούν να προκύψουν σε εφαρμογές βιοπληροφορικής για διάφορους λόγους, και οι μέθοδοι υπολογισμού που εφαρμόζονται συχνότερα με αυτά τα δεδομένα. Είμαστε υποκινούνται από ορθοκολικό καρκίνο μελέτη όπου η έκφραση των miRNAs μετρήθηκε σε ζεύγη όγκο φυσιολογικά δείγματα εκατοντάδων ασθενών, αλλά έλειπαν τα δεδομένα για πολλά φυσιολογικά δείγματα λόγω της έλλειψης διαθεσιμότητας των ιστών. Συγκρίνουμε την απόδοση ακρίβεια και τη δύναμη των διαφόρων μεθόδων καταλογισμού, και να επιστήσει την προσοχή στη στατιστική εξάρτηση προκαλείται από την K-Πλησιέστερα Γείτονες (KNN) καταλογισμό. Αυτό καταλογισμό που προκαλείται εξάρτηση δεν έχει προηγουμένως αντιμετωπιστεί στη βιβλιογραφία. Έχουμε δείξει πώς να λογοδοτήσουν για αυτή την εξάρτηση, και να δείξει μέσα από την προσομοίωση πώς η επιλογή να αγνοήσει ή λογαριασμό για αυτό η εξάρτηση επηρεάζει τόσο την εξουσία και τύπου Ι σφάλμα ελέγχου του ρυθμού

Παράθεση:. Suyundikov Α, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) Λογιστική για εξάρτηση Induced από Σταθμισμένη Καταλογισμός KNN σε ζεύγη δειγμάτων, Παρακινημένος από παχέος μελέτης του Καρκίνου. PLoS ONE 10 (4): e0119876. doi: 10.1371 /journal.pone.0119876

Ακαδημαϊκό Επιμέλεια: Chuhsing Kate Χσιάο, Εθνικό Πανεπιστήμιο της Ταϊβάν, Ταϊβάν

Ελήφθη: 19 Νοεμβρίου 2014? Αποδεκτές: τρίτης Φεβρουαρίου 2015? Δημοσιεύθηκε: 7 του Απρίλη, 2015

Copyright: © 2015 Suyundikov et al. Αυτό είναι ένα άρθρο ανοικτής πρόσβασης διανέμεται υπό τους όρους της άδειας χρήσης Creative Commons Attribution, το οποίο επιτρέπει απεριόριστη χρήση, τη διανομή και την αναπαραγωγή σε οποιοδήποτε μέσο, ​​με την προϋπόθεση το αρχικό συγγραφέα και την πηγή πιστώνονται

Δεδομένα Διαθεσιμότητα: Ο κωδικός R για να δημιουργήσει τα προσομοιωμένα δεδομένα που παρέχονται (σε ​​a.zip αρχείου) ως S1 αρχείου, Προσομοίωση συμπλήρωμα

Χρηματοδότηση:. η έρευνα αυτή υποστηρίζεται από μια επιχορήγηση από το Εθνικό Ινστιτούτο Υγείας, ο αριθμός βραβείο 1R01CA163683-01A1? MLS κύριος ερευνητής, με subaward να JRS

Αντικρουόμενα συμφέροντα:.. Οι συγγραφείς έχουν δηλώσει ότι δεν υπάρχουν ανταγωνιστικά συμφέροντα

Εισαγωγή

Τα microRNAs (miRNAs) είναι μικρές μη-κωδικοποίησης

μόρια RNA που ρυθμίζουν την έκφραση των γονιδίων με τη στόχευση αγγελιαφόρο RNA. Είχαν ανακαλύφθηκε για πρώτη φορά το 1993 κατά τη διάρκεια μιας μελέτης σε εξέλιξη στο νηματώδες Caenorhabditis elegans (C. elegans) όσον αφορά το γονίδιο της πρωτεΐνης lin-14 [1]. Lee et al. (1993) βρήκαν ότι η αφθονία των πρωτεϊνών lin-14 ρυθμίζεται από ένα μικρό RNA που κωδικοποιείται από το lin-4 τόπο. Αυτό μεταγράφεται σε ένα μόριο RNA 22 νουκλεοτιδίων που θα μπορούσαν να καταστέλλουν την έκφραση του lin-14 αγγελιοφόρο RNA (mRNA) με απ ‘ευθείας αλληλεπίδραση με 3’ αμετάφραστη περιοχή του (UTR).

Η επιστημονική κοινότητα είναι σήμερα πολύ ενδιαφέρεται για τις λειτουργικές τους ρόλους των miRNAs. Η βιογένεση miRNA που λειτουργεί σωστά ως αποτέλεσμα τις κανονικές τιμές της κυτταρικής ανάπτυξης, πολλαπλασιασμού, διαφοροποίησης, και κυτταρικό θάνατο. Όμως, η μείωση ή απάλειψη των miRNAs που προκαλούνται από ελαττώματα σε οποιοδήποτε στάδιο της miRNA βιογένεσης οδηγεί σε ακατάλληλη έκφραση των ογκοπρωτεϊνών miRNA-στόχου που προκαλεί την αύξηση του πολλαπλασιασμού, επιθετικότητα ή αγγειογένεση, ή μειώνοντας τα επίπεδα της απόπτωσης [2, 3].

Η βάση δεδομένων miRBase, μια εύχρηστη βάση δεδομένων των δημοσιευμένων ακολουθιών miRNA και σχολιασμό, είχε εισηγμένες 2.588 μοναδική ώριμα ανθρώπινα miRNAs για τον Ιούλιο του 2014 (από https://www.mirbase.org). Από miRNAs μπορεί να ρυθμίσει περισσότερους από έναν στόχο, μπορούν να ρυθμίζουν μέχρι και πάνω από το 30% όλων των γονιδίων που κωδικοποιούν πρωτεΐνες στο ανθρώπινο γονιδίωμα (από https://www.mirnarx.com). Το γεγονός αυτό καθιστά miRNAs μια από τις μεγαλύτερες ρυθμιστές της γονιδιακής έκφρασης.

Η σχέση μεταξύ miRNAs και του παχέος εντέρου (CRC) αναφέρθηκε για πρώτη φορά το 2003, όταν οι miR-143 και miR-145 γονίδια προς τα κάτω σε ιστοί CRC όγκου σε σύγκριση με τους φυσιολογικούς ιστούς [4]. Από τότε, διάφορες μελέτες έχουν δείξει ότι miRNAs εκτενώς απορυθμισμένη σε CRC [5-7].

Τα δεδομένα miRNA όπως τα περισσότερα άλλα στοιχεία έκφρασης μπορεί να θεωρηθεί υπό την μορφή μεγάλων μητρών των επιπέδων έκφρασης των χαρακτηριστικών (σειρές ) σε διάφορα θέματα (στήλες). Τα σύνολα δεδομένων που μπορεί να έχουν είτε κάποια χαρακτηριστικά που λείπουν σε ορισμένα δείγματα, ή όλα τα χαρακτηριστικά που λείπουν σε ορισμένα δείγματα. Η πρώτη περίπτωση εμφανίζεται συχνά οφείλονται σε ανεπαρκή ανάλυση, η διαφθορά εικόνα, σκόνη ή γρατσουνιές στη διαφάνεια, και άλλες διάφορες πειραματικές και τεχνικούς λόγους, ενώ η τελευταία περίπτωση μπορεί να συμβεί λόγω έλλειψης συλλέγονται ιστού ή περιορισμένα κονδύλια. Ως παράδειγμα της τελευταίας υπόθεσης, παρουσιάζουμε τη μελέτη περίπτωσης από την έρευνα για να καθορίσει τη σύνδεση των miRNAs με CRC σε ζεύγη δειγμάτων φυσιολογικού όγκου. Στο πλαίσιο της προκαταρκτικής ανάλυσης, χρησιμοποιώντας τα πρώτα διαθέσιμα θέματα, θέλαμε να συγκρίνει προφίλ έκφρασης των miRNAs των φυσιολογικών και καρκινικών δειγμάτων από κάθε ένα από περισσότερα από 400 άτομα με το 2006 miRNA σε κάθε δείγμα. Συλλέξαμε επίσης αναλυτικές πληροφορίες σχετικά με τις δημογραφικές μεταβλητές και τον τρόπο ζωής αυτών των ασθενών CRC. Δεν υπάρχουν πολλά CRC μελέτες που έχουν συλλεχθεί τόσο εκτεταμένη στοιχεία για τέτοιες μεταβλητές. Ωστόσο, σε τελική ανάλυση, χρησιμοποιώντας όλα τα διαθέσιμα μαθήματα, 10% έως 50% των ατόμων που θα έχουν λείπουν φυσιολογικά δείγματα λόγω της έλλειψης διαθεσιμότητας των ιστών.

Ο άμεσος στόχος σε αυτή τη μελέτη περίπτωσης CRC είναι να κατανοήσουμε τις εναλλακτικές λύσεις για τον καταλογισμό, μαζί με τα συγκριτικά πλεονεκτήματα και τις αδυναμίες τους. Συγκεκριμένα, θέλουμε να γνωρίζουμε για μια συγκεκριμένη μέθοδο του συνυπολογισμού αν η εφαρμογή της να λείπουν δεδομένα miRNA μεταξύ φυσιολογικά δείγματα θα δώσουν ακριβείς προβλέψεις των πραγματικών επιπέδων έκφρασης τους, και πώς τέτοιες προβλέψεις επηρεάζονται περισσότερο από το ποσοστό των ατόμων με ελλιπείς τιμές. Εμείς περαιτέρω επιθυμούν να κατανοήσουν πώς αυτά τα αποτελέσματα επηρεάζουν στατιστική ισχύ για την ανίχνευση διαφορικά εκφρασμένων miRNA με ταυτόχρονο έλεγχο για το σφάλμα Τύπου Ι.

Με τον πολλαπλασιασμό των μελετών γονιδιακής έκφρασης κατά την τελευταία δεκαετία, έχει δοθεί περισσότερη προσοχή στις μεθόδους καταλογισμού για δεδομένων miRNA. Συμβατικές προσεγγίσεις συχνά περιλαμβάνουν απλά να εξαιρουμένων των miRNAs με τις τιμές που λείπουν, αντικαθιστώντας τις τιμές που λείπουν με μηδενικά, ή τον καταλογισμό χρησιμοποιώντας γραμμή ή στήλη μέσους όρους. Τέτοιες επιλογές αγνοούν τη δομή συσχέτισης των δεδομένων και έχουν περιορισμένη δύναμη [8]. Επιπλέον, δεν αξιοποιούν δυνητικά ενημερωτικό δημογραφική ή τον τρόπο ζωής μεταβλητών. Πιο εξελιγμένες επιλογές χρησιμοποιούν πολλαπλές καταλογισμό βασίζεται σε Markov Chain Monte Carlo (MCMC) και την προσδοκία Μεγιστοποίηση (ΕΜ) αλγόριθμοι, οι οποίες επιτρέπουν την ενσωμάτωση των πρόσθετων συμπαράγοντες [9-11]

Σε αυτό το έγγραφο, έχουμε εισαγάγει και να αξιολογεί μια μέθοδος καταλογισμού που λαμβάνει υπόψη την εξάρτηση που προκαλείται από σταθμισμένο K-Πλησιέστερα Γείτονας (KNN) και θεωρεί ότι οι συμπαράγοντες, πάνω από τις τεχνικές πολλαπλών καταλογισμό χρήση MCMC και ΕΜ με αλγορίθμους bootstrapping, καθώς και η τεχνική διαγραφή περίπτωση, χρησιμοποιώντας χαρακτηριστικά αυτού του μεγάλου όγκου δεδομένων CRC σετ

Αυτό το χαρτί είναι τοποθετημένα με τον ακόλουθο τρόπο:. Πρώτον, παρέχει μια επισκόπηση των παραδοχών καταλογισμό και μεθόδους, καθώς και τη μέθοδο RMSE για την αξιολόγηση της απόδοσης των διαφόρων τεχνικές υπολογισμού. Στη συνέχεια αποδεικνύουμε την εφαρμογή των τεχνικών καταλογισμό χρησιμοποιώντας σύνολα δεδομένων προσομοίωσης. Τέλος, καταλήγουμε με μια συζήτηση των σημαντικών θεμάτων που παρουσιάζονται στο έγγραφο, όπως η απόδοση της μεθόδου του συνυπολογισμού KNN λαμβάνοντας παράλληλα υπόψη την εξάρτηση πάνω από τις πολλαπλές τεχνικές υπολογισμού.

Μέθοδοι

Πριν από την εκτέλεση μια εκτίμηση των ελλειπόντων στοιχείων, είναι απαραίτητο να γνωρίζουμε εάν τα δεδομένα που λείπουν εμφανίζεται τυχαία, ως αποτέλεσμα της μη παρατηρούμενων παραγόντων, ή προορίζεται. Πρέπει να λάβουμε υπόψη δύο παραδοχές: λείπει τυχαία (MAR) και λείπει εντελώς τυχαία (το οποίο πρόκει- ται) [12]. Τα στοιχεία που λείπουν είναι MAR όταν λείπουν τιμές δεν είναι τυχαία κατανεμημένα σε όλες τις παρατηρήσεις, αλλά κατανέμονται τυχαία μέσα σε ένα ή περισσότερα επιμέρους δείγματα των δεδομένων. Μια μεταβλητή (miRNA ή

x

) μπορεί να θεωρηθεί MAR αν η πιθανότητα παρατήρησης

x

(εξαρτάται από την παρατηρούμενη μεταβλητές) δεν εξαρτάται από το

x

. Η υπόθεση οποίο πρόκει- ται να είναι μια ειδική περίπτωση MAR, όταν οι τιμές που λείπουν στοιχεία είναι ένα απλό τυχαίο δείγμα όλων των αξιών των δεδομένων. Κάποιος μπορεί να καθορίσει τα δεδομένα που λείπουν ως δεν λείπουν τυχαία (MNAR) εάν δεν MCAR ούτε παραδοχές MAR κατέχουν. Στην περίπτωση αυτή, τα στοιχεία που λείπουν δεν μπορεί να καταλογιστεί με βάση τα διαθέσιμα δεδομένα. Έτσι, τεχνικές υπολογισμού μπορούν να εφαρμοστούν μόνο στα δεδομένα που ικανοποιούν είτε MAR ή MCAR υποθέσεις. Τα χαρακτηριστικά των δεδομένων CRC miRNA ικανοποιήσει MAR υποθέσεις, επειδή η πιθανότητα των θεμάτων που έχουν λείπει φυσιολογικά δείγματα δεν εξαρτάται από τις τιμές της έκφρασης των miRNAs σε αυτά τα θέματα.

Θεωρούμε τις ακόλουθες μεθόδους για την εκτίμηση των επιπέδων έκφρασης των miRNAs για τα εξαφανισμένα φυσιολογικά δείγματα των ασθενών:

Πολλαπλές καταλογισμό

Πολλαπλές καταλογισμό (ΜΙ) είχε αρχικά σχεδιαστεί για να χειριστεί missingness σε δημόσια χρήση μεγάλων συνόλων δεδομένων [12]. Η εφαρμογή της διαδικασίας ΜΙ έχει επεκταθεί και σε διάφορες μεγάλες σειρές δεδομένων, συμπεριλαμβανομένων μικροσυστοιχίες [13]. Η μέθοδος αντικαθιστά κάθε ελλείπουσα τιμή με πολλαπλές τιμές υποκατάστατο, λένε

m

, που αντιπροσωπεύουν την κατανομή πιθανότητας των αγνοουμένων αξίας. Ένα ολοκληρωμένο σύνολο δεδομένων που έχει δημιουργηθεί από κάθε σετ ισοπαλίες. Έτσι, το

m

καταλογισμοί για κάθε τιμή που λείπει δημιουργήσει

m

πλήρη σύνολα δεδομένων. Αποθηκεύονται σε μια βοηθητική μήτρα, πολλαπλώς τεκμαρτά σύνολα δεδομένων με μία σειρά για τα εξαφανισμένα αξία και

m

στήλες. Η πρώτη σειρά του πίνακα αντιστοιχεί στην πρώτη σειρά των τεκμαρτές τιμές των ελλείπουσες τιμές, και ούτω καθεξής. Καθώς οι αναλύσεις πλήρη-δεδομένων που εφαρμόζονται σε κάθε πολλαπλώς τεκμαρτό σύνολο δεδομένων (θεραπεία τεκμαρτές τιμές ως πλήρως παρατηρούμενη και ανεξάρτητες),

m

διαφορετικά σύνολα των εκτιμήσεων των παραμέτρων και variance-covariance μήτρες τους δημιουργούνται. Να συνδυάσει τα συμπεράσματα από αυτά, [12] προτείνει να λάβουν κατά μέσο όρο όλων των αποτελεσμάτων, εκτός από τον όρο τυπικό σφάλμα (SE). Η SE είναι κατασκευασμένο από το εσωτερικό διακύμανση του κάθε συνόλου δεδομένων, καθώς και τη διαφορά μεταξύ του τεκμαρτού στοιχεία για κάθε σύνολο δεδομένων. Οι δύο αυτές διαφορές προστίθενται μαζί και η τετραγωνική ρίζα τους καθορίζει την SE. Ο συγγραφέας προτείνει να χρησιμοποιήσει όχι περισσότερο από 5 καταλογισμοί και μερικές φορές τόσο μικρό αριθμό ως 2 ή 3 για να δημιουργήσει χρήσιμα στατιστικά συμπεράσματα. Χρησιμοποιούμε

m

= 5 για τεχνικές MI στην ανάλυσή μας. Είναι σημαντικό να σημειωθεί ότι η πλήρης-αναλύσεις δεδομένων σε ΜΙ θεραπεία των τεκμαρτών δεδομένων, ως εάν είχαν τηρηθεί πλήρως. Αυτή η προσέγγιση δεν εξετάζει κάθε εξάρτηση των τεκμαρτών στοιχείων σχετικά με τα πραγματικά πλήρης τήρηση των δεδομένων.

ΜΙ χρησιμοποιώντας αλυσίδα Markov Μόντε Κάρλο (MCMC)

Πολλαπλά σύνολα τεκμαρτού δεδομένα μπορούν να δημιουργηθούν με την μέθοδο MCMC , η οποία εφαρμόζεται σε ένα αυθαίρετο λείπουν μοτίβο δεδομένα που υποθέτει πολυμεταβλητή κανονικότητα. MCMC έχει χρησιμοποιηθεί για να εξερευνήσετε οπίσθια κατανομές πιθανότητας να εκφράσουν άγνωστες παραμέτρους στην Bayesian συμπεράσματα. Χρησιμοποιώντας αυτή τη μέθοδο, το σύνολο της κοινής οπίσθια κατανομή των άγνωστων ποσοτήτων προσομοιώνεται και οι εκτιμήσεις των παραμέτρων με βάση την προσομοίωση που παράγεται [14].

Αυτή η διαδικασία μπορεί να περιγραφεί σε δύο στάδια. Το πρώτο βήμα είναι το I-βήμα καταλογισμό η οποία εφιστά την τυχαία τιμές για τις τιμές που λείπουν από την υποτιθέμενη κατανομή των ελλιπών τιμών δίνονται παρατηρούμενες τιμές χρησιμοποιώντας την εκτιμώμενη μέση φορέα και variance-covariance μήτρα, δηλαδή αντλεί τιμές για το

Y

m

i

s

(

t

+

1

)

από

σ

(

Y

mis

|

Y

obs

,

θ

t

), όπου

Y

mis

και

Y

obs

είναι μεταβλητές με τις τιμές που λείπουν και παρατηρούνται τιμές, αντίστοιχα, και

θ

t

είναι μια εκτίμηση της παραμέτρου στο

t

ου

επανάληψης.

Η οπίσθια P-βήμα προσομοιώνει τυχαία τον πληθυσμό σημαίνει φορέα και variance-covariance μήτρα από τις πλήρεις εκτιμήσεις του δείγματος, δηλαδή αντλεί

θ

(

t

1) από

p

(

θ

|

Y

o

b

s

,

Y

m

i

s

(

t

+

1

)

)

. Αυτές οι νέες εκτιμήσεις στη συνέχεια χρησιμοποιούνται στο I-βήμα. Αυτό δημιουργεί μια αλυσίδα Markov (

Y

m

i

s

(

1

)

,

θ

(

1

)

)

, (

Y

m

i

s

(

2

)

,

θ

(

2

)

)

, …, Η οποία συγκλίνει στην κατανομή στο

σ

(

Y

mis

,

θ

|

Y

obs

). Οι αρκετά επαναλήψεις διενεργείται με έχουν αξιόπιστα αποτελέσματα για πολλαπλασιάζονται τεκμαρτών σύνολο δεδομένων και να συγκλίνουν με στάσιμη κατανομή του από την οποία μπορούμε να προσομοιώσει ένα περίπου κλήρωση των ελλείπουσες τιμές [15].

ΜΙ χρησιμοποιώντας Προσδοκία Μεγιστοποίηση ( EM) με αλγορίθμους bootstrapping

Ο αλγόριθμος ΕΜ είναι μια πολύ γενική επαναληπτικό αλγόριθμο για μέγιστη πιθανοφάνειας των ελλειπόντων στοιχείων [9]. Ένα υποθέτει ένα μοντέλο για τα δεδομένα, μεγιστοποιεί την πιθανότητα κάτω από την υποτιθέμενη μοντέλο, αποκτά εκτιμήσεις των παραμέτρων, και κάνει συμπεράσματα με βάση τις εκτιμήσεις των παραμέτρων. Η ρητή μορφή εκτιμήσεων των παραμέτρων δεν υπάρχει συνήθως για δεδομένα που λείπουν. Εδώ αριθμητικές μέθοδοι όπως ο αλγόριθμος Newton-Raphson είναι πολύ περίπλοκη στη χρήση. Έτσι μπορεί κανείς να εφαρμόσει τον αλγόριθμο EM η οποία είναι μια επαναληπτική μέθοδος για τη μεγιστοποίηση της πιθανότητας ελλείποντα στοιχεία [10]. Σε σύγκριση με τον αλγόριθμο Newton-Raphson, ο αλγόριθμος ΕΜ είναι πιο αργή, αλλά αυξάνει την πιθανότητα με κάθε επανάληψη και σίγουρα συγκλίνει σε ένα μέγιστο για τη διανομή με μία λειτουργία. Ο αλγόριθμος ΕΜ συγκλίνει σε ένα τοπικό μέγιστο ή ένα σημείο σέλα για τη διανομή με πολλαπλούς τρόπους.

Ο αλγόριθμος ΕΜ αποτελείται από δύο βήματα, με την προσδοκία (Ε) και η μεγιστοποίηση (Μ) βήματα. Ο αλγόριθμος υπολογίζει την υπό όρους προσδοκία της λείπει τιμές που δίνονται δεν λείπουν αξίες και τις τρέχουσες εκτιμήσεις των παραμέτρων στο βήμα προσδοκία. Στο στάδιο της μεγιστοποίησης οι υπολογίζονται αναμενόμενες τιμές που χρησιμοποιούνται για να μεγιστοποιήσουν την πιθανότητα τα πλήρη στοιχεία. Αυτά τα βήματα επαναλαμβάνεται μέχρι τη μέγιστη πιθανότητα συγκλίνει δεδομένων. Ο αλγόριθμος ΕΜ δεν μπορεί να έχει μια σαφή μορφή. Στην περίπτωση αυτή, η μεγιστοποίηση μπορούσαν να ληφθούν θεωρητικά με τη χρήση επαναλήψεων στο βήμα μεγιστοποίηση.

Το βήμα μεγιστοποίησης μπορεί να είναι υπολογιστικά δαπανηρή, πράγμα που μπορεί να κάνει ο αλγόριθμος ΕΜ ελκυστική. Ευτυχώς, η ΕΜ με αλγόριθμο bootstrapping επιλύει αυτό το πρόβλημα. Χρησιμοποιεί το συμβατικό αλγόριθμο EM σε πολλαπλές bootstrapped δείγματα από τα αρχικά δεδομένα που λείπουν για να επιστήσει τιμές των παραμέτρων πλήρη δεδομένα. Στη συνέχεια αντλεί τεκμαρτές τιμές από κάθε σύνολο bootstrapped παραμέτρων, αντικαθιστώντας τις τιμές που λείπουν με αυτά ισοπαλίες. Η ΕΜ με αλγόριθμο bootstrapping μπορεί να καταλογίσει τις τιμές που λείπουν σε πολύ λιγότερο χρόνο από ό, τι το ίδιο το αλγόριθμο EM [11]

K-Πλησιέστερα Γείτονες (KNN):. Τροποποιήθηκαν και λογιστική εξάρτηση KNN γενικά

η συμβατική μέθοδος KNN αντικαθιστά τις τιμές που λείπουν χρησιμοποιώντας το

k

-Οι τιμές παρόμοιων μη λείπει θέματα »[16, 17]. Μπορεί να καταλογίσει δύο διακριτά χαρακτηριστικά (χρησιμοποιώντας την πιο συχνή τιμή μεταξύ των k-πλησιέστερων γειτόνων) και συνεχή χαρακτηριστικά (χρησιμοποιώντας τη μέση τιμή μεταξύ των k-πλησιέστερων γειτόνων).

[8] εφαρμόσει την μέθοδο KNN που σταθμίζει τα συνεισφορά κάθε πλησιέστερου γείτονα από την ομοιότητά του με το θέμα με την τιμή που λείπει. Στη μελέτη μας CRC, τα βάρη των πλησιέστερων γειτόνων του καταλογισμού της λείπει μετρούμενη από την Ευκλείδεια απόσταση μετρήσεις των δημογραφικών και τον τρόπο ζωής μεταβλητών, έτσι ώστε οι πιο κοντά τους γείτονες με το θέμα συμβάλουν περισσότερο για τον καταλογισμό της από τις πιο απομακρυσμένες. Με βάση τη μέθοδο στάθμισης της [8], έχουμε περιγράψει εν συντομία υπολογισμοί βάρους μας εδώ. Ας

k

είναι ο επιλεγμένος αριθμός των πλησιέστερων γειτόνων,

D

i

1 ≤ … ≤

D

i

k

είναι τα ταξινομημένα αποστάσεις από το

k

πλησιέστερους γείτονες από την κανονική-λείπει θέμα

i

, και

D

i

(

m

ένα

x

)

είναι η μέγιστη απόσταση (μεταξύ όλων πλήρως παρατηρείται θέματα ) από το θέμα

i

. Στη συνέχεια, τα βάρη

μια

i

1, …,

μια

i

k

μεταξύ των

k

πλησιέστερων γειτόνων για το θέμα

i

λαμβάνονται ως εξής: (1) οι συντελεστές στάθμισης που χρησιμοποιούνται από τη μέθοδο του σταθμικού KNN να καταλογίσει τις τιμές που λείπουν έκφραση ενός συγκεκριμένου γονιδίου όπως στην εξίσωση (2).

προτεινόμενη μέθοδος καταλογισμού μας αντιπροσωπεύει την εξάρτηση που προκαλείται από σταθμισμένο KNN και μπορεί να χρησιμοποιήσει τις πρόσθετες συμπαράγοντες όπως δημογραφικά, τη γενική υγεία, τη γενετική και τις μεταβλητές του τρόπου ζωής, καθώς και άλλα βιολογικά σχετικές πληροφορίες. Η προτεινόμενη μέθοδος καταλογισμού εκμεταλλεύεται τη συμβατική KNN [16, 17] και περαιτέρω ανεπτυγμένες σταθμισμένο KNN [8] ευρωστία των μεθόδων συμψηφισμού »για τα δεδομένα που λείπουν, μη-παραμετρική προσέγγιση, και την ταχύτητα στην εκτίμηση των ελλιπών τιμών για τα δεδομένα μικροσυστοιχιών, λαμβάνοντας παράλληλα υπόψη την αντιστοιχία δομή των δεδομένων. Προκειμένου να καταλογίσει λείπουν δείγματα στο προαναφερθείσες κίνητρο μελέτη περίπτωσης CRC, η προτεινόμενη μέθοδος έχει τροποποιηθεί για να καταλογίσει εκφράσεις για όλα τα miRNA της λείπει φυσιολογικά δείγματα με βάση την πολυμεταβλητή συμπαράγοντες (δημογραφικές και τον τρόπο ζωής μεταβλητών) και να λογοδοτήσουν για την εξάρτηση της καταλόγισε δεδομένα σε επόμενες δοκιμές διαφορικής έκφρασης. Τα δημογραφικά και τον τρόπο ζωής των μεταβλητών που εξετάζονται στο παρόν έγγραφο είναι πέντε συνεχείς (ηλικία, τον αριθμό των τσιγάρων /ημέρα, θερμίδων, ΔΜΣ (Δείκτης Μάζας Σώματος), και λουτεΐνη και ζεαξανθίνη συγκέντρωση) και πέντε δυαδικά (φύλο, τα τελευταία ασπιρίνης /ΜΣΑΦ (μη στεροειδή αντιφλεγμονώδες φάρμακο) χρησιμοποιούν, τα τελευταία καπνιστή, την εμμηνόπαυση και μετά την εμμηνόπαυση λαμβάνουν HRT (θεραπεία ορμονικής υποκατάστασης) εντός 2 ετών καταστάσεις) μεταβλητές.

Αυτή η τροποποιημένη τεχνική KNN καταλογίζει σε όλα τα επίπεδα έκφρασης των miRNAs του λείπει κανονικών δειγμάτων με την εύρεση η

k

πιο παρόμοια θέματα, τα επίπεδα δεν γονιδιακής έκφρασης όπως σε συμβατικές μεθόδους KNN, που θα βασίζεται στην απόσταση μήτρες των δημογραφικών και τον τρόπο ζωής συμπαράγοντες των ασθενών και παράγει τις μήτρες variance-covariance για κάθε miRNA. Για παράδειγμα, μπορούμε να εκτιμήσουμε τα επίπεδα έκφρασης miRNA σε φυσιολογικούς ιστούς που λείπουν από ένα συγκεκριμένο θέμα, με βάση τα επίπεδα έκφρασης των σαρωμένων φυσιολογικών ιστών από άτομα που έχουν παρόμοια δημογραφικά και τρόπου ζωής συμπαράγοντες.

Ένα άλλο πλεονέκτημα αυτής της μεθόδου είναι ότι μπορεί να ενσωματώσει ταυτόχρονα πολυπαραγοντική συμπαράγοντες με τη συγκέντρωση και την ομαλοποίηση πίνακες απόστασή τους (Ευκλείδεια, στο Μανχάταν, Minkowski, κλπ) για να βρείτε τα πλησιέστερα θέματα γείτονα. Συγκεκριμένα, οι δύο μεταξύ υποκειμένων μήτρες απόσταση κατασκευαστεί με βάση τα πλήρως παρατηρούμενη συνεχή και διακριτά συμπαράγοντες ξεχωριστά, χρησιμοποιώντας την Ευκλείδεια και Manhattan αποστάσεις, αντίστοιχα. Αυτές οι δύο μήτρες απόσταση ομαλοποιήθηκε με την κλιμάκωση μεταξύ 0 και 1 [18] και συγκεντρώνονται βάσει του σταθμισμένου μέσου όρου της κάθε μήτρας απόσταση για να επιτευχθεί μια ενιαία μεταξύ υποκειμένων πίνακα αποστάσεων.

Επιλογή της βέλτιστης

k

έχουν υπάρξει πολλές μελέτες που έχουν διεξαχθεί για να προσδιοριστεί η βέλτιστη επιλογή (παράμετρος) του

k

για τον αλγόριθμο KNN. [17] προτείνουν να χρησιμοποιήσετε την τετραγωνική ρίζα του μέσου αριθμού των πλήρων περιπτώσεις μετά από να χάσει την αφαίρεση δεδομένων, στρογγυλοποιείται στον πλησιέστερο περιττό ακέραιο. Οι μελέτες προσομοίωσης των διαφόρων

k

σε δεδομένα Likert [19] δείχνουν ότι η τετραγωνική ρίζα του αριθμού των πλήρων περιπτώσεις που στρογγυλοποιείται στον πλησιέστερο περιττό ακέραιο είναι μια κατάλληλη επιλογή για

k

. Επιπλέον, [20] Έκθεση σχετικά με

k

= 10 για μεγάλου όγκου δεδομένων, όπως από μικροσυστοιχίες. [8] υποστηρίζουν ότι η μέθοδος του συνυπολογισμού είναι αρκετά ευαίσθητος για την επιλογή του

k

στο εύρος 10-20. Ως

k

μεγαλώνει, η μέση απόσταση από τις γειτονικές χώρες αυξάνεται γεγονός που συνεπάγεται ότι η τεκμαρτή αξία θα μπορούσε να είναι λιγότερο ακριβή και ο χρόνος καταλογισμό θα αυξηθεί.

Ωστόσο, η επιλογή ενός μικρού

k

μειώνει την απόδοση KNN επειδή η διαδικασία καταλογισμού του φόρου overemphasizes μερικές κυρίαρχη γονίδια (ή σε θέματα τροποποίησης μας) για την εκτίμηση των ελλειπόντων τιμών. Από την άλλη πλευρά, ένας μεγάλος

k

μπορεί να περιλαμβάνουν γονίδια (ή θέματα) που είναι σημαντικά διαφορετικές από τις τιμές που λείπουν που μπορεί να οδηγήσει σε υποβάθμιση της απόδοσης καταλογισμό.

Λογιστική εξάρτηση της KNN- τεκμαρτά στοιχεία

Επειδή οι σταθμισμένες KNN-τεκμαρτές τιμές έκφρασης είναι γραμμικοί συνδυασμοί των τιμών έκφραση των αξιών έκφραση των πλήρως παρατηρούμενη θέματα », οι τεκμαρτές τιμές δεν είναι απαραίτητα ανεξάρτητες από τις πλήρως παρατηρούμενες τιμές. Η τροποποιημένη μέθοδος του συνυπολογισμού KNN-based έχει ένα πλεονέκτημα της εξέτασης αυτής της εξάρτησης που προκαλείται από σταθμισμένο KNN παρέχοντας πίνακες διακύμανσης-συνδιακύμανσης κάθε miRNA, η οποία μπορεί να χρησιμοποιηθεί όταν ψάχνουν για διαφορικά εκφρασμένων miRNAs. Αναφερόμαστε σε αυτή τη μέθοδο ως «KNN εξαρτάται», ενώ αναφερόμενος στη μέθοδο του συνυπολογισμού KNN που αγνοεί την εξάρτηση ως «KNN ανεξάρτητη» σε αυτό το έγγραφο. αλγόριθμο του λειτουργεί σχεδόν το ίδιο με τους αλγόριθμους από τις συμβατικές μεθόδους KNN που βασίζεται, εκτός του ότι αντιμετωπίζει τις γραμμές ως υποκείμενα ή τα δείγματα, και τις στήλες ως miRNAs.

Για να δείτε πώς η προτεινόμενη μέθοδος του συνυπολογισμού υπολογίζει την έκφραση των miRNAs επίπεδα σε λείπει φυσιολογικά δείγματα και ευθύνεται για την εξάρτηση που προκαλείται από το σταθμισμένο KNN, ας υποθέσουμε ότι στη μελέτη CRC του

Ν

θέματα, θέλουμε να εκτιμήσουμε τα επίπεδα έκφρασης του

G

miRNAs για κανονικά δείγματα της λείπει

S

άτομα που χρησιμοποιούν τα δημογραφικά και lifestyle συμμεταβλητή δεδομένων. Για κάθε κανονικό λείπουν θέμα

i

, βρίσκουμε το

k

περισσότερα παρόμοια θέματα με μη λείπει φυσιολογικά δείγματα (δηλαδή θέματα

i

1, …,

i

k

), και καταλόγισε τις τιμές που λείπουν έκφρασης των miRNAs πολλαπλασιάζοντας τις εκφράσεις miRNA από φυσιολογικά δείγματα από το

k

άτομα με αντίστοιχο βάρος τους, η οποία παράγονται από τη μήτρα απόσταση μεταξύ υποκειμένων. Ο καταλογισμός του επιπέδου έκφρασης των miRNAs

ι

στο λείπει κανονικό δείγμα

i

θα παραχθεί όπως και στην εξίσωση (2) 🙁 2)

Εδώ,

i

= 1, …,

S

και

ι

= 1, …,

G

.

x

lj

είναι η παρατηρούμενη τιμή της έκφρασης των miRNA

ι

στην παρατηρείται κανονικό δείγμα του θέματος

l

, και

ένα

lj

είναι το βάρος του υποκειμένου στον καταλογισμό. Τα βάρη

μια

i

1, …,

μια

i

k

λαμβάνονται όπως περιγράφεται στην εξίσωση (1) ανωτέρω. Μπορούμε να γενικεύσουμε την εξίσωση (2) με την εξίσωση (3) 🙁 3)

Εδώ,

X

~

^

είναι

S

×

G

μήτρα των τεκμαρτών φυσιολογικές τιμές έκφρασης ιστού,

μια

~

είναι ένα (

Ν

S

) ×

S

μήτρα βαρών

μια

, και

X

~

είναι ένα (

Ν

– em

S

) ×

G

μήτρα της τήρησης των κανονικών αξιών έκφρασης ιστού. Στη στήλη

i

της

Μια

~

, οι μόνοι μη-μηδενικά στοιχεία σε σειρές

i

1,

i

2, …,

i

k

, και είναι οι συντελεστές

μια

i

1,

μια

i

2, …,

μια

i

k

στην εξίσωση (2).

το variance-covariance μήτρα της κανονικής έκφρασης ιστού για miRNA

ι

θα υπολογίζεται όπως στην εξίσωση (4), αν υποτεθεί ότι η σειρά με την τα δεδομένα είναι η πλήρης τήρηση

Ν

S

θέματα που ακολουθείται από το

S

κανονική-λείπει θέματα: (4)

Εδώ,

σ

ι

2

είναι η διακύμανση των miRNA

ι

και

I

~

είναι η (

Ν

S

) × (

Ν

S

) μήτρα ταυτότητας των μη λείπει θέματα για να εκπροσωπεί την ανεξαρτησία μεταξύ των μη λείπει θέματα. Το τμήμα μήτρα του δεξιά πλευρά της εξίσωσης (4) συμβολίζεται με

Σ

~

ι

.

Έλεγχος για διαφορική έκφραση ( DE) των miRNA, ενώ αντιπροσωπεύει την εξάρτηση

το paired t-test [21] μπορεί να χρησιμοποιηθεί για να ελέγξει αν τα miRNAs εκφράζονται διαφορικά σε ζεύγη δειγμάτων φυσιολογικού όγκου, ενώ αντιπροσωπεύουν εξάρτησης που προκαλείται από τη μέθοδο του συνυπολογισμού. Το paired t-test μπορεί να απλοποιηθεί σε ένα δείγμα t-test της διαφοράς των φυσιολογικών και καρκινικών δειγμάτων. Η μηδενική υπόθεση ανά-miRNA είναι ότι η διαφορά των μέσων επιπέδων έκφρασης των miRNAs μεταξύ φυσιολογικών και καρκινικών δειγμάτων είναι ίση με το μηδέν. Το στατιστικό αποτέλεσμα της δοκιμής για miRNA

ι

μπορεί να βρεθεί ξεκινώντας με την ακόλουθη εξίσωση, όπως αναφέρθηκε στο κεφάλαιο 3 του [22]. (5)

Εδώ,

D

~

ι

είναι

Ν

× 1 διάνυσμα της διαφοράς των

ι

ου

miRNA εκφράσεις για φυσιολογικά και καρκινικά δείγματα,

μ

ι

είναι μία παράμετρος που αντιπροσωπεύει τη διαφορά του μέσου όρου επίπεδα έκφρασης των miRNAs

ι

μεταξύ φυσιολογικών και καρκινικών δειγμάτων, και

1

~

είναι

Ν

× 1 διάνυσμα των 1.

V

a

r

(

ϵ

)

=

σ

j

2

V

j

, όπου

V

~

ι

είναι το variance-covariance μήτρα του όγκου-φυσιολογική διαφορά στις τιμές έκφρασης των miRNAs για miRNA

ι

, δηλαδή,

V

~

ι

=

I

~

+

σ

~

ι

, και πρέπει να είναι μια θετική οριστική μήτρα.

Η μέση διαφορά όγκου-φυσιολογικό για miRNA

ι

μπορεί να υπολογιστεί από την εξίσωση (6) 🙁 6)

Το

μ

^

ι

στην εξίσωση (7) μπορεί να αντικατασταθεί από Εξ (6) 🙁 7)

στη συνέχεια, η εκτιμώμενη διακύμανση της

μ

^

ι

θα υπολογίζεται όπως στην εξίσωση (8) :. (8)

Τέλος, το στατιστικό αποτέλεσμα της δοκιμής θα πρέπει να βρεθεί χρησιμοποιώντας την εξίσωση (9) με ένα βαθμό ελευθερίας του

Ν

-1 (9)

Αυτή η αντιστοίχιση t-test μπορεί να χρησιμοποιηθεί με τις άλλες μεθόδους καταλογισμό αντικαθιστώντας

Σ

~

ι

με τη μήτρα ταυτότητας, το οποίο αντιπροσωπεύει την υποτιθέμενη ανεξαρτησία της τεκμαρτές τιμές miRNA.

Μέτρηση απόδοσης

Η απόδοση των μεθόδων καταλογισμό στα δεδομένα miRNA αξιολογείται μέσω ρίζα του μέσου τετραγωνικού σφάλματος (RMSE). Η τεχνική αξιολόγηση RMSE με βάση είναι η πιο συχνά χρησιμοποιούμενη μέθοδος για να συγκρίνετε ομοιότητα μεταξύ πραγματικών τιμών έκφρασης και τεκμαρτές τιμές έκφρασης. Οι διάφορες παραλλαγές του RMSE μέτρα που χρησιμοποιούνται στη βιβλιογραφία: το μη κανονικοποιημένο RMSE μέτρο [23] και το κανονικοποιημένο μέτρο RMSE από διαφορετικές σταθερές ομαλοποίηση: μέση τιμή όλων των παρατηρήσεων σε πλήρη δεδομένων [8], η τυπική απόκλιση των τιμών σε πλήρη στοιχεία πάνω λείπουν εγγραφές [24, 25], και μέση τετραγωνική ρίζα των τιμών σε πλήρη δεδομένων μέσω λείπουν εγγραφές [26]. Ωστόσο, όλα τα παραπάνω διάφορα RMSE μέτρα προβλέπουν πολύ παρόμοια αποτελέσματα [27].

Στην παροχή κινήτρων μελέτη περίπτωσης CRC, σε όλα τα επίπεδα έκφρασης των miRNAs έως 50% λείπει φυσιολογικά δείγματα, δηλαδή έως και 50% λείπουν σειρές ( δείγματα) των δεδομένων miRNA πρέπει να καταλογιστούν. Έτσι, η μη κανονικοποιημένη RMSE που μετρά τη διαφορά μεταξύ της τεκμαρτή μέρος της μήτρας και του αρχικού τμήματος της μήτρας, διαιρείται με τον αριθμό των ελλειπόντων κυττάρων, μπορούν να χρησιμοποιηθούν. Υπολογίζεται ως εξίσωση (10) 🙁 10)

Εδώ,

i

= 1, …,

S

και

ι

= 1, …,

G

.

x

ij

είναι η αρχική τιμή για τα εξαφανισμένα δείγματος

i

και miRNA

ι

, ενώ

x

^

i

ι

είναι η τεκμαρτή αξία για τα εξαφανισμένα δείγματος

i

και miRNA

ι

.

αποτελέσματα

Αξιολογήσαμε την απόδοση της προτεινόμενης μεθόδου του συνυπολογισμού, η οποία αντιπροσωπεύει την εξάρτηση που προκαλείται από σταθμισμένο KNN και θεωρεί ότι οι δημογραφικές και τον τρόπο ζωής συμπαράγοντες (KNN εξαρτώμενη), πάνω από το σταθμισμένο KNN αγνοώντας την εξάρτηση (KNN ανεξάρτητη), τεχνικές ΜΙ χρήση MCMC και ΕΜ με αλγορίθμους bootstrapping, καθώς και την τεχνική διαγραφή περίπτωση που θεωρεί ότι μόνο πλήρως παρατηρείται θέματα [9], χρησιμοποιώντας προσομοίωση σύνολα δεδομένων.

βέλτιστος αριθμός των πλησιέστερου γείτονα θέματα (

k

)

το σχήμα 1 δείχνει την επίδραση του αριθμού των ατόμων γείτονα,

k

, που χρησιμοποιείται στη μέθοδο του συνυπολογισμού KNN στις αξίες RMSE για την προσομοίωση σύνολα δεδομένων με διαφορετικό αριθμό θεμάτων και τοις εκατό κανονικού λείπουν υποκείμενα. Το RMSE μειώνεται, δηλαδή την απόδοση της KNN καταλογισμό αυξάνεται, ενώ η αξία των

k

αυξήσεις. Η πτώση των τιμών RMSE επιβραδύνει μετά

k

αξία των 10, και γίνεται περίπου το ίδιο και για το υπόλοιπο του

k

τιμές. Η απόδοση καταλογισμό γίνεται περίπου επηρεάζεται από την αξία του

k

εντός του εύρους των 10-25 ατόμων γείτονα. Έτσι, χρησιμοποιήσαμε 10 πλησιέστερο θέματα γείτονα για την εκτίμηση των επιπέδων έκφρασης των miRNAs των κανονικών δειγμάτων για τα εξαφανισμένα άτομα.

Η

σύνολα δεδομένων Προσομοίωση

Αν και έχουμε πλήρη κανονικό και δείγμα όγκου δεδομένων για περισσότερα από 400 άτομα στη μελέτη CRC, συγκρίνουμε τις μεθόδους καταλογισμό χρησιμοποιώντας δεδομένα προσομοίωσης για να έχουν σαφώς καθορισμένη εξουσία και τύπου Ι λάθη. Οι αναλύσεις καταλογισμό έγιναν σε κανονικά κατανεμημένα ζεύγη μήτρες δεδομένων του

G

= 2000 χαρακτηριστικά miRNA (στήλες) για κάθε ένα από τα φυσιολογικά και καρκινικά δείγματα με μεγέθη δείγματος

Ν

= 50, 100, 200, και 400 άτομα (σειρές). Εμείς προσομοίωση επίπεδα έκφρασης των miRNAs για κανονικές και όγκου δείγματα από τον έλεγχο αλήθεια διαφορικά εκφρασμένων miRNAs των δειγμάτων όγκου σε όλες τις προσομοιώσεις. Συγκεκριμένα, όλα τα χαρακτηριστικά miRNA των κανονικών δειγμάτων και μόνο μη-διαφορικά εκφράζεται χαρακτηριστικά miRNA των δειγμάτων όγκου προσομοιώθηκαν με βάση την

μ

= 2 και

σ

= 1.25, ενώ τα διαφορικά εκφρασμένων χαρακτηριστικά miRNA της δείγματα όγκων, η οποία αποτελείτο από 20% του συνόλου των χαρακτηριστικών των miRNAs των δειγμάτων όγκου, προσομοιώθηκαν με βάση την

μ

= 2,5 και

σ

= 1.25. Αυτό το ποσοστό έκφρασης απόκλιση 20%, καθώς αυτό σημαίνει όγκο κανονική διαφορά των 2,5 και τυπική απόκλιση 1.25 επιλέχθηκαν με βάση τα χαρακτηριστικά του κίνητρο μελέτης CRC. Εφαρμόσαμε τυχαία missingness από 10 έως 50 τοις εκατό των κανονικών σειρές δεδομένων. Πραγματοποιήσαμε 25 προσομοιώσεις για κάθε μέγεθος δείγματος με διαφορετικές τοις εκατό missingness.

Για να διασφαλιστεί ότι τα προσομοιωμένα σύνολα δεδομένων αντικατοπτρίζονται τα χαρακτηριστικά της μελέτης CRC, και ότι οι δημογραφικές και τον τρόπο ζωής μεταβλητών πραγματοποιηθεί κάποιες χρήσιμες πληροφορίες για τον καταλογισμό, η πολυπαραγοντική συμμεταβλητή σύνολα δεδομένων με δημογραφικά και τον τρόπο ζωής των μεταβλητών των θεμάτων προσομοιώθηκαν με βάση την

z

τυχαία επιλεγμένο αλήθεια που εκφράζονται διαφορικά επίπεδα έκφρασης των miRNAs με τα χαρακτηριστικά των CRC μελέτη περίπτωσης συμμεταβλητή δεδομένων. Για παράδειγμα, μία συνεχής μεταβλητή, όπως η ηλικία των ατόμων που προσομοιώθηκε όπως και στην εξίσωση (11) 🙁 11)

Εδώ,

ι

= 1, …,

z

,

C

^

είναι μια προσομοίωση αξία της ηλικίας,

β

0 είναι η μέση ηλικία των ασθενών στη μελέτη περίπτωσης CRC, και

β

ι

είναι ομοιόμορφα κατανεμημένο με ελάχιστο και μέγιστο μέχρι 5% της ελάχιστης και της μέγιστης ηλικίας των ασθενών μελέτη περίπτωσης CRC », αντίστοιχα. Στο έγγραφο αυτό, χρησιμοποιήσαμε το 2% του ελάχιστου και του μέγιστου των συνεχών μεταβλητών με

z

= 20, η οποία επιλέχθηκε για υπολογιστική απλότητα, για την προσομοίωση μεταβλητές με παρόμοια χαρακτηριστικά συμπαράγοντες μελέτη περίπτωσης CRC.

x

ι

είναι η έκφραση του αληθινά διαφορικά εκφρασμένων miRNA

ι

στον όγκο, και ο όρος σφάλματος

ε

διανέμεται κανονικά με μηδενική μέση τιμή (

μ

= 0) και η διακύμανση του 10% της διακύμανσης της ηλικίας των ασθενών (

σ

2

=

0.1

*

σ

a

g

e

2

).

The δυαδικές μεταβλητές όπως το φύλο των ατόμων που προσομοιώθηκε χρησιμοποιώντας ένα μοντέλο λογιστικής παλινδρόμησης στην Εξ (12) και (13) 🙁 12)

Εδώ,

σ

είναι η πιθανότητα

φύλων = θηλυκό

, λένε.

εξίσωση (12) μπορεί να ξαναγραφεί ως εξίσωση (13) 🙁 13)

Εδώ,

P

^ <

You must be logged into post a comment.