Δημοσιεύτηκε στο The Intercept

Χρειάστηκε να φτάσουμε στο 1985, όταν το FBI, χάρη στις μυστικές πληροφορίες που τους παρείχε ένας Ρώσος αποστάτης, κατάφερε να ταυτοποιήσει τον καλούντα, Ronald Pelton, έναν πρώην αναλυτή της Εθνικής Υπηρεσίας Ασφάλειας (National Security Agency, NSA).  Τον επόμενο χρόνο, ο Pelton καταδικάστηκε για κατασκοπεία.

Σήμερα, οι πράκτορες του FBI και της NSA θα είχαν αναγνωρίσει τον Pelton μέσα σε δευτερόλεπτα από το τηλεφώνημά του στους σοβιετικούς. Ένα απόρρητο σημείωμα της NSA από τον Ιανουάριο του 2006 περιγράφει αναλυτές της NSA οι οποίοι χρησιμοποιούν «τεχνολογία που αναγνωρίζει τους ανθρώπους από τη χροιά της φωνής τους» έτσι ώστε να καταφέρουν να ταιριάξουν επιτυχώς τα παλιά ηχητικά αρχεία του Pelton μεταξύ τους. «Αν τέτοιες τεχνολογίες ήταν διαθέσιμες πριν από είκοσι χρόνια», λέει το υπόμνημα, «η πρώιμη ανίχνευση και κατανόηση θα ήταν δυνατή, μειώνοντας τη σημαντική ζημιά που έκανε ο Pelton στην εθνική ασφάλεια».

Αυτά και άλλα απόρρητα έγγραφα που δόθηκαν στη δημοσιότητα από τον πρώην υπάλληλο της NSA Edward Snowden αποκαλύπτουν ότι η NSA έχει αναπτύξει μια τεχνολογία όχι μόνο για να καταγράφει και να απομαγνητοφωνεί ιδιωτικές συζητήσεις, αλλά αυτόματα να αναγνωρίζει και τους ομιλητές.

Οι Αμερικανοί έρχονται αντιμέτωποι πιο συχνά αυτήν την τεχνολογία, γνωστή και ως αναγνώριση ή ταυτοποίηση φωνής, όταν τους ξυπνά η Alexa της Amazon ή καλούν την τράπεζά τους. Αλλά μια δεκαετία πριν οι φωνητικές εντολές όπως «Γεια σου Siri» και «OK Google» γίνουν συνηθισμένες καθημερινές φράσεις, η NSA χρησιμοποιούσε φωνητική αναγνώριση για να παρακολουθεί τρομοκράτες, πολιτικούς, εμπόρους ναρκωτικών, κατασκόπους, μέχρι και υπαλλήλους της ίδιας της υπηρεσίας.

Η συγκεκριμένη τεχνολογία λειτουργεί μέσω της ανάλυσης των φυσικών και συμπεριφορικών χαρακτηριστικών που κάνουν τη φωνή κάθε ατόμου ξεχωριστή, όπως ο τόνος, το σχήμα του στόματος και το μήκος του λάρυγγα. Ένας αλγόριθμος τότε δημιουργεί ένα δυναμικό ηλεκτρονικό μοντέλο των φωνητικών χαρακτηριστικών του ατόμου. Αυτό είναι που αναφέρεται πιο λαϊκά ως «φωνητικό αποτύπωμα». Ολόκληρη η διαδικασία – η καταγραφή μερικών λέξεων, η μετατροπή αυτών των λέξεων σε φωνητικό αποτύπωμα και η σύγκριση αυτής της αναπαράστασης με άλλες αναπαραστάσεις που βρίσκονται ήδη αποθηκευμένες στη βάση δεδομένων – μπορεί να γίνει σχεδόν ακαριαία. Παρόλο που είναι γνωστό πως η NSA βασίζεται στα δακτυλικά αποτυπώματα και στα χαρακτηριστικά του προσώπου, όταν φτάνουμε στα φωνητικά αποτυπώματα, σύμφωνα με ένα έγγραφο της υπηρεσίας από το 2008, εκεί «η NSA είναι στα καλύτερά της».

Δεν είναι δύσκολο να καταλάβουμε γιατί. Υποκλέπτοντας και καταγράφοντας εκατομμύρια τηλεφωνικών συνομιλιών του εξωτερικού, βίντεο τηλεδιασκέψεις και κλήσεις μέσω διαδικτύου, – όπως επίσης αποθηκεύοντας, με ή χωρίς εντάλματα, τις κατ’ οίκον συζητήσεις των Αμερικανών – η NSA έχει χτίσει μια απαράμιλλη συλλογή διακριτών φωνών.

Έγγραφα από το αρχείο του Snowden αποκαλύπτουν ότι οι αναλυτές τροφοδότησαν κάποιες από αυτές τις ηχογραφήσεις σε αλγόριθμους φωνητικής αναγνώρισης που θα είχαν τη δυνατότητα να συνδέσουν άτομα με προηγούμενες συνομιλίες τους, ακόμα κι αν αυτά είχαν χρησιμοποιήσει άγνωστους τηλεφωνικούς αριθμούς, λέξεις μυστικού κώδικα ή πολλαπλές γλώσσες.

Ήδη από την επιχείρηση Iraqi Freedom, οι αναλυτές χρησιμοποιούσαν φωνητική αναγνώριση για να πιστοποιήσουν ότι ένα ηχητικό απόσπασμα που «φαινόταν να ανήκει στον καθαιρεμένο ηγέτη Saddam Hussein ήταν όντως δικό του, αντίθετα με τις πεποιθήσεις που επικρατούσαν». Περισσότερα υπομνήματα καταδεικνύουν ότι οι αναλυτές της NSA δημιούργησαν φωνητικά αποτυπώματα για τον Osama bin Laden, του οποίου η φωνή ήταν αδιαμφισβήτητα και αξιοσημείωτα σταθερή κατά τη διάρκεια πολλών αναμεταδόσεων», καθώς και για τους Ayman al-Zawahri, τον νέο ηγέτη της Al Qaeda και τον Abu Musab al-Zarqawi, τον τότε τρίτο σε ιεραρχία. Χρησιμοποίησαν το φωνητικό αποτύπωμα του Zarqawi για να τον αναγνωρίσουν σαν τον ομιλητή στα ηχητικά αρχεία που ανέβαζε διαδικτυακά.

Τα απόρρητα έγγραφα, που χρονολογούνται από το 2004 έως το 2012, δείχνουν την NSA να βελτιώνει τις ολοένα και πιο προηγμένες προσεγγίσεις της στην τεχνολογία φωνητικής αναγνώρισης. Επιβεβαιώνουν τις χρήσεις της φωνητικής αναγνώρισης σε αντιτρομοκρατικές επιχειρήσεις και σε συλλήψεις για ναρκωτικά σε χώρες του εξωτερικού. Υποδηλώνουν δε ότι η υπηρεσία σχεδίαζε να αναπτύξει την τεχνολογία αυτή όχι μόνο για να αναγνωρίσει με ακρίβεια εκ των υστέρων κατασκόπους σαν τον Pelton, αλλά και για να εμποδίσει πληροφοριοδότες σαν τον Snowden.


Ακούγοντας συνεχώς

Ειδικοί στις πολιτικές ελευθερίες ανησυχούν ότι αυτές και άλλες εκτεταμένες χρήσεις της φωνητικής αναγνώρισης απειλούν το δικαίωμα στην ιδιωτική ζωή. «Αυτό δημιουργεί μια νέα δυνατότητα στη συγκέντρωση πληροφοριών και μια νέα δυνατότητα για κατάχρηση», εξήγησε ο Timothy Edgar, πρώην σύμβουλος του Λευκού Οίκου στον Διευθυντή της NSA. «Η φωνή μας ταξιδεύει σε όλα τα κανάλια επικοινωνίας ενώ δεν είμαστε εκεί. Σε μια εποχή μαζικής επιτήρησης, αυτή η δυνατότητα έχει βαθιές επιπτώσεις στην ιδιωτικότητα μας».

Ο Edgar και άλλοι ειδικοί επεσήμαναν τη σχετικά σταθερή φύση της ανθρώπινης φωνής, η οποία είναι πολύ πιο δύσκολο να αλλάξει ή να συγκαλυφθεί σε σχέση με ένα όνομα, διεύθυνση, κωδικό πρόσβασης, αριθμό τηλεφώνου ή PIN. Αυτό καθιστά «πολύ πιο εύκολη» την παρακολούθηση ατόμων, σύμφωνα με τον Jamie Williams, δικηγόρο στο Electronic Frontier Foundation. «Μόλις μπορέσετε να αναγνωρίσετε τη φωνή κάποιου», είπε, «μπορείτε να τον βρείτε αμέσως όταν συμμετέχει σε μια συνομιλία, αν υποθέσουμε ότι την καταγράφετε ή την ακούτε».

Η φωνή είναι ένα μοναδικό και εύκολα προσιτό βιομετρικό χαρακτηριστικό: Σε αντίθεση με το DNA, μπορεί να συλλεχθεί παθητικά και από μεγάλη απόσταση, χωρίς γνώση ή συγκατάθεση του υποκειμένου. Η ακρίβεια ποικίλλει σημαντικά ανάλογα με το πόσο οι συνθήκες της συλλεχθείσας φωνής ταιριάζουν με εκείνες των προηγούμενων καταγραφών. Αλλά σε ελεγχόμενες συνθήκες – με χαμηλό θόρυβο, οικείο ακουστικό περιβάλλον και καλή ποιότητα σήματος – η τεχνολογία μπορεί να χρησιμοποιήσει λίγες προτάσεις για να ταιριάξει με ακρίβεια τα άτομα. Και όσο περισσότερα δείγματα μιας φωνής τροφοδοτούνται στο μοντέλο του υπολογιστή, τόσο ισχυρότερο και πιο «ώριμο» γίνεται το μοντέλο.

Στο εμπόριο, η φωνητική αναγνώριση σχετίζεται περισσότερο με την ανίχνευση απάτης στα τηλεφωνικά κέντρα, την επικοινωνία με τους φωνητικούς βοηθούς όπως η Siri και την επαλήθευση των κωδικών πρόσβασης για τις προσωπικές τραπεζικές συναλλαγές. Και οι χρήσεις της αυξάνονται. Σύμφωνα με την Tractica, μια εταιρεία έρευνας αγοράς, τα έσοδα από τη βιομηχανία των βιομετρικών φωνών είναι έτοιμα να φθάσουν τα 5 δισεκατομμύρια δολάρια ετησίως έως το 2024, με τις εφαρμογές να επεκτείνονται στους συνοριακούς σταθμούς ελέγχου, την υγειονομική περίθαλψη, τις πληρωμές με πιστωτικές κάρτες και τις wearable συσκευές.

Μια μεγάλη ανησυχία των ακτιβιστών για τα πολιτικά δικαιώματα είναι το ενδεχόμενο της αυτολογοκρισίας (chill speech). Ο Trevor Timm, εκτελεστικός διευθυντής του Ιδρύματος Ελευθερίας του Τύπου, επεσήμανε πως η τεχνολογία φωνητικής αναγνώρισης της NSA θα μπορούσε να χρησιμοποιηθεί υποθετικά για την παρακολούθηση δημοσιογράφων, την αποκάλυψη πηγών και την αποθάρρυνση ανώνυμων πληροφοριών. Ενώ οι άνθρωποι που χειρίζονται ευαίσθητα στοιχεία γνωρίζουν ότι πρέπει να κρυπτογραφούν τις τηλεφωνικές κλήσεις τους, ο Timm επεσήμανε τις πολλές οδούς – από τις τηλεοράσεις μέχρι τα ακουστικά και τις συσκευές με σύνδεση στο διαδίκτυο – μέσω των οποίων οι φωνές μπορεί να καταγραφούν λαθραία. «Υπάρχουν παντού τα μικρόφωνα γύρω μας. Όλοι φοράμε ένα μικρόφωνο 24 ώρες την ημέρα, με τη μορφή των κινητών τηλεφώνων μας», δήλωσε ο Timm. «Και γνωρίζουμε ότι υπάρχουν τρόποι η κυβέρνηση να χακάρει τηλέφωνα και υπολογιστές για να τα ενεργοποιήσει».

«Παρά τις πολλές νομοθετικές αλλαγές που συνέβησαν μετά τις αποκαλύψεις του Snowden», συνέχισε, «ο αμερικανικός λαός έχει μόνο μερική κατανόηση των εργαλείων που μπορεί να χρησιμοποιήσει η κυβέρνηση για την επιτήρηση εκατομμυρίων ανθρώπων παγκοσμίως. Είναι σημαντικό αυτές οι πληροφορίες να συζητηθούν δημόσια». Αλλά η συζήτηση είναι δύσκολη, σημείωσε, αν το κοινό δεν έχει κατανοήσει τις χρήσεις της τεχνολογίας – πόσο μάλλον την ύπαρξή της.

Ένας πρώην αξιωματούχος της Στρατιωτικής Υπηρεσίας Πληροφοριών, ο οποίος μίλησε στο The Intercept με την προϋπόθεση της ανωνυμίας του επειδή δεν είχε εξουσιοδότηση να συζητήσει απόρρητα θέματα, πιστεύει το ότι δεν πολυδιαφημίζουν αυτές τις τεχνολογίες δεν συμβαίνει κατά λάθος. «Η κυβέρνηση αποφεύγει να συζητά αυτή την τεχνολογία γιατί εγείρει σοβαρά ερωτήματα που προτιμά να μην απαντήσει», δήλωσε ο αξιωματούχος. «Αυτό είναι ένα κρίσιμο κομμάτι αυτού που έχει συμβεί σε εμάς και τα δικαιώματά μας μετά την 11η Σεπτεμβρίου». Για να λειτουργήσει η τεχνολογία, ο αξιωματούχος σημειώνει, «δεν χρειάζεται να κάνετε τίποτα άλλο παρά να ανοίξετε το στόμα σας».

Όσοι ασκούν αυτή την κριτική φοβούνται ότι χωρίς καμία δημόσια συζήτηση ή επίβλεψη της μυστικής συλλογής των μοτίβων ομιλίας μας από την κυβέρνηση, μπορεί να μπαίνουμε σε έναν κόσμο στον οποίο όλο και περισσότερες φωνές σιωπούν.

Τα νέα φωνητικά εργαλεία

Ενώ οι Αμερικάνοι γνώριζαν από το 2013 για τη μαζική συλλογή εθνικών και διεθνών τηλεφωνικών δεδομένων από την NSA, η διαδικασία με την οποία τα ακατέργαστα δεδομένα μετατρέπονται σε σημαντικές πληροφορίες έχει παραμείνει σε μεγάλο βαθμό απόρρητη. Το 2015, το Intercept ανέφερε ότι η NSA είχε κατασκευάσει μια μια σειρά (σουίτα) λογισμικού «τεχνολογιών ανθρώπινης γλώσσας» για να μπορεί να αξιοποιήσει την τεράστια ποσότητα ηχητικών δεδομένων που συλλέγει η κυβέρνηση. Με τη δημιουργία προγραμμάτων για αυτόματη μετάφραση ομιλίας σε κείμενο – αυτό που οι αναλυτές ονομάζουν «Google for voice» – ο οργανισμός θα μπορούσε να χρησιμοποιήσει λέξεις-κλειδιά και «επιλογείς» για την αναζήτηση, ανάγνωση και ευρετηρίαση ηχογραφήσεων που διαφορετικά θα απαιτούσαν έναν άπειρο αριθμό ανθρώπων για να τις ακούσουν.

Η φωνητική αναγνώριση προέκυψε παράλληλα με αυτά τα προγράμματα speech-to-text ως πρόσθετη τεχνική για να βοηθήσουν τους αναλυτές να διαλέξουν ανάμεσα από τις αμέτρητες ώρες παρακολουθήσεων που μεταδίδονται από εμπόλεμες ζώνες. Μεγάλο μέρος της ανάπτυξης και της αξιοπιστίας της μπορεί να αποδοθεί στις επενδύσεις της NSA και του Υπουργείου Άμυνας. Πριν από την ψηφιακή εποχή, η φωνητική αναγνώριση κυρίως ασκούνταν κατά την εξιχνίαση εγκλημάτων. Κατά τη διάρκεια του Β' Παγκοσμίου Πολέμου, αναλυτές σύγκριναν οπτικές εκτυπώσεις φωνητικών συχνοτήτων από το ραδιόφωνο. Σύμφωνα με τον Harry Hollien, συγγραφέα του «Φωνητική ταυτοποίηση και έγκλημα», αυτά τα μηχανήματα «ορατών ομιλιών», γνωστά ως φασματογράφοι, χρησιμοποιήθηκαν ακόμη και για να διαψεύσουν μια φήμη ότι ο Αδόλφος Χίτλερ είχε δολοφονηθεί και αντικατασταθεί από σωσία.

«Τα φωνητικά αποτυπώματα ήταν κάτι που μπορούσες να κοιτάξεις», εξήγησε ο James Wayman, ένας κορυφαίος εμπειρογνώμονας της φωνητικής αναγνώρισης ο οποίος προεδρεύει των ομοσπονδιακών προσπαθειών να συστηθούν πρότυπα για την δικονομική φωνητική αναγνώριση. Υπογράμμισε ότι ο όρος «φωνητικό αποτύπωμα», αν και χρησιμοποιείται ευρέως, μπορεί να είναι παραπλανητικός, δεδομένου ότι υποδηλώνει ότι οι πληροφορίες που συλλέγονται είναι υλικές και όχι συμπεριφορικές. «Αυτό που έχετε τώρα είναι μια εξίσωση ενσωματωμένη σε ένα πρόγραμμα λογισμικού που εκτοξεύει αριθμούς», είπε.

Αυτές οι εξισώσεις έχουν εξελιχθεί από απλούς μέσους όρους σε δυναμικά αλγοριθμικά μοντέλα. Από το 1996, η NSA έχει χρηματοδοτήσει το Speech Group του Εθνικού Ινστιτούτου Προτύπων και Τεχνολογίας (NIST) για να καλλιεργήσει και να δοκιμάσει αυτό που αποκαλεί «την πιο κυρίαρχη και ελπιδοφόρα αλγοριθμική προσέγγιση στα προβλήματα που αντιμετωπίζει η φωνητική αναγνώριση». Οι συμμετέχοντες που δοκιμάζουν τα συστήματά τους με το NIST περιλαμβάνουν κορυφαίες βιομετρικές εταιρείες και ακαδημαϊκούς, μερικοί από τους οποίους λαμβάνουν χρηματοδότηση από την NSA και την Υπηρεσία Προηγμένων Ερευνητικών Προγραμμάτων για την Άμυνα (DARPA).

Η σιωπή της NSA γύρω από το πρόγραμμα φωνητικής αναγνώρισης καθιστά δύσκολο να προσδιοριστούν οι τρέχουσες δυνατότητές της. Ωστόσο, αν ληφθούν υπόψη οι στενοί δεσμοί μεταξύ ακαδημαϊκής έρευνας που χρηματοδοτείται από την NSA και ιδιωτικών εταιρειών, ένα καλός τρόπος να σκεφτούμε τις δυνατότητες της NSA είναι να δούμε τι κάνουν άλλες χώρες – και τι τους πωλούν οι εταιρείες.

Για παράδειγμα, η Nuance, ηγετική μορφή στον κλάδο, διαφημίζει στις κυβερνήσεις, στις στρατιωτικές υπηρεσίες και στις υπηρεσίες πληροφοριών «ένα βιομετρικό σύστημα φωνής για ολόκληρη τη χώρα, ικανό να εντοπίζει γρήγορα και με ακρίβεια και να ομαδοποιεί άτομα σε συστήματα που περιλαμβάνουν εκατομμύρια φωνητικές αποτυπώσεις». Το 2014, το Associated Press ανέφερε ότι η τεχνολογία της Nuance χρησιμοποιήθηκε από τη μεγαλύτερη εταιρεία κινητής τηλεφωνίας της Τουρκίας για τη συλλογή φωνητικών δεδομένων από περίπου 10 εκατομμύρια πελάτες.

Τον Οκτώβριο, η Human Rights Watch ανέφερε ότι η κινεζική κυβέρνηση έχει δημιουργήσει μια εθνική βάση δεδομένων για φωνητικές αποτυπώσεις, ώστε να μπορεί να εντοπίζει αυτόματα τους ανθρώπους που μιλάνε στο τηλέφωνο. Η κυβέρνηση επιδιώκει να συνδέσει τη βιομετρία της φωνής δεκάδων χιλιάδων ανθρώπων με τον αριθμό ταυτότητάς τους, την εθνικότητα και τη διεύθυνση κατοικίας τους. Σύμφωνα με την HRW, ο προμηθευτής που κατασκευάζει το λογισμικό φωνητικής αναγνώρισης της Κίνας έχει κατοχυρώσει ως πατέντα ένα σύστημα για τον εντοπισμό αρχείων ήχου για «παρακολούθηση της κοινής γνώμης».

Τον Νοέμβριο, μια σημαντική διεθνής προσπάθεια φωνητικής αναγνώρισης που χρηματοδοτήθηκε από την Ευρωπαϊκή Ένωση πέρασε την τελική δοκιμή της, σύμφωνα με δελτίο τύπου της Ιντερπόλ. Περισσότεροι από 100 αναλυτές της υπηρεσίας πληροφοριών, ερευνητές και πράκτορες από περισσότερες από 50 χώρες – μεταξύ αυτών η Ιντερπόλ, η μητροπολιτική αστυνομία του Ηνωμένου Βασιλείου και η πορτογαλική Polícia Judiciária – παρακολούθησαν τη διαδήλωση, όπου οι ερευνητές απέδειξαν ότι το πρόγραμμά τους θα μπορούσε να εντοπίσει «άγνωστους ομιλητές που μιλάνε σε διαφορετικές γλώσσες … μέσω των κοινωνικών μέσων δικτύωσης ή νόμιμα συλλεγμένων ηχητικών δεδομένων».

Έγγραφα της NSA που εξετάστηκαν από το The Intercept σκιαγραφούν τα περιγράμματα ενός παρομοίως επεκτατικού συστήματος – το οποίο, στα χρόνια που ακολούθησαν την 11η Σεπτεμβρίου, αναπτύχθηκε για να επιτρέψει στους «αναλυτές της γλώσσας να κοσκινίζουν εκατοντάδες ώρες φωνητικών κομματιών σε δευτερόλεπτα και να επιλέγουν στοιχεία με δυνητικό ενδιαφέρον βασιζόμενο σε λέξεις-κλειδιά ή την φωνητική αναγνώριση του ομιλητή».

Δραματικά αποτελέσματα

Ένα μέρος του ιστορικού που αφορά την ανάπτυξη της τεχνολογίας της φωνητικής αναγνώρισης της NSA μπορεί να αναπαρασταθεί από τα εσωτερικά ενημερωτικά δελτία του Signals Intelligence Directorate (SID), εδώ και σχεδόν μια δεκαετία. Άλλοτε αλαζονικά και άλλοτε συγκρατημένα, τα υπομνήματα του SIDtoday επεξηγούν τη μεταμόρφωση της φωνητικής αναγνώρισης από μια αμφισβητήσιμη επιστήμη εξιχνίασης εγκλημάτων που τη χειρίζονταν άνθρωποι, σε ένα αυτοματοποιημένο αλγοριθμικό πρόγραμμα που αντλεί πολύτιμα στοιχεία από φωνητικά δεδομένα. Συγκεκριμένα τα υπομνήματα τονίζουν τους τρόπους με τους οποίους οι Αμερικάνοι αναλυτές συνεργάστηκαν στενά με τους Βρετανούς συναδέλφους τους στα Κεντρικά Γραφεία Επικοινωνιών της Κυβέρνησης, ή GCHQ (Goverment Communications Headquarters), για να επεξεργαστούν ογκώδη δεδομένα φωνητικών εγγραφών από αντιτρομοκρατικές επιχειρήσεις στο Ιράκ και Αφγανιστάν. Το GCHQ, το οποίο αρνήθηκε να απαντήσει σε λεπτομερείς ερωτήσεις για αυτό το άρθρο, επαίνεσε τα συστήματά του σε εσωτερικά ενημερωτικά δελτία για «τον σημαντικό ρόλο που έπαιξαν στις σχέσεις μας με την NSA».

Ενώ συχνά μπορεί να είναι δύσκολο να ξεχωρίσουμε τις προγραμματικές ανακοινώσεις της SIDtoday από τις πραγματικές δυνατότητες της τεχνολογίας, είναι ξεκάθαρο ότι η NSA χρησιμοποιεί αυτοματοποιημένη τεχνολογία φωνητικής αναγνώρισης για να εντοπίσει και να χαρακτηρίσει «φωνητικά μηνύματα όπου μιλάει ένας ομιλητής ενδιαφέροντος» τουλάχιστον από το 2003. Κάθε φορά που υποκλέπτονταν μια φωνή, εξηγεί ένα υπόμνημα, η τεχνολογία φωνητικής αναγνώρισης μπορούσε να τη μοντελοποιήσει και να τη συγκρίνει  με άλλες για να απαντήσει στο ερώτημα: «Είναι αυτός ο τρομοκράτης που ακολουθούμε; Είναι ο Usama Bin Landen;»

Αλλά το σύστημα της NSA έκανε πολύ περισσότερα από το να απαντά σε ερωτήσεις ναι ή όχι. Σε μια σειρά από ενημερωτικά δελτία από το 2006 που φέρνουν στο φως ένα πρόγραμμα που λέγεται Φωνή σε Πραγματικό Χρόνο (Voice in Real Time), ή Voice RT, η υπηρεσία περιγράφει την ικανότητα να αναγνωριστεί αυτόματα όχι μόνο ο ομιλητής σε μια υποκλοπή φωνής, αλλά και η γλώσσα του, το φύλο και η διάλεκτός του. Οι αναλυτές μπορούσαν να ταξινομήσουν υποκλοπές υπό αυτές τις κατηγορίες, να τις ψάξουν για λέξεις-κλειδιά σε πραγματικό χρόνο και να εγκαταστήσουν ειδοποιήσεις που θα τους ενημέρωναν όταν οι εισερχόμενες υποκλοπές ανταποκρίνονταν σε συγκεκριμένα προκαθορισμένα κριτήρια. Μια παρουσίαση της NSA επιβεβαιώνει επιπλέον ότι το πρόγραμμα Voice RT μετέτρεψε την «κατανάλωση» Ιρακινών φωνητικών δεδομένων σε φωνητικά αποτυπώματα.

Τα υπομνήματα της NSA που δόθηκαν στη δημοσιότητα από τον Snowden δεν υποδεικνύουν πόσο ευρέως χρησιμοποιήθηκε το Voice RT εκείνη την περίοδο, αλλά τα πρακτικά από το Voice/Fax User Group του GCHQ το κάνουν. Σημειώσεις από Βρετανούς πράκτορες παρέχουν μια λεπτομερή καταγραφή του πώς το πρόγραμμα φωνητικής αναγνώρισης της NSA χρησιμοποιήθηκε εναντίον ξένων στόχων. Όταν το Voice/Fax User Group συναντήθηκε με πράκτορες της NSA το φθινόπωρο του 2007, τα μέλη του περιέγραψαν πως είδαν ένα ενεργό Voice RT σύστημα να παρέχει στους γλωσσολόγους και αναλυτές της NSA ταυτοποίηση φωνής και γλώσσας, εξαγωγή ομιλίας σε κείμενο και φωνητικές ικανότητες αναζήτησης. «Ουσιαστικά,» λένε τα πρακτικά για το Voice RT, «είναι ένα σύστημα που παρέχει όλες τις απαραίτητες υπηρεσίες. … μια τεράστια προσπάθεια έχει επεκταθεί για να βελτιωθεί η εφαρμοσιμότητα του συστήματος». Μέχρι το 2010, το Voice RT της NSA μπορούσε να επεξεργαστεί καταγραφές σε πάνω από 25 γλώσσες. Και το έκανε: Στο Αφγανιστάν, η NSA ταίριαξε φωνητικούς αναλυτές με λογισμικό χαρτογράφησης για να εντοπίσει συμπλέγματα κεραιών κινητής τηλεφωνίας όπου ομιλούνταν Αραβικά – μια τεχνική που φαίνεται να τους οδήγησε στην ανακάλυψη νέων στρατοπέδων εκπαίδευσης της Al-Qaeda.

To GCHQ, από την πλευρά του, χρησιμοποίησε ένα πρόγραμμα που ονομάζεται Broad Oak, μεταξύ άλλων, για να αναγνωρίσει στόχους βασιζόμενο στις φωνές τους. Η βρετανική κυβέρνηση εγκατέστησε συστήματα φωνητικής αναγνώρισης στη Μέση Ανατολή εναντίον Σαουδικών, Πακιστανών, Γεωργιανών και Ιρακινών ηγετών, μεταξύ άλλων. «Σοβαρά πάντως», συμβουλεύουν τα πρακτικά του GCHQ, «αν πιστεύετε πως μπορούμε να σας βοηθήσουμε με την ταυτοποίηση στόχων ενδιαφέροντος μεταξύ του κατακλυσμού πληροφοριών μέσα από τον οποίο πρέπει να προχωρήσετε, μη διστάσετε να μας προσεγγίσετε και θα συζητήσουμε ευχαρίστως τις απαιτήσεις σας και ελπίζουμε πως θα προσφέρουμε μια γρήγορη και ταιριαστή λύση».

Δεν ήταν μια προσφορά άνευ νοήματος. Πρακτικά από το 2009 υπερηφανεύονται για την καλύτερη επίδοση των πρακτόρων του GCHQ έναντι αυτής των συναδέλφων τους στην NSA, όταν είχαν ως στόχο τον Adil Abdul Mahdi, έναν από τους αντιπροέδρους του Ιράκ εκείνη την περίοδο. «Από τη στιγμή που συνεχώς τον παρακολουθούμε [τον αντιπρόεδρο] γρηγορότερα από αυτούς, η NSA έχει σταματήσει την ανάμειξή της. Αυτή η καλή επίδοση έχει ενισχύσει την φήμη μας στην NSA». Και μια σύνοψη ερευνών του GCHQ από το 2010 δείχνει τις δύο υπηρεσίες να συνεργάζονται για τη διεξαγωγή κοινών πειραμάτων με τα προγράμματα ανάλυσης φωνής τους.

Αλλά η ανάπτυξη εργαλείων για τη φωνητική αναγνώριση δεν έγινε αβίαστα. Στα πρώτα της στάδια, η τεχνολογία δεν ήταν σε καμία περίπτωση τόσο ισχυρή και αποτελεσματική όσο είναι σήμερα. Ο πρώην αξιωματούχος πληροφοριών άμυνας θυμάται πως, ενώ οι αναλυτές ήταν ικανοί να αναπαράγουν δείγματα φωνής στους χώρους εργασίας τους, η αναζήτηση ενός σημαντικού δείγματος ήταν πρόκληση, αφού ο ήχος δεν ήταν ευρετηριασμένος. Σε μια επιστολή του 2006 προς τον συντάκτη, δημοσιευμένη στο SIDtoday, ένας αναλυτής παραπονιέται για τα νέα φωνητικά εργαλεία που «μαστίζονται από προβλήματα λογισμικού» και συγκρίνει την αρχική τους ταχύτητα με χελώνα.

Μέχρι τον επόμενο χρόνο όμως, ήταν ξεκάθαρο πως η φωνητική αναγνώριση είχε ωριμάσει σημαντικά. Ένα υπόμνημα που γιόρταζε την ειδική συλλογή της NSA για το ταξίδι στην Νέα Υόρκη του τότε προέδρου του Ιράν Mahmoud Ahmadinejad σχετικά με τη Γενική Συνέλευση των Ηνωμένων Εθνών παρέχει μια λεπτομερή μελέτη της τεχνολογίας εν δράσει. Αφού απέκτησαν τη νομική εξουσιοδότηση, οι αναλυτές σχεδίασαν ένα ειδικό σύστημα για να στοχεύσουν τα τηλέφωνα για όσους από τους 143 Ιρανούς εκπροσώπους ήταν εφικτό. Από όλην αυτήν την εισερχόμενη κίνηση, έτρεξαν αλγόριθμους ομιλητικής δραστηριότητας ώστε να αποφεύγουν οι αναλυτές να ακούνε άχρηστα μέρη των συνομιλιών, αναζητήσεις λέξεων κλειδιών για να ξεσκεπάσουν το «πέρασμα ηλεκτρονικών διευθύνσεων και συζητήσεις σημαντικών ατόμων» και φωνητική αναγνώριση για τον επιτυχή εντοπισμό συζητήσεων «ανθρώπων σημαντικού ενδιαφέροντος, συμπεριλαμβανομένου και του Ιρανού Υπουργού Εξωτερικών».

Σε μια ανακοίνωση για ένα καινούριο εγκληματολογικό εργαστήριο ήχου της NSA που άνοιξε στην Georgia εκείνο το έτος, η υπηρεσία σημειώνει σχέδια για να κάνει αυτές τις τεχνολογίες ομιλίας διαθέσιμες σε περισσότερους αναλυτές κατά μήκος της υπηρεσίας. Και ένα υπόμνημα του SIDtoday από το ακόλουθο έτος ανέφερε αναβαθμίσεις του συστήματος που θα επέτρεπαν στους αναλυτές «να βρουν καινούρια αποσπάσματα φωνής για έναν στόχο που ταιριάζουν με τις παλαιότερες ηχογραφήσεις του».

Όταν οι στόχοι ανέπτυξαν στρατηγικές για να αποφύγουν τις τεχνολογίες φωνητικής αναγνώρισης, τα εργαλεία εξελίχθηκαν και αυτά ως ανταπάντηση. Το 2007, αναλυτές παρατήρησαν ότι οι συχνότητες υποκλοπών δύο στόχων που είχαν ταυτοποιήσει σαν συνεργάτες της Al-Qaeda ήταν πέρα από τις συνηθισμένες φωνητικές εμβέλειες του ανθρώπου. Κατά την διάρκεια των επόμενων χρόνων, οι αναλυτές εντόπισαν και άλλους στόχους που τροποποιούσαν την φωνή τους στην Υεμένη, στο Ιράκ, στο Αφγανιστάν και αλλού, «πιθανόν για να αποφύγουν την ταυτοποίηση από υπηρεσίες πληροφοριών». Κάποια από τα ηχητικά αποσπάσματα που παρατήρησαν άλλαζαν τόσο πολύ τους φωνητικούς τόνους του ομιλητή που τον έκανα να ακούγεται σαν έναν χαρακτήρα από το «Ο Άλβιν και η παρέα του». Αυτό οδήγησε τους αναλυτές στην υπόθεση πως μέλη της AQAP που αναμείχθηκαν στην βομβιστική επίθεση το 2009 στο Detroit είχαν αποφύγει την αναγνώριση από την κυβέρνηση με το να κρύβουν τη φωνή τους σε νέα τηλεφωνικά νούμερα.

Μέχρι το 2010, τεχνικοί της υπηρεσίας είχαν αναπτύξει μια λύση για το «ξεσκέπασμα» αυτών των τροποποιημένων φωνών. Το HLT Lite, το καινούργιο λογισμικό έψαχνε για ηχογραφήσεις τροποποιημένων ή ανώμαλων φωνών. Σύμφωνα με το SIDtoday το πρόγραμμα βρήκε τουλάχιστον 80 παραδείγματα τροποποιημένων φωνών στην Υεμένη μετά την σάρωση 1 εκατομμυρίου ηχογραφήσεων. Αυτό αναφέρεται πως οδήγησε τους πράκτορες στο ξεσκέπασμα ανθρώπων ενδιαφέροντος που μιλούσαν από διάφορους καινούργιους αριθμούς τηλεφώνων.

Όσο οι τεχνικές ικανότητες των συστημάτων αυτών διευρύνονταν, άλλο τόσο διευρυνόταν και το πεδίο ισχύος τους. Ένα ενημερωτικό δελτίο από τον Σεπτέμβρη του 2010 περιγράφει «δραματικά» αποτελέσματα από ένα αναβαθμισμένο σύστημα φωνητικής αναγνώρισης στην πόλη του Μεξικού – βελτιώσεις τις οποίες ο επικεφαλής σύγκρινε με «ένα επιτελείο επιπλέον ανιχνευτών». Οι αναλυτές ήταν σε θέση να απομονώσουν και να εντοπίσουν μια συζήτηση σχετιζόμενη με βομβιστική απειλή ψάχνοντας ανάμεσα σε ηχητικές υποκλοπές για τη λέξη «bomba».

Τα συστήματα φωνητικής αναγνώρισης μπορούσαν επίσης εύκολα να επαναρρυθμιστούν για χρήσεις πέραν των πρωτότυπων λειτουργιών τους. Το GCHQ ουσιαστικά από τον Οκτώβρη του 2008 περιγράφει πώς ένα σύστημα εγκατεστημένο για να παγιδεύσει «ένα δίκτυο ατόμων που βρίσκονται ψηλά στην ιεραρχία στο Αφγανικό εμπόριο ναρκωτικών» αργότερα «χρησιμοποιήθηκε με δημιουργικό τρόπο». Με σκοπό να αναγνωρίσουν ακόμα περισσότερους στόχους, οι αναλυτές έβαζαν το σύστημα να λειτουργήσει «σε μια ευρεία περιοχή που προσελκύει μεγάλη ποσότητα κίνησης δεδομένων».

Από το πεδίο μάχης μέχρι την NSA

Η NSA συνειδητοποίησε σύντομα ότι η ικανότητά της να επεξεργάζεται φωνητικές εγγραφές θα μπορούσε να χρησιμοποιηθεί για τον εντοπισμό υπαλλήλων μέσα στην ίδια την NSA. Όπως εξήγησε το σημείωμα του Ιανουαρίου 2006 που συζήτησε την ηχογράφηση του Ronald Pelton, «οι τεχνολογίες αντιστοίχισης φωνής εφαρμόζονται στην αναδυόμενη πρωτοβουλία Εσωτερικής Απειλής, μια προσπάθεια να πιάσουμε τον «κατάσκοπο μεταξύ μας».

Η πρωτοβουλία Εσωτερικής Απειλής, η οποία παρακολουθεί στενά τη ζωή των κυβερνητικών υπαλλήλων, εγκαινιάστηκε δημοσίως από τη διοίκηση του Obama, μετά τις διαρροές της whistleblower του στρατού των ΗΠΑ Chelsea Manning. Ωστόσο, το έγγραφο αυτό δείχνει ότι η πρωτοβουλία ξεκίνησε πριν από την εκτελεστική εντολή του Ομπάμα το 2011.

Δεν προκαλεί έκπληξη το γεγονός ότι η NSA ενδέχεται να μετατρέψει τις ίδιες βιομετρικές τεχνολογίες που χρησιμοποιούνται για την ανίχνευση εξωτερικών απειλών σε διαφωνούντες μέσα στις τάξεις της, σύμφωνα με τον Trevor Timm του Ιδρύματος Freedom of the Press. «Έχουμε δει σε πολλαπλά παραδείγματα τα τελευταία 15 χρόνια την αστυνομία να παίρνει εργαλεία κατά της τρομοκρατίας – είτε πρόκειται για εντοπισμό θέσης, είτε για αναγνώριση προσώπου, είτε για την τεχνολογία που χρησιμοποιείται για τη φωνητική αναγνώριση των ανθρώπων – και να τα χρησιμοποιεί για άλλες ποινικές έρευνες».

Ο Timm σημείωσε ότι τα τελευταία χρόνια οι καταγγέλλοντες, οι πηγές και οι δημοσιογράφοι, έλαβαν μεγαλύτερες προφυλάξεις για να αποφύγουν να εκτεθούν Όμως, «αν οι δημοσιογράφοι χρησιμοποιούν τηλεφωνικούς αριθμούς που δεν συνδέονται με την ταυτότητά τους και η κυβέρνηση ερευνά τις τηλεφωνικές τους κλήσεις μέσω εντάλματος ή με άλλο τρόπο, η τεχνολογία θα μπορούσε επίσης να χρησιμοποιηθεί για να καταστείλει την δημοσιογραφία».

Για τον Timothy Edgar, ο οποίος εργάστηκε ως πρώτος αναπληρωτής της κοινότητας μυστικών πληροφοριών για τις πολιτικές ελευθερίες, οι κίνδυνοι αυτοί «καταλήγουν στο ερώτημα: Ψάχνουν για έγκυρους στόχους ή κάνουν κάτι καταχρηστικό, όπως να προσπαθούν να παρακολουθήσουν δημοσιογράφους ή whistleblowers;»

Σε ορισμένα σημεία, δήλωσε ο Edgar, η φωνητική αναγνώριση μπορεί να βοηθήσει στην προστασία της ιδιωτικής ζωής. Η τεχνολογία επιτρέπει στους αναλυτές να επιλέγουν και να φιλτράρουν τις κλήσεις έτσι ώστε να μπορούν να στοχεύσουν σε ένα άτομο ενδιαφέροντος μέσω της φωνής του και να αποκλείσουν τα υπόλοιπα. Ένα σημείωμα της SIDtoday του 2010 υπογραμμίζει τον τρόπο με τον οποίο η τεχνολογία αυτή μπορεί να μειώσει τον όγκο των κλήσεων που χρειάζεται οι πράκτορες να ακούσουν, εξασφαλίζοντας ότι «ο ομιλητής είναι Κινέζος ηγέτης και όχι ένας εργαζόμενος σε κατάστημα ντόνατς».

Αυτό το επίπεδο ακρίβειας είναι «στην πραγματικότητα μία από τις δικαιολογίες που έδωσε η NSA για την μαζική συλλογή των μεταδεδομένων», εξήγησε ο Edgar. «Ένας από τους τρόπους που υπερασπιζόταν το πρόγραμμα ήταν ότι δεν συνέλεγε τα πάντα. Αντίθετα, συγκέντρωνε πληροφορίες μέσω προεπιλογής.»

Ταυτόχρονα, ο ίδιος ο στόχος της αναγνώρισης συγκεκριμένων ατόμων από μεγάλα μοντέλα δεδομένων συχνά δικαιολογεί την ανάγκη να συνεχίσουν να συλλέγονται ακόμη περισσότερα. Ενώ η φωνητική αναγνώριση μπορεί να βοηθήσει τους αναλυτές να περιορίσουν τις κλήσεις που ακούν, η τεχνολογία φαίνεται να τους ενθαρρύνει να σαρώνουν όλο και μεγαλύτερο αριθμό κλήσεων, καθώς σκοπός τους είναι να βρουν κάθε άκουσμα της φωνής ενός στόχου, ανεξάρτητα από τον αριθμό τηλεφώνου που χρησιμοποιείται. Ή, όπως το θέτει το σημείωμα Pelton, η τεχνολογία δίνει στους αναλυτές τη δυνατότητα να «αναγνωρίζουν μια φωνή οπουδήποτε».

Ενώ τα έγγραφα αυτά υποδεικνύουν ότι η NSA επιδίωξε να εφαρμόσει την τεχνολογία στους υπαλλήλους της, τα έγγραφα που εξετάστηκαν από το The Intercept δεν αναφέρουν ρητά αν ο οργανισμός έχει δημιουργήσει φωνητικές αποτυπώσεις από τις συνομιλίες των απλών πολιτών των ΗΠΑ.

Ο νόμος περί επιτήρησης των αλλοδαπών πληροφοριών (FISA), παρέχει στην NSA ευρύ περιθώριο να συλλέγει ήχο που μεταδίδεται μέσω ξένων διακομιστών, ξένων υποδομών ή από Αμερικανούς που επικοινωνούν με αλλοδαπούς. Λόγω αυτής της εντολής, ο Edgar θεωρεί «πολύ πιθανό» οι φωνητικές αποτυπώσεις να γίνονται από κλήσεις στο εξωτερικό. «Θα με εξέπληττε αν δεν αντλήσουν όλες τις πληροφορίες που μπορούν από αυτά τα δεδομένα. Είναι κατά κάποιο τρόπο η δουλειά τους.»

Ωστόσο, οι ειδικοί διαφωνούν έντονα για το κατά πόσον η NSA θα διεκδικήσει τη νομική εξουσία να κάνει φωνητικές αποτυπώσεις από τις κλήσεις Αμερικανών πολιτών σε αμερικανικό έδαφος, των οποίων οι φωνές θα μπορούσαν σκόπιμα ή τυχαία να υποκλαπούν χωρίς ένταλμα. Μέρος αυτής της διαφωνίας απορρέει από την ανεπάρκεια του νόμου περί επιτήρησης, ο οποίος δεν συμβαδίζει με την πρόοδο των ψηφιακών τεχνολογιών, όπως η φωνητική αναγνώριση.

Ενώ οι ΗΠΑ έχουν αναπτύξει αυστηρούς νόμους για να απαγορεύσουν την καταγραφή του περιεχομένου των κλήσεων σε αμερικανικό έδαφος χωρίς ένταλμα, κανένα ομοσπονδιακό καταστατικό δεν διέπει τη συγκομιδή και επεξεργασία δεδομένων φωνής.

Εν μέρει, εξαρτάται αν τα φωνητικά αποτυπώματα θεωρούνται στοιχεία, τα οποία η κυβέρνηση θα χρειαστεί ένταλμα για να τα λάβει ή εάν η NSA θεωρεί τα φωνητικά αποτυπώματα ως μεταδεδομένα – δηλαδή, πληροφορίες σχετικά με το περιεχόμενο, που υπόκεινται σε πιο περιορισμένη νομική προστασία. Ο νόμος σιωπά σε μεγάλο βαθμό σχετικά με αυτό το ζήτημα, οδηγώντας μερικούς ειδικούς στο να υποθέτουν ότι η NSA εκμεταλλεύεται αυτή τη νομική γκρίζα ζώνη.

Σε απάντηση σε λεπτομερή λίστα ερωτήσεων, η NSA παρείχε την ακόλουθη απάντηση: «Σύμφωνα με μακροχρόνια πολιτική, η NSA δεν θα επιβεβαιώσει ούτε θα αρνηθεί την ακρίβεια των υποτιθέμενων κυβερνητικών πληροφοριών των ΗΠΑ που αναφέρονται στο άρθρο.”

Η προσέγγιση του «Πλήρους Οπλοστασίου»

Την Πέμπτη 18 Ιανουαρίου του 2018 η Γερουσία ψήφισε την επέκταση του κεφαλαίου 702 του νόμου περί Επιτήρησης Ξένων Υπηρεσιών Πληροφοριών (FISA), το οποίο δίνει τη δυνατότητα στην NSA να κατασκοπεύει χωρίς ένταλμα Αμερικανούς που είναι σε επικοινωνία με ξένους στόχους. Αυτή η επανεξουσιοδότηση, που έπεται παρόμοιας ενέργειας του Λευκού Οίκου την περασμένη εβδομάδα, επιβεβαιώνει τις κριτικές που βλέπουν την NSA να υιοθετεί μια ολοένα και πιο δυναμική και διφορούμενη ερμηνεία των νομικών της εξουσιών.

Ο Andrew Clement, ένας ειδικός στην επιστήμη της Πληροφορικής και εξειδικευμένος στον τομέα της Παρακολούθησης, χαρτογραφεί τις χωρίς ένταλμα υποκλοπές της NSA ήδη πριν από τις αποκαλύψεις του Snowden. Πιστεύει ακράδαντα ότι η υπηρεσία δε θα περιοριστεί στη χρήση φωνητικής αναγνώρισης σε Αμερικανούς πολίτες. Εξηγεί ότι η υπηρεσία έχει επιλέξει συχνά να κατηγοριοποιεί όλες τις πληροφορίες ως μετα-δεδομένα, έως ότου ένας αναλυτής τις ακούσει ή τις διαβάσει. «Αυτό είναι μόνο ένα παραθυράκι», λέει. Φαίνεται ότι οποιαδήποτε πληροφορία μπορούν να χρησιμοποιήσουν για να εξάγουν αλγοριθμικά από το περιεχόμενο, την κατηγοριοποιούν απλά ως μετα-δεδομένο».  

Ως μια αναλογία στο πώς η NSA μπορεί να δικαιολογήσει τη δημιουργία φωνητικών αποτυπωμάτων, ο Clement επεσήμανε τους τρόπους με τους οποίους η υπηρεσία χρησιμοποίησε αριθμούς τηλεφώνου και ηλεκτρονικές διευθύνσεις. Το πρόγραμμα XKeyscore program, το οποίο αποκάλυψε ο Snowden το 2013, επέτρεπε στους πράκτορες να αποσπούν ηλεκτρονικές διευθύνσεις – που είχαν κατηγοριοποιήσει ως μετα-δεδομένα – από το περιεχόμενο υποκλαπέντων e-mail. Οι πράκτορες επίσης έκαναν αναζητήσεις λέξεων-κλειδιών σε όλη την έκταση του κειμένου, τις οποίες κατηγοριοποιούσαν με παρόμοιο τρόπο ως συμφραζόμενα παρά ως περιεχόμενο.  

Ο Edgar, από την άλλη πλευρά, λέει ότι θα μείνει έκπληκτος αν η κυβέρνηση επιχειρούσε να υποστηρίξει ότι οι φωνές μας θεωρούνται μεταδεδομένα. «Θα μπορούσατε να προσπαθήσετε να υποστηρίξετε ότι τα χαρακτηριστικά μιας φωνής είναι κάτι διαφορετικό από το τι λέει ένας άνθρωπος», δήλωσε ο Edgar, «Αλλά για να γίνει φωνητική αναγνώριση, θα πρέπει ακόμα να συλλέξετε το περιεχόμενο μιας κλήσης και να την αναλύσετε προκειμένου για να αποσπάσετε τη φωνή.»

Δεν είναι δημόσια γνωστό πόσες εγχώριες επικοινωνίες έχουν συγκεντρωθεί, δειγματοληφθεί ή διατηρηθεί από την NSA. Αλλά ο Jamie Williams του EFF επεσήμανε ότι η NSA δεν θα έπρεπε απαραίτητα να συλλέγει ηχογραφήσεις Αμερικανών για να κάνει αμερικανικά φωνητικά αποτυπώματα, καθώς οι ιδιωτικές εταιρείες μάς καταγράφουν συνεχώς. Οι πηγές ήχου τους μόνο αυξάνονται. Τα αυτοκίνητα, οι θερμοστάτες, τα ψυγεία, οι λαμπτήρες, ακόμη και τα δοχεία απορριμμάτων έχουν μετατραπεί σε «έξυπνες» (δηλαδή, εξοπλισμένες με σύνδεση στο διαδίκτυο) συσκευές ακρόασης. Η ομάδα έρευνας καταναλωτών Gartner προέβλεψε ότι το ένα τρίτο των αλληλεπιδράσεών μας με την τεχνολογία φέτος θα πραγματοποιηθεί μέσω συνομιλιών με φωνητικά συστήματα. Τόσο οι «έξυπνοι ομιλητές» της Google όσο και της Amazon έχουν εισαγάγει πρόσφατα συστήματα φωνητικής αναγνώρισης που διακρίνουν τις φωνές των μελών της οικογένειας. «Μόλις οι εταιρείες το έχουν», είπε ο Williams, «οι διωκτικές αρχές, θεωρητικά, θα είναι σε θέση να το πάρουν, εφ' όσον ακολουθήσουν μια έγκυρη νομική διαδικασία».

Ο πρώην κυβερνητικός αξιωματούχος σημείωσε ότι τα ακατέργαστα φωνητικά δεδομένα θα μπορούσαν να αποθηκευτούν από ιδιωτικές εταιρείες και να έχει πρόσβαση σε αυτά η NSA μέσω μυστικών συμφωνιών, όπως το πρόγραμμα Fairview, η συνεργασία, δηλαδή του οργανισμού με την AT&T. Παρά τις προσπάθειες του Κογκρέσου να ελέγξει τη συλλογή των εγχώριων τηλεφωνικών εγγραφών της NSA, ο οργανισμός έχει από καιρό επιδιώξει να έχει πρόσβαση στα ακατέργαστα δεδομένα που προσφέρουμε στις εταιρικές βάσεις δεδομένων. (Οι συνεργασίες με τη Verizon και την AT&T, η διείσδυση στα συστήματα παιχνιδιών του Xbox και η συγκαλυμμένη συλλογή των online μεταδεδομένων εκατομμυρίων χρηστών του διαδικτύου είναι μερικά μόνο πρόσφατα παραδείγματα.) «Οι εταιρείες τηλεπικοινωνιών κατέχουν τα δεδομένα. Δεν υπάρχει τίποτα που να τους εμποδίζει να εκτελέσουν έναν αλγόριθμο,» δήλωσε ο πρώην αξιωματούχος.

Ο Clement αναρωτιέται αν η ικανότητα της NSA να εντοπίσει μια φωνή μπορεί να είναι ακόμη πιο σημαντική για αυτούς από την ικανότητα να ακούει τι λέει. «Τους επιτρέπει να σας συνδέουν με άλλες στιγμές της ζωής σας και να προσδιορίσουν τη σχέση σας με άλλους ανθρώπους», δήλωσε.

Αυτό φαίνεται να είναι ο τελικός στόχος της NSA. Σε μια διάσκεψη του 2010 – η οποία χαρακτηρίστηκε ως «μια άνευ προηγουμένου ευκαιρία να κατανοήσουμε πώς η NSA φέρνει όλες τις δημιουργικές της ενέργειες στην ανίχνευση ενός ατόμου» – οι κορυφαίοι διευθυντές μίλησαν για το πώς θα υιοθετήσουν μια στρατηγική «ολόκληρης ζωής» για τους στόχους τους. Περιέγραψαν την ανάγκη ενσωμάτωσης βιομετρικών δεδομένων, όπως φωνητικών αποτυπωμάτων, με βιογραφικές πληροφορίες, όπως τα κοινωνικά δίκτυα και το προσωπικό ιστορικό. Σύμφωνα με τα λόγια του ίδιου του οργανισμού, «Το θέμα είναι να εντοπίσουμε, να καταγράψουμε και να διατηρήσουμε μια συνέχεια των ατόμων στον χώρο και το χρόνο. Δεν στοχεύουμε μόνο στους παραδοσιακούς τρόπους επικοινωνίας – Προσεγγίζουμε ένα «πλήρες οπλοστάσιο».

Η μετάφραση έγινε συλλογικά από μέλη της πλατφόρμας των 1101.