Spamfilter
Übersicht
zuletzt besuchte Definitionen...
1. Begriff: Als Spam (engl. Abfall) werden unerwünschte, i.d.R. auf elektronischem Weg übertragene Nachrichten bezeichnet, die dem Empfänger unverlangt zugestellt werden und häufig Werbung zum Inhalt haben. Dieser Vorgang wird Spamming oder Spammen und der Verursacher Spammer genannt. Ein Spamfilter (Werbefilter) ist ein Computerprogramm bzw. Modul eines Programms zum Filtern von unerwünschter elektronischer Werbung.
2. Verwendung: Klassischer Einsatzbereich ist das Filtern unerwünschter E-Mails als Modul eines E-Mail-Programms oder auch eines Mail-Servers. Neuere Anwendungen von Bedeutung sind das Filtern von Seiten im Webbrowser auf Werbebanner, für Blogs (Blogspam) oder für Wikis.
3. Methoden von Spamfiltern: a) Blacklist-Methode: Diese Methode überprüft den Inhalt der E-Mail nach bestimmten Ausdrücken bzw. Stichworten oder den Absender auf Einträge aus einer schwarzen Liste (Blacklist). Ist der Ausdruck in der E-Mail enthalten, wird die E-Mail aussortiert. Viele Spamfilter enthalten bereits voreingestellte Blacklists. Es kommt vor, dass Spam als „gute E-Mail“ und „gute E-Mails“ als Spam einsortiert werden können.
b) Bayes-Filter-Methode: Hier wird ein selbstlernender Bayesscher Filter aufgrund der Bayesschen Wahrscheinlichkeitstheorie verwendet. Der Benutzer muss etwa die ersten 1.000 E-Mails manuell als Spam oder Nichtspam klassifizieren. Danach erkennt das System fast selbstständig mit einer Trefferquote von i.d.R. über 95 Prozent die Spam-E-Mail. Vom System fehlerhaft einsortierte E-Mails muss der Anwender manuell nachsortieren. Diese Methode ist der Blacklist-Methode meistens deutlich überlegen.
c) Datenbankbasierte Lösungen: Sie versuchen, Spam aufgrund der in der Mail beworbenen URLs (und ggf. Telefonnummern) zu erkennen. Zwar können die Spammer Nachrichten beliebig modifizieren und personalisieren, aber da der/ die Täter den Benutzer zu einer Kontaktaufnahme verleiten will/ wollen, und der mögliche Adressraum nicht unbegrenzt variabel ist, ermöglicht dieser Ansatz eine theoretisch sehr gute Erkennung.