1

주제: 베이지언 스팸 필터링

Bayesian (베이지언) 스팸 필터링 기능을 제안합니다.

혹시 이미 있는 기능이라면 죄송합니다. 친구가 하도 스팸으로 고생을 해서요.. 아마 이 기능이 없어서 고생하는 것이리라 생각해서 제안해봅니다.

베이지언 필터(소위 학습형 스팸 필터)의 추가를 검토해주시면 감사하겠습니다.

참고 링크: http://www.paulgraham.com/spam.html

검은해 (2008-03-17 22:53:54)에 의해 마지막으로 수정

2

답글: 베이지언 스팸 필터링

친구분의 블로그를 알려주시죠. 확인좀 해 볼것들이 있습니다.

3

답글: 베이지언 스팸 필터링

겐도님이 가장 잘 아시겠지만.. 이올린 스팸 필터가 아마 내부적으로 여러 가지(?) 방법을 혼합해서 사용하지 않나 싶군요.;
베이시안 필터를 쓴다고 해도 정상적인 댓글·트랙백의 내용을 섞어서 스팸을 보내는 경우는 잡아내지 못하는 경우가 많습니다. 최근의 스팸 폭격 사건도 그러한 예라고 볼 수 있겠죠.

겐도님께서 어떤 생각을 하고 계시는지는 모르겠지만, 댓글이나 트랙백의 내용에만 기반한 것이 아니라, 비슷한 어휘의 반복 여부, 뉴럴네트워크 등을 이용한 번역문인지 여부의 판단 결과 등 다양한 파라메터들을 기반으로 필터링 알고리즘을 강화(...이미 그렇다면 어쩔 수 없고...)했으면 좋겠다는 생각이 들더군요..;

문제의 답은 우리 안에 있다.
내면에 귀를 기울여 보자.

4

답글: 베이지언 스팸 필터링

디텍션 시스템에서 중요한 것은 미탐도 있지만 오탐도 중요하다는 것입니다.

전에 어떤 블로그에서 sex란 단어를 금칙어로 써라라고 글을 쓰셨는데 제가 가서 sexy란 단어가 포함된 도메인을 쓰는 사람이 많다고 지적한 적이 있습니다. 스팸보다도 일반인의 댓글이 더 스팸처럼 보이는 경우가 많습니다. (뭐 실제로 까페나 홈피 방문해 주세요라고 실컷 스팸 날리고는 스팸 날린적도 없는데 왠 차단이냐고 항의하시는 분들도 꽤 되시지만.)

저도 몇가지 준비하는 것도 있습니다만 이 분야로 챌린징 하고 있는 전문가 분들도 몇 계시고... 아무튼 많은 아이디어와 실험 결과들은 계속 보고 있고 바라고 있습니다.

다만 여러 알고리즘을 직렬로 연결하는 것은 큰 문제가 있습니다. 최대한 간단해야 합니다. 그래서 더 어렵더군요.