1

주제: 공용 스팸 필터 데이터베이스 구축

이런것을 collective antispam filter 라고도 할수 있으려나요.
이전부터 준비해오던것이 그럭저럭 구조가 갖춰져서 공개하여 참여를 받고 있습니다.

명백히 스팸이라고 볼 수 있는 단어, IP, URL 등을 공용DB화해서 이것을 XML 데이터로 배포하려 합니다.
태터툴즈에서 이것을 플러그인으로든 내부 라이브러리로든 활용할 수 있으리라 생각하며,
꼭 태터가 아니더라도 이 파일을 Parse 하기에 따라 다른 프로그램에서도 얼마든지 활용할 수 있으리라 기대합니다 (e.g. zb5, mt, etc)

http://innori.com/antispam/

바이러스나 웜에 대한 정보를 공유하는 것 처럼, 스패머들의 패턴도 공유하면 훨씬 효율적으로 대응할 수 있겠지요.
의견은 언제나 환영입니다 wink

2

답글: 공용 스팸 필터 데이터베이스 구축

지금 관련해서 1.0.5에서 작동하도록 만드신 플러그인이 있나요?

보자마자 바로 만들어볼까 하다가 위의 페이지에 가보니 플러그인 링크도 있고 그래서 일단 잠시 멈췄습니다 ^^

"Everything looks different on the other side."

-Ian Malcomm, from Michael Crichton's 'The Jurassic Park'

3

답글: 공용 스팸 필터 데이터베이스 구축

아뇨, 아직 만들지는 않았습니다. 링크라기보다는 플러그인을 만들어 사용할까 하는 '예정'정도지요 wink

4

답글: 공용 스팸 필터 데이터베이스 구축

악성코드 제거프로그램처럼 패턴을 등록하는 건가요? 괜찮은 생각인거 같네요. smile
근데 일일이 다운을 받게하는 것보다는 open api로 제공하는 쪽이 좋지 않을까요?(서버부하는..;; )
주기적으로 업데이트하는 것도 일이될거 같아서요.

그리고 내용 패턴을 등록하는 부분은 정규식으로 바꾸는 쪽이 좋을거 같다는 생각이 드네요.
등록해놓으신 단어들 중 일부는 무조건 스팸이라고 보기에는 무리인것들도 좀 있는거 같아서요.
뭐 정규식이라고 만능인건 아니겠지만..;;

5

답글: 공용 스팸 필터 데이터베이스 구축

일단 제가 등록한 기본단어는 innori.com 의 유저들이 스팸으로 등록한 단어들 중에, 검색Bot 을 제외한 데이터입니다.
정규식의 도입 부분은 좀 생각을 해봐야겠네요 smile

open api 로 하면야 얼마나 좋겠습니까만은; 서버부하를 견뎌낼 방법이 없는지라 일단 xml 규격으로 open 하는것에 의의를 두고 있습니다.
네이버 open api 처럼, query=(content) 형태로 넘겨서 여기에 스팸단어가 몇개나 포함되어있는지 return 해도 좋을거 같다고 생각은 합니다.
하지만 역시 이런 형태를 구현하기 위해서는 역시 서버 환경이 넉넉해야만 하겠지요..

6

답글: 공용 스팸 필터 데이터베이스 구축

20일에 한 번 이야기해 보아요 ㅎㅎ

"Everything looks different on the other side."

-Ian Malcomm, from Michael Crichton's 'The Jurassic Park'

7

답글: 공용 스팸 필터 데이터베이스 구축

네... 스팸트랙백/댓글의 처리는 단순히 contents filtering 방식이외에 많은 고려가 필요합니다.
속칭 DOS(Denial of Service) , DDOS ( Distributed DOS ) 이외에도 컨텐츠 필터에도 가중치를 부여하고, 이들이 서로 adaptive 하게 동작하도록 해야되는 등.... 간단하지 않은 시스템입니다.

다행히도 TnC 의 엔지니어중의 상당수가 security industry 에서 활동했었습니다.
laziel 님, inureyes님... 그리고  TnC 의 papacha 님 , gendoh 님.. 그리고 저..

실제 운영하는 블로그에서 쏟아지는 수많은 데이터들과, 복잡계이론전문가, 그리고 국내 최고의 보안시스템 설계자.. 그리고 맨날 말만하는 사람(chester) ....  웬지 쥬라기공원 알파테스터(?)로 참여하는 팀의 구성같군요...

스팸필터링은 단순히 blog 를 만드는것을 뛰어넘는, 핵심엔지니어링이 필요한 부분입니다.
TnC 에서도 최대이슈로 간주하고 있는 만큼, 열심히 진행해보겠습니다.

8

답글: 공용 스팸 필터 데이터베이스 구축

chester 작성:

실제 운영하는 블로그에서 쏟아지는 수많은 데이터들과, 복잡계이론전문가, 그리고 국내 최고의 보안시스템 설계자.. 그리고 맨날 말만하는 사람(chester) ....  웬지 쥬라기공원 알파테스터(?)로 참여하는 팀의 구성같군요...

그럼, Chester님이 말콤 박사역할이신 겁니까?? cool

(만만치 않은 노가다 작업이겠군요... 이놈도 eolin tag sugest 식으로 하다가는.... 서버 사들이다가 등골 휘시겠다는....)

잠수...

9

답글: 공용 스팸 필터 데이터베이스 구축

처음 댓글 남깁니다.
open api로 구성할 때 받아오는 패턴을 특정 서버에서 받아오지 말고 당나귀같은 p2p의 형태를 띄게 만들면 어떨까요? ^^

따뜻한 5월의 햇살 속에 한가로이 잠든 작디작은 선인장처럼...
내일을 향한 꽃봉오리 몇 개를 올려본다.

10

답글: 공용 스팸 필터 데이터베이스 구축

작은인장 작성:

처음 댓글 남깁니다.
open api로 구성할 때 받아오는 패턴을 특정 서버에서 받아오지 말고 당나귀같은 p2p의 형태를 띄게 만들면 어떨까요? ^^

관련된 논의가 있었고 안용열님의 논문도 있습니다. smile

그 쪽에 관해서도 논의가 이루어지고 있습니다만, 현재까지의 판단으로는 쿼리의 로드 밸런싱과 함께 대역폭에 미치는 영향 등 여러가지 튜닝할 요소가 많아 일단 collective한 방법으로 구현이 이루어지고 있는 중입니다.

"Everything looks different on the other side."

-Ian Malcomm, from Michael Crichton's 'The Jurassic Park'