Forums: users (Thread #4576)

HTMLメッセージのTAGの扱い (2004-02-24 14:09 by a39 #8135)

現在は、HTMLとして認識されるものの内、URLだけが別(url)扱いとなっていますが、それ以外のTAGは全てbody扱いですよね。
コメント等の排除は行っていますが、それ以外のTAG内に含まれるゴミをbody中のtokenと区別するというのは如何でしょう?
ElementsとAttributesとまで振り分けるだけの価値があるかどうかは試行してみないとわかりませんけれど。

Reply to #8135×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-02-25 01:35 by nabeken #8145)

tag用のカテゴリを作る案はありましたが、得失が不明のため、手を付けていませんでした。カテゴリという概念がbsfilterの特徴のような感じもするため、判定率が下がっても導入するかもしれません。
tag内をさらに細分化したカテゴリを作ることはないでしょう。
Reply to #8135

Reply to #8145×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-03 15:27 by a39 #8344)

いっそ、HTMLのメッセージは、TAGの種類,URL,E-mail addr.,plain-text以外は全部無視しちゃうモードって如何でしょう。

つまり、tableの中、フォント変更されたものなどは一切無視。plain textに近いものだけ評価の対象。

気になるのはHTML形式のメイルマガジンなどですけれど...(個人的には避けているので問題ないが、世間では...)
Reply to #8135

Reply to #8344×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-04 00:05 by nabeken #8376)

その意図はなんでしょう?
Reply to #8344

Reply to #8376×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-04 02:20 by a39 #8381)

spamは、saladを隠すために「at randomなTAG」を使ったり、「小さな文字」にしたり、「背景と同じような色の文字」にしたりと、隠すための「修飾」をします。
逆に、目立たせたいものも修飾するわけですが、思い切ってこれらを両方捨ててしまっても、URL, E-mail addr., 特別な修飾などされないテキスト, TAGの情報(Elements, Attributes), ヘッダ情報などがspamの判定を助けてくれたりはしないかなということです。

# フォローに失敗してしまったので、ブラウザを変えてやりなおし ;-<
Reply to #8376

Reply to #8381×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-04 21:19 by a39 #8403)

今日のspamを改めて観察し直してみました。
</BODY>の前に無修飾で並ぶsaladも目立ちますね。
やはり、あまり有効でないかしら。。。
Reply to #8381

Reply to #8403×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-05 00:36 by nabeken #8410)

--ignore-after-last-atagが使えるかもしれません。

が、ゴミが入っているというのもspamの特徴で、ゴミを捨てる際に、ゴミが入っているという情報も捨ててしまうのは間違いだと思います。
Reply to #8403

Reply to #8410×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-05 01:06 by a39 #8412)

ナニもゴミはA TAGの後ろだけではないのですよね.;-(
HTMLのBODYの頭の方にゴミを載せる輩もいます.
--ignore-after-last-atagだけでなく,--ignore-before-last-atagのようなものもあると面白いかもしれません.
では真ん中は?決定打にはならず.でも選択肢が増えると,アレンジの可能性は利用者の工夫次第.
Reply to #8410

Reply to #8412×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

word salad (2004-03-20 05:22 by a39 #8768)

ゴミと言っても,random stringなら拾い上げて識別してもいいのですが,辞書に載っているような(hamにも登場するような)単語がズラズラと並んでいるのであれば,spamの特徴にはならないと思います.
Reply to #8410

Reply to #8768×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-21 22:41 by a39 #8799)

<P> tag, <FONT> tagを--ignore-bodyであってもdefaultで学習対象に含めるのは如何でしょう.
# 他にもあるかなぁ...
# 飲酒モードなので,乱文失礼
Reply to #8344

Reply to #8799×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのTAGの扱い (2004-03-21 23:32 by nabeken #8800)

全tagを拾うという心の中の仕様に反していたので修正しました。
Reply to #8799

Reply to #8800×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

RE: HTMLメッセージのカテゴリの扱いについて (2004-03-24 00:50 by a39 #8846)

案1 JavaScript/VBscript等のscriptのtokenを別カテゴリ(ex. html-script)にする
案2 コメント中のtokenを別カテゴリ(html-comment)にする

というのは,bsfilterにおける「カテゴリ」という特徴を助長するものになると思うのですが,如何なものでしょう.

特定のspammer's toolに特化した結果になる可能性もあるのですが,単純なカテゴリ別のコストの選定だけでなく,カテゴリを跨いだ場合のwightの調整とかっていうのが,功を奏しそうな気がします.

bsfilterはspamの振り分けだけを念頭に置いてるものですが,もっと発展させると届いたメッセージのジャンルの振り分けにも応用る話だと思うのです.
その判定基準の一つにbayesの定理を応用していると考えればいいと思うのです.

# やっぱりじっくりと考える・勉強する時間が欲しい...
Reply to #8135

Reply to #8846×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login