Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Communications
>
Email
>
Filters
>
bsfilter
>
Forums
>
users
>
HTMLメッセージのTAGの扱い
bsfilter
Description
Project Summary
Developer Dashboard
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
CVS
View Repository
Ticket
Ticket List
Milestone List
Type List
Component List
List of frequently used tickets/RSS
Submit New Ticket
Documents
FrontPage
Title index
Recent changes
Communication
List of Forums
users (627)
Forums:
users
(Thread #4576)
Return to Thread list
RSS
HTMLメッセージのTAGの扱い (2004-02-24 14:09 by
a39
#8135)
Reply
Create ticket
現在は、HTMLとして認識されるものの内、URLだけが別(url)扱いとなっていますが、それ以外のTAGは全てbody扱いですよね。
コメント等の排除は行っていますが、それ以外のTAG内に含まれるゴミをbody中のtokenと区別するというのは如何でしょう?
ElementsとAttributesとまで振り分けるだけの価値があるかどうかは試行してみないとわかりませんけれど。
Reply to #8135
×
Subject
Body
Reply To Message #8135 > 現在は、HTMLとして認識されるものの内、URLだけが別(url)扱いとなっていますが、それ以外のTAGは全てbody扱いですよね。 > コメント等の排除は行っていますが、それ以外のTAG内に含まれるゴミをbody中のtokenと区別するというのは如何でしょう? > ElementsとAttributesとまで振り分けるだけの価値があるかどうかは試行してみないとわかりませんけれど。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-02-25 01:35 by
nabeken
#8145)
Reply
Create ticket
tag用のカテゴリを作る案はありましたが、得失が不明のため、手を付けていませんでした。カテゴリという概念がbsfilterの特徴のような感じもするため、判定率が下がっても導入するかもしれません。
tag内をさらに細分化したカテゴリを作ることはないでしょう。
Reply to
#8135
Reply to #8145
×
Subject
Body
Reply To Message #8145 > tag用のカテゴリを作る案はありましたが、得失が不明のため、手を付けていませんでした。カテゴリという概念がbsfilterの特徴のような感じもするため、判定率が下がっても導入するかもしれません。 > tag内をさらに細分化したカテゴリを作ることはないでしょう。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-03 15:27 by
a39
#8344)
Reply
Create ticket
いっそ、HTMLのメッセージは、TAGの種類,URL,E-mail addr.,plain-text以外は全部無視しちゃうモードって如何でしょう。
つまり、tableの中、フォント変更されたものなどは一切無視。plain textに近いものだけ評価の対象。
気になるのはHTML形式のメイルマガジンなどですけれど...(個人的には避けているので問題ないが、世間では...)
Reply to
#8135
Reply to #8344
×
Subject
Body
Reply To Message #8344 > いっそ、HTMLのメッセージは、TAGの種類,URL,E-mail addr.,plain-text以外は全部無視しちゃうモードって如何でしょう。 > > つまり、tableの中、フォント変更されたものなどは一切無視。plain textに近いものだけ評価の対象。 > > 気になるのはHTML形式のメイルマガジンなどですけれど...(個人的には避けているので問題ないが、世間では...)
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-04 00:05 by
nabeken
#8376)
Reply
Create ticket
その意図はなんでしょう?
Reply to
#8344
Reply to #8376
×
Subject
Body
Reply To Message #8376 > その意図はなんでしょう?
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-04 02:20 by
a39
#8381)
Reply
Create ticket
spamは、saladを隠すために「at randomなTAG」を使ったり、「小さな文字」にしたり、「背景と同じような色の文字」にしたりと、隠すための「修飾」をします。
逆に、目立たせたいものも修飾するわけですが、思い切ってこれらを両方捨ててしまっても、URL, E-mail addr., 特別な修飾などされないテキスト, TAGの情報(Elements, Attributes), ヘッダ情報などがspamの判定を助けてくれたりはしないかなということです。
# フォローに失敗してしまったので、ブラウザを変えてやりなおし ;-<
Reply to
#8376
Reply to #8381
×
Subject
Body
Reply To Message #8381 > spamは、saladを隠すために「at randomなTAG」を使ったり、「小さな文字」にしたり、「背景と同じような色の文字」にしたりと、隠すための「修飾」をします。 > 逆に、目立たせたいものも修飾するわけですが、思い切ってこれらを両方捨ててしまっても、URL, E-mail addr., 特別な修飾などされないテキスト, TAGの情報(Elements, Attributes), ヘッダ情報などがspamの判定を助けてくれたりはしないかなということです。 > > # フォローに失敗してしまったので、ブラウザを変えてやりなおし ;-<
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-04 21:19 by
a39
#8403)
Reply
Create ticket
今日のspamを改めて観察し直してみました。
</BODY>の前に無修飾で並ぶsaladも目立ちますね。
やはり、あまり有効でないかしら。。。
Reply to
#8381
Reply to #8403
×
Subject
Body
Reply To Message #8403 > 今日のspamを改めて観察し直してみました。 > </BODY>の前に無修飾で並ぶsaladも目立ちますね。 > やはり、あまり有効でないかしら。。。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-05 00:36 by
nabeken
#8410)
Reply
Create ticket
--ignore-after-last-atagが使えるかもしれません。
が、ゴミが入っているというのもspamの特徴で、ゴミを捨てる際に、ゴミが入っているという情報も捨ててしまうのは間違いだと思います。
Reply to
#8403
Reply to #8410
×
Subject
Body
Reply To Message #8410 > --ignore-after-last-atagが使えるかもしれません。 > > が、ゴミが入っているというのもspamの特徴で、ゴミを捨てる際に、ゴミが入っているという情報も捨ててしまうのは間違いだと思います。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-05 01:06 by
a39
#8412)
Reply
Create ticket
ナニもゴミはA TAGの後ろだけではないのですよね.;-(
HTMLのBODYの頭の方にゴミを載せる輩もいます.
--ignore-after-last-atagだけでなく,--ignore-before-last-atagのようなものもあると面白いかもしれません.
では真ん中は?決定打にはならず.でも選択肢が増えると,アレンジの可能性は利用者の工夫次第.
Reply to
#8410
Reply to #8412
×
Subject
Body
Reply To Message #8412 > ナニもゴミはA TAGの後ろだけではないのですよね.;-( > HTMLのBODYの頭の方にゴミを載せる輩もいます. > --ignore-after-last-atagだけでなく,--ignore-before-last-atagのようなものもあると面白いかもしれません. > では真ん中は?決定打にはならず.でも選択肢が増えると,アレンジの可能性は利用者の工夫次第.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
word salad (2004-03-20 05:22 by
a39
#8768)
Reply
Create ticket
ゴミと言っても,random stringなら拾い上げて識別してもいいのですが,辞書に載っているような(hamにも登場するような)単語がズラズラと並んでいるのであれば,spamの特徴にはならないと思います.
Reply to
#8410
Reply to #8768
×
Subject
Body
Reply To Message #8768 > ゴミと言っても,random stringなら拾い上げて識別してもいいのですが,辞書に載っているような(hamにも登場するような)単語がズラズラと並んでいるのであれば,spamの特徴にはならないと思います.
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-21 22:41 by
a39
#8799)
Reply
Create ticket
<P> tag, <FONT> tagを--ignore-bodyであってもdefaultで学習対象に含めるのは如何でしょう.
# 他にもあるかなぁ...
# 飲酒モードなので,乱文失礼
Reply to
#8344
Reply to #8799
×
Subject
Body
Reply To Message #8799 > <P> tag, <FONT> tagを--ignore-bodyであってもdefaultで学習対象に含めるのは如何でしょう. > # 他にもあるかなぁ... > # 飲酒モードなので,乱文失礼
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのTAGの扱い (2004-03-21 23:32 by
nabeken
#8800)
Reply
Create ticket
全tagを拾うという心の中の仕様に反していたので修正しました。
Reply to
#8799
Reply to #8800
×
Subject
Body
Reply To Message #8800 > 全tagを拾うという心の中の仕様に反していたので修正しました。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
RE: HTMLメッセージのカテゴリの扱いについて (2004-03-24 00:50 by
a39
#8846)
Reply
Create ticket
案1 JavaScript/VBscript等のscriptのtokenを別カテゴリ(ex. html-script)にする
案2 コメント中のtokenを別カテゴリ(html-comment)にする
というのは,bsfilterにおける「カテゴリ」という特徴を助長するものになると思うのですが,如何なものでしょう.
特定のspammer's toolに特化した結果になる可能性もあるのですが,単純なカテゴリ別のコストの選定だけでなく,カテゴリを跨いだ場合のwightの調整とかっていうのが,功を奏しそうな気がします.
bsfilterはspamの振り分けだけを念頭に置いてるものですが,もっと発展させると届いたメッセージのジャンルの振り分けにも応用る話だと思うのです.
その判定基準の一つにbayesの定理を応用していると考えればいいと思うのです.
# やっぱりじっくりと考える・勉強する時間が欲しい...
Reply to
#8135
Reply to #8846
×
Subject
Body
Reply To Message #8846 > 案1 JavaScript/VBscript等のscriptのtokenを別カテゴリ(ex. html-script)にする > 案2 コメント中のtokenを別カテゴリ(html-comment)にする > > というのは,bsfilterにおける「カテゴリ」という特徴を助長するものになると思うのですが,如何なものでしょう. > > 特定のspammer's toolに特化した結果になる可能性もあるのですが,単純なカテゴリ別のコストの選定だけでなく,カテゴリを跨いだ場合のwightの調整とかっていうのが,功を奏しそうな気がします. > > bsfilterはspamの振り分けだけを念頭に置いてるものですが,もっと発展させると届いたメッセージのジャンルの振り分けにも応用る話だと思うのです. > その判定基準の一つにbayesの定理を応用していると考えればいいと思うのです. > > # やっぱりじっくりと考える・勉強する時間が欲しい...
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel