Download
Magazine
Develop
Account
Download
Magazine
Develop
Login
Forgot Account/Password
Create Account
Language
Help
Language
Help
×
Login
Login Name
Password
×
Forgot Account/Password
Category:
Software
People
PersonalForge
Magazine
Wiki
Search
OSDN
>
Find Software
>
Internet
>
WWW/HTTP
>
Indexing/Search
>
Fess
>
Forums
>
【移行しました】サポート
>
ウェブクロールの設定方法と不要なindexの一括削除について
Description
Project Summary
Developer Dashboard
Web Page
Developers
Image Gallery
List of RSS Feeds
Activity
Statistics
History
Downloads
List of Releases
Stats
Source Code
Code Repository list
Subversion
View Repository
Communication
Forums
List of Forums
【移行しました】サポート (1161)
【移行しました】機能要求 (35)
Mailing Lists
list of ML
fess-user
News
Forums:
【移行しました】サポート
(Thread #37875)
Return to Thread list
RSS
ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-12 07:14 by
okachan
#78325)
Reply
はじめまして。okachanと申します。
検索エンジンのサービスに興味があり先週の金曜日くらいから使い始めましたが、いろいろ使い方が
わからないので教えて下さい。
https://www.dropbox.com/s/5hiy2jead4uzjil/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202016-07-12%2007.05.22.png?dl=0
↑のような形式でクロールを設定して、
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のようなURLルールのものだけクロールしたいと考えていますが、
http://doctors-career.jp/search/?q=e-doctor+%E5%86%85%E7%A7%91%E5%8C%BB&num=20&sort=
実際やってみたところ、関係ないURLも検索結果にのってしまっています。
設定が間違っているようなのですが、どこを直せばよいか教えて頂けますでしょうか。
また一括で不要なデータを削除したい場合、CUIベースで削除とかできますでしょうか。
例えばいまやりたいことは
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のフォーマット以外のURLは一括削除とかそういったことを考えております。
よろしくおねがいいたします。
Reply to #78325
×
Subject
Body
Reply To Message #78325 > はじめまして。okachanと申します。 > > 検索エンジンのサービスに興味があり先週の金曜日くらいから使い始めましたが、いろいろ使い方が > わからないので教えて下さい。 > > https://www.dropbox.com/s/5hiy2jead4uzjil/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202016-07-12%2007.05.22.png?dl=0 > > ↑のような形式でクロールを設定して、 > > https://www.e-doctor.ne.jp/s/info/.* > https://www.e-doctor.ne.jp/j/info/.* > https://www.e-doctor.ne.jp/k/info/.* > ↑のようなURLルールのものだけクロールしたいと考えていますが、 > > http://doctors-career.jp/search/?q=e-doctor+%E5%86%85%E7%A7%91%E5%8C%BB&num=20&sort= > > 実際やってみたところ、関係ないURLも検索結果にのってしまっています。 > 設定が間違っているようなのですが、どこを直せばよいか教えて頂けますでしょうか。 > > また一括で不要なデータを削除したい場合、CUIベースで削除とかできますでしょうか。 > > 例えばいまやりたいことは > https://www.e-doctor.ne.jp/s/info/.* > https://www.e-doctor.ne.jp/j/info/.* > https://www.e-doctor.ne.jp/k/info/.* > ↑のフォーマット以外のURLは一括削除とかそういったことを考えております。 > よろしくおねがいいたします。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-14 16:29 by
shinsuke
#78342)
Reply
URL
https://www.e-doctor.ne.jp/
クロール対象とするURL
なし
クロール対象から除外するURL
https://www.e-doctor.ne.jp/j/search/.*
https://www.e-doctor.ne.jp$
https://www.e-doctor.ne.jp/$
https://www.e-doctor.ne.jp/.*
¥?.*
https://www.e-doctor.ne.jp/c/.*
https://www.e-doctor.ne.jp/k/.*
検索対象とするURL
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
検索対象から除外するURL
なし
のような感じではないでしょうか。
管理画面の検索で検索した条件で一括削除できます。
url:"
https://www.e-doctor.ne.jp/.*"
のような検索条件がかけると思います。
http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
Reply to
#78325
Reply to #78342
×
Subject
Body
Reply To Message #78342 > URL > https://www.e-doctor.ne.jp/ > > クロール対象とするURL > なし > > クロール対象から除外するURL > https://www.e-doctor.ne.jp/j/search/.* > https://www.e-doctor.ne.jp$ > https://www.e-doctor.ne.jp/$ > https://www.e-doctor.ne.jp/.*¥?.* > https://www.e-doctor.ne.jp/c/.* > https://www.e-doctor.ne.jp/k/.* > > 検索対象とするURL > https://www.e-doctor.ne.jp/s/info/.* > https://www.e-doctor.ne.jp/j/info/.* > https://www.e-doctor.ne.jp/k/info/.* > > 検索対象から除外するURL > なし > > のような感じではないでしょうか。 > > 管理画面の検索で検索した条件で一括削除できます。 > url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。 > http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:17 by
okachan
#78350)
Reply
教えていただきありがとうございます。
> 管理画面の検索で検索した条件で一括削除できます。
> url:"
https://www.e-doctor.ne.jp/.*"
のような検索条件がかけると思います。
>
http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
こちら上記入力してみましたがうまくいきませんでした・・・
ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。
単純に「広島」「東京」などの文字列では検索できるようです。
https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b
Reply to
#78342
Reply to #78350
×
Subject
Body
Reply To Message #78350 > 教えていただきありがとうございます。 > > > > 管理画面の検索で検索した条件で一括削除できます。 > > url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。 > > http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html > > こちら上記入力してみましたがうまくいきませんでした・・・ > ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。 > > 単純に「広島」「東京」などの文字列では検索できるようです。 > > https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:27 by
okachan
#78351)
Reply
[メッセージ #78350 への返信]
> > 管理画面の検索で検索した条件で一括削除できます。
> > url:"
https://www.e-doctor.ne.jp/.*"
のような検索条件がかけると思います。
> >
http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
>
> こちら上記入力してみましたがうまくいきませんでした・・・
> ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。
>
> 単純に「広島」「東京」などの文字列では検索できるようです。
>
>
https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b
url:"
https://.*"
で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。
Reply to
#78350
Reply to #78351
×
Subject
Body
Reply To Message #78351 > [メッセージ #78350 への返信] > > > > 管理画面の検索で検索した条件で一括削除できます。 > > > url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。 > > > http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html > > > > こちら上記入力してみましたがうまくいきませんでした・・・ > > ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。 > > > > 単純に「広島」「東京」などの文字列では検索できるようです。 > > > > https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b > > url:"https://.*" > で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel
Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 16:29 by
matsutani
#78352)
Reply
[メッセージ #78351 への返信]
> [メッセージ #78350 への返信]
> url:"
https://.*"
> で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。
url:"
http://fess.codelibs.org/*"
「.*」ではなく「*」を指定することで絞り込みすることができます。
Reply to
#78351
Reply to #78352
×
Subject
Body
Reply To Message #78352 > [メッセージ #78351 への返信] > > [メッセージ #78350 への返信] > > url:"https://.*" > > で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。 > > url:"http://fess.codelibs.org/*" > 「.*」ではなく「*」を指定することで絞り込みすることができます。
You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.)
Login
Nickname
Preview
Post
Cancel