Nutch是什麼?
nutch是基於開放原始碼所開發的web search

安裝Nutch的環境?
nutch是由java與jsp構成,只要web server可執行以上環境即可

Nutch有何優勢?
對java有研究的人都知道Lucene,一個超強的全文檢索引擎,那麼Nutch就是基於Lucene所開發的搜尋引擎

以下這篇對於Nutch應用與流程圖介紹有詳盡的介紹:
Nutch应用 - 应用已有的开源搜索引擎

首先,需要準備以下工具:
javaVM:jdk1.5.x  注意....請下載JDK不要抓錯了阿XD
nutch:出到0.9嚕,抓新版的吧
tomcat:5.0 讓你可以跑JSP的環境,個人推薦測試環境可以使用懶人包xampp + tomcat
cygwin:模擬shell來run nutch

準備好以後...

網路上有太多介紹如何安裝的文章
我就不多敘述了,主要把安裝過程中遇到的重點心得提醒一下囉:)

你可以參考:
nutch在Windows上的安装 step by step
安裝Cygwin詳解

在安裝過程中
會讓人卡關髮指的地方,給大家參考參考囉
1)提到一開始要建立urls
其實就是在根目錄建立一個urls.txt的檔案
檔案內容輸入你要抓取的網址如:http://lucene.apache.org/nutch/
之後再使用

bin/nutch crawl urls -dir crawl -depth 3 -topN 50
抓取的時後就是改成
crawl urls.txt -dir

2)記得在改conf/crawl-urlfilter.txt 的時後
# skip URLs containing certain characters as probable queries, etc.
-[?*!@]
這一行記得修正
這是排除網址包含哪些特殊符號/字元不抓取,弄好久才找到問題XD

3)記得設定conf/nutch-site.xml的agent
其實你高興怎樣打還是可以執行的,不過還是建議照官方的方式吧

4)修改WEB-INF\classes\nutch-site.xml文件的時後
請這樣改
<configuration>
----插入----------------
 <property> 
   <name>searcher.dir</name> 
   <value>d:\cygwin\nutch\抓取目錄的名稱</value> 
 </property>  
----插入----------------

</configuration>
有許多不是寫的不清不處,不然就是寫錯orz........
d:\cygwin\nutch\抓取目錄的名稱   看你檔案放在哪就改哪裡囉:)

5)最後,tomcat有個中文編碼的問題
修改tomcat\conf\server.xml
尋找<Connector port="8080"  這一行
然後結尾加上
URIEncoding="UTF-8" useBodyEncodingForURI="true"
/>
這樣中文字就不會出現亂碼的問題了

希望大家都可以使用Nutch愉快囉^^


你可以閱讀其他心得:
Nutch version 0.8.x tutorial
Nutch 笔记(一):Quick Start
nutch项目配置
Nutch 使用之锋芒初试
在windows中如何安装Nutch
Nutch 初体验
Nutch 初体验之二
Crawl The Nutch -- 起步 getting started
试用nutch
創作者介紹

瞇瞇眼看世界 Blog-Talk

blogtalk 發表在 痞客邦 PIXNET 留言(1) 人氣()


留言列表 (1)

發表留言
  • 路人a
  • 如果我想search 100個 website urls.txt 要用什麼分開網址?