QSearch 免費中文斷詞API

什麼是中文斷詞,就是把中文句子裡的單字取出來,而不是拆解成一個一個字元。

詞是最小有意義且可以自由使用的語言單位。任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理,例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動分詞的工作成了語言處理不可或缺的技術。


居然有好心人把自己的斷詞工具開放給大家用,實際去申請QSearch還滿簡單的,不到30秒就弄好了,下面的範例是從下面的手冊裡複製出來:

import urllib
import json
from urllib2 import Request, urlopen
values = {
“key" : “your API key",
“message": “文字是人類記載知識的媒介,隨著人與人溝通工具的發達,表達方式也日新月異。為了加速電腦萃取知識,並作深度分析,QSearch 開發動態斷詞系統.",
“format":"json"
}
url = “http://api.qsearch.cc/api/tokenizing/v1/segment?"
url_values = urllib.urlencode(values)
response_body = urlopen(url+url_values).read()
print response_body


執行出來的結果:

[“文字", “是", “人", “類", “記載", “知識", “的", “媒介", “,", “隨著", “人", “與", “人", “溝通", “工具", “的", “發達", “,", “表達", “方式", “也", “日", “新", “月異", “。", “為了", “加速", “電腦", “萃取", “知識", “,", “並", “作", “深度", “分析", “,", “QSearch", " “, “開發", “動態", “斷", “詞", “系統", “."]


心得:

斷出來的結果,差強人意,是比一個個的字元好,有些詞的判斷沒有很到位,像是"人類"、"斷詞"、"日新月異"這些應該是詞,但是目前還沒有被組合起來。

 

QSearch Chinese Word Segmentation API 中文操作手冊:
https://drive.google.com/open?id=0B6He-EuxQMJ9WVN1SVNBUkt3eWc

申請 QSearch:http://api.qsearch.cc/projects

目前還是免費試用(Free Trail),不知他們何時會開始收費,畢盡天下很少有白吃的午餐。

我想反應是,你們貼文裡有錯字,斷詞,只寫了"斷"一個字…


中研院的斷詞系統:http://ckipsvr.iis.sinica.edu.tw/

申請中研院的斷詞系統:http://ckipsvr.iis.sinica.edu.tw/reg.php

中研院斷詞系統的 Client 端程式範例:https://github.com/fukuball/CKIPClient-PHP

相關文章

2 comments

  1. 我是QSearch 開發部部門,
    感受到你對於這領域有深入的研究,
    在此先感謝你分享

    由於我們純靠統計模型來訓練模組,目前用的文本庫是 Facebook 2015 年中近 100萬篇臉書公開粉絲頁貼文的文字來訓練。我們會想盡辦法增補文本讓他越訓練越好,同時也會推出"專業領域"的斷詞模組。

新增留言