Python使用langid库来识别字符串语言

python使用 langid 库来实现识别字符串是什么语言;langid 是第三方库,需要我们自己安装;

使用 pip3 安装 langid :

pip3 install langid

langid 依赖一个叫 numpy 的库,不过不用担心,安装 langid 时 pip 会将其依赖也进行安装。

导入库来看看是否安装成功:

import langid

如果没提示错误,则表示安装成功。

langid 简单的示例代码:

import langid
stringA = 'Hello word'
result = langid.classify(stringA)
print(result)

langid.classify() 方法会返回一个元组,第一项为语言的种类,第二项为占比;

用法示例:

import langid
 
LANGUAGE = {
    'en':'英文',
    'zh':'中文'
}
 
UNKNOWN_LANGUAGE = '未知'
 
def checkLang(string):
    try:
        return LANGUAGE[langid.classify(string)[0]]
    except KeyError:
        return UNKNOWN_LANGUAGE
    
string_en = 'hello word'
string_ch = '你好啊'
 
print(checkLang(string_en))
print(checkLang(string_ch))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/598.html

分类: 计算机技术
推荐阅读:
在Rust中如何申请堆内存 在Rust中,可以使用 Box 关键字来在堆上分配内存。Box 是一个智能指针类型,它提供了所有权转移语义,可以将其值分配到堆上,然后通过变量引用进行访问。
Rust获取操作系统类型 在Rust编程语言中,你可以使用标准库中的std::env模块来获取操作系统类型。具体来说,你可以使用std::env::consts::OS来获取操作系统类型的字符串表示。
Golang获取文件的大小 在Go语言中,你可以使用os.Stat()来获取文件信息,其中就包括文件的大小;
PySide6 QKeyEvent:键盘事件类 QKeyEvent是PySide6中用于表示键盘事件的类,用于处理与键盘相关的用户输入事件,如按键、释放等;
Linux终端如何输入复杂的命令 在Linux下,当你要输入的命令过于复杂,比如有许多参数,你可以先按 ctrl + x ,再按 ctrl + e 快速打开一个编辑器编辑命令。
Linux显示使用内存最多的十个进程 在Linux系统下,你可以使用一条命令显示当前系统使用内存最多的十个进程: