Python使用langid库来识别字符串语言

python使用 langid 库来实现识别字符串是什么语言;langid 是第三方库,需要我们自己安装;

使用 pip3 安装 langid :

pip3 install langid

langid 依赖一个叫 numpy 的库,不过不用担心,安装 langid 时 pip 会将其依赖也进行安装。

导入库来看看是否安装成功:

import langid

如果没提示错误,则表示安装成功。

langid 简单的示例代码:

import langid
stringA = 'Hello word'
result = langid.classify(stringA)
print(result)

langid.classify() 方法会返回一个元组,第一项为语言的种类,第二项为占比;

用法示例:

import langid
 
LANGUAGE = {
    'en':'英文',
    'zh':'中文'
}
 
UNKNOWN_LANGUAGE = '未知'
 
def checkLang(string):
    try:
        return LANGUAGE[langid.classify(string)[0]]
    except KeyError:
        return UNKNOWN_LANGUAGE
    
string_en = 'hello word'
string_ch = '你好啊'
 
print(checkLang(string_en))
print(checkLang(string_ch))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/598.html

分类: 计算机技术
推荐阅读:
Golang中 import cycle not allowed 的解决方法 在Go语言中,在使用import导入相应的包时,你可能会碰到 import cycle not allowed 这样的问题,出现这样的问题是你的包没有规划好,导致包相互依赖;
Golang中的map数据类型 map 是一堆键值对的未排序集合;在Go语言中,使用map不需要引入库,它是一种内置的数据类型。
Rust unreachable宏的用法和示例 unreachable是Rust中的一个宏,它用于标记代码中的一个不可能被执行的分支;这个宏告诉编译器在这个分支上的代码永远不会被执行到;这对于表明某些情况下的代码不可达是很有用的。
使用MATLAB画一个爱心 以下是在 MATLAB 中绘制一个简单的爱心的示例代码:
python bin()函数详细教程 bin()函数将一个整数转换成前缀为”0b“的二进制字符串形式,如果参数不是int对象,那它需要定义__index__()方法并返回一个整数;
配置Nginx实现简单的反盗链 本文通过Nginx的配置指令valid_referers来实现简单的图片和其它类型文件的防盗链。