一分钟查到所有固定搭配?学会这3种方法,检索「法语语料」so easy!

关注法语人的小伙伴一定知道,小编之前给大家安利过免费实用的法语语料库:查固定搭配神器!这些免费又好用的「法语语料库」,助你地道翻译写作!在文章发表后,有的同学表示想要学习更多关于语料库的知识,于是今天小编就来写一篇关于如何检索语料的文章!

小编在本文中会介绍各个层次的语料检索方法,从无需任何基础和背景知识就能学会的入门级简单检索,到复杂一些的通配符和正则表达式检索,再到更灵活更有用但是需要编程知识的高级检索,同学可以选择自己需要的方式来学习哦~

01 入门级简单检索

入门检索就是最简单的检索形式,检索速度很快,主要适用于对一些变化形式较少的词语的检索。

需要的软件

入门级检索,其实用电脑上自带的记事本,或者Word等都可以检索。不过,如果想要更方便清晰地观察检索后的语料特征,这里推荐使用的软件是可以免费下载的由早稻田大学的Laurence Anthony开发的AntConc?

下载地址:

http://www.laurenceanthony.net/software/antconc

大家在官网上可以选择自己电脑的版本进行下载。下载好之后,软件界面是这样的:

首先需要做的是加载语料,可以点击左上角的File,选择Open File(s)可以加载一个或多个文件,选择Open Dir则可以加载整个文件夹里的文件。

把语料文件加载完成之后,我们就可以开始进行检索了。在以下例子中,语料来源均为“政府工作报告2021年法文版”。

简单检索

简单检索的话,只需要在Concordance界面的搜索框里进行搜索即可,下图是chinois的搜索结果:

在Search Term一栏,选择默认的Words即可,它是不区分大小写的;如果要区分大小写的话,选中Case即可。旁边的Regex就是正则表达式,我们后面再提。

下面还有一个Kwic Sort框,这里可以选择左右两边要突出显示的单词数量,比如我们把Level 1设置成1L,也就是展现搜索的词(即chinois)左边(L)的一个单词,再把Level 2设置成1R,也就是展现搜索的词右边(R)的一个单词。最后,再点击上方的Sort即可以完成突出显示。

搜索chinois,大小写敏感,并突出显示左右两边各一个单词的结果

如果想把这些检索行中的内容另存在文件中,只需要在左上角File处选择Save Output to Text File即可?

以上就是最简单的检索方式啦,是不是很容易呢?需要注意的是,这种方式检索出来的词都是检索项的准确形式,比如检索“pomme”的时候,不会检索出“pommes”的词形,所以,如果想同时检索名词单复数形式或动词不同变位形式,就需要用到下面我们的进阶方法啦。

02 进阶级通配符、正则表达式检索

如果想要搜索的内容更复杂一点,我们就可以使用进阶版的搜索方式,也就是使用通配符或正则表达式进行检索。

通配符搜索

在AntConc中,点击主界面的Global Settings菜单,再选择其中的Wildcards就可以看到通配符的相关内容?

下面是这些通配符的含义和例词:

通配符

含义

例词

*

0或多个字符

*text匹配text,context,pretext等,不匹配texts

+

0或1个字符

text+匹配text和texts

1个字符

b?d匹配bad,bed,bid等,但不匹配bird

@

0或1个词

in@case匹配in case,in the case,in any case等

#

1个词

in#case匹配in this case,in that case,in any case等

|

表示“或者”

text|texts匹配text和texts

&

非单词(如标点、数字)

text&匹配text,或text1等

使用通配符的方式也非常简单,只需要在简单检索的基础上把部分内容替换为通配符即可,这样的检索方式更加灵活,可以搜索的内容更多。

正则表达式搜索

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

比如,如果想对赋过码的文本进行检索(词性赋码的教程参见:全网独家教程!做好「法语词性+句法标注」,语言研究不再愁!);比如想要搜索所有是形容词而不是名词的chinois或chinoise,那么可以写成这种形式:

bchinoise*_ADJ

其中,b表示匹配单词的边界,e*表示对e匹配0次或1次,其他的内容都是搜索的常量。搜索结果如下:

要记得使用正则表达式进行检索的时候,需要将Search Term处的Regex选中哦。

正则表达式的语法稍微复杂一些,这里就不再过多解释了,想要进一步了解的同学可以参考下面的网页:

网页链接:

https://www.runoob.com/regexp/regexp-syntax.html

03 高级检索:spaCy Matcher

最后就是小编强烈推荐觉得非常有用的高级检索方式了:使用Python库spaCy里的基于语法的Matcher进行检索。(关于spaCy的安装介绍,可以参考:如何让exposé脱颖而出?手把手教你做全场最靓的「法语词云」!)

使用它可以做什么呢?让我们来看一个例子:

比如我们想搜索“我们做了XX”(nous avons fait quelque chose)这样的结构,那么可以这么写:

pattern = [ {"LEMMA": "nous"}, {"TEXT": "avons"}, {"POS": "VERB"}, {"TEXT": "de","OP":"*"}, {"TEXT": "d'", "OP": "*"}, {"POS": "DET","OP": "*"}, {"POS":"ADJ","OP":"*"}, {"POS": "NOUN"} ]

左滑查看代码

在这个结构中,LEMMA(词元)对应的是nous或者Nous;TEXT对应的是avons,因为nous对应的avoir的一般现在时变位为avons,这是固定不变的;下面对应的是一个词性码标签,动词VERB;再下面对应的是两个TEXT,一个是de,一个是d,这两个都是可选的(OP是*意味着匹配0次或多次);再下面是匹配0次或多次的限定词DET或形容词ADJ;最后是必须匹配的名词NOUN。(关于这些词性码的介绍,可以参考:全网独家教程!做好「法语词性+句法标注」,语言研究不再愁!)

通过使用这个结构,我们可以获得语料中所有这样的句子和匹配的结构:

Nous avons adopté de nouveaux modes

Nous avons renouvelé notre expérience

nous avons donné la priorité

Nous avons assuré l’approvisionnement

Nous avons renforcé le suivi

Nous avons aplani de manière

Nous avons soutenu le développement

Nous avons sauvegardé la stabilité

nous avons déployé de grands efforts

Nous avons favorisé la conversion

Nous avons renforcé la rénovation

Nous avons favorisé la construction

nous avons renforcé l’exercice

Nous avons généralisé l’enseignement

Nous avons amélioré notre capacité

Nous avons majoré la pension

Nous avons amélioré les services

Nous avons renforcé les mesures

Nous avons soutenu la coopération

nous avons obtenus l’année

nous avons sorti de la pauvreté

nous avons accompli la lourde

Nous avons enregistré de premiers résultats

nous avons amélioré l’équité

nous avons tenu compte

通过这种方式,我们就可以获得所有“我们做了XX”的语料了,做的事情XX前面可以有限定词或形容词,也可以没有,这样就非常灵活了。

至于具体代码怎么写,可以参考spaCy的官方文档,这里不再赘述了:

网站链接:

https://spacy.io/api/matcher

以上就是语料检索的三种方式啦,从简单入门到进阶再到高级,大家都学会了吗?

你还有什么好的语料检索方式吗?

可以在评论区留言哦~

文字:Stone

审编:沐橙园,周温柔

参考资料:

梁茂成,李文中,许家金:《语料库应用教程》,外语教学与研究出版社,2010

注:文章系法语人专稿。未经授权,谢绝转载。如需转载,请查看“法语人”公众号(ID:fayuren123)菜单栏的转载须知。

你可能还想看

你最亲密的法语朋友

微信号 : fayuren123

新浪微博:@Franco法语人

知乎:Francophone

▼▼▼点击“阅读原文”,法语名师学习方案免费定制!