当前位置: X-MOL 学术Russian Linguistics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Who needs particles? A challenge to the classification of particles as a part of speech in Russian
Russian Linguistics ( IF 0.9 ) Pub Date : 2016-04-25 , DOI: 10.1007/s11185-016-9160-2
Anna Endresen , Laura A. Janda , Robert Reynolds , Francis M. Tyers

In 1985, Zwicky argued that ‘particle’ is a pretheoretical notion that should be eliminated from linguistic analysis. We propose a reclassification of Russian particles that implements Zwicky’s directive. Russian particles lack a coherent conceptual basis as a category and many are ambiguous with respect to part of speech. Our corpus analysis of Russian particles addresses theoretical questions about the cognitive status of parts of speech and practical concerns about how particles should be represented in computational models. We focus on nine high-frequency words commonly classed as particles: ešče, tak, ved’, slovno, daže, že, li, da, net. We show that the current tagging of particles in the manually disambiguated Morphological Standard of the Russian National Corpus is not entirely consistent, and that this can create challenges for training a part-of-speech tagger. We offer an alternative tagging scheme that eliminates the category of ‘particle’ altogether. We show that our enriched scheme makes it possible for a part-of-speech tagger to achieve more useful results. Our analysis of particles provides a detailed account of various sub-uses that correspond to different parts of speech, their relationships, and relative distribution. In this sense, our study also contributes to the study of words that exhibit part-of-speech ambiguities.АннотацияВ работе 1985 года Цвикки утверждал, что ‘частица’—это до-теоретическое понятие, которое нужно исключить из лингвистического анализа. Следуя установке Цвикки, мы предлагаем пересмотреть традиционный подход к русским частицам и перераспределить соответствующие слова по другим частеречным классам. Ясные содержательные основания для выделения русских частиц как отдельной категории отсутствуют, частеречная принадлежность многих частиц неоднозначна. В нашем корпусном исследовании рассмотрены теоретические вопросы о когнитивном статусе частей речи, а также практические сложности, связанные с представлением частиц в компьютерных моделях обработки данных. В центре внимания девять высокочастотных слов, традиционно определяемых как частицы: еще, так, ведь, словно, даже, же, ли, да, нет. В статье показано, что существующая система частеречной разметки, принятая в Морфологическом стандарте Национального корпуса русского языка (тексты со снятой омонимией), недостаточно последовательна и что это может создать проблемы при обучении частеречного анализатора. В статье предложена альтернативная система разметки, в которой категория ‘частиц’ как отдельной части речи полностью устранена. Благодаря этой улучшенной системе разметки частеречный анализатор может функционировать более успешно. В статье представлен подробный анализ девяти ‘частиц’ с разбором основных подтипов их употреблений, которые соответствуют различным частям речи, также обсуждаются взаимосвязи выделенных подтипов и их распределение в использованной выборке примеров. В этом отношении, данное исследование вносит вклад в изучение слов с неоднозначной частеречной принадлежностью.

中文翻译:

谁需要粒子?将粒子分类为俄语词性的挑战

1985 年,Zwicky 认为“粒子”是一个应从语言分析中剔除的前理论概念。我们建议对俄罗斯粒子进行重新分类,以实现 Zwicky 的指令。俄语粒子作为一个类别缺乏连贯的概念基础,并且许多粒子在词性方面是模棱两可的。我们对俄语粒子的语料库分析解决了有关词性认知状态的理论问题以及有关粒子应如何在计算模型中表示的实际问题。我们关注九个通常归类为粒子的高频词:ešče、tak、ved '、slovno、daže、že、li、da、net。我们表明,目前在俄罗斯国家语料库手动消歧的形态学标准中对粒子的标记并不完全一致,并且这会给训练词性标注器带来挑战。我们提供了一种替代标记方案,可以完全消除“粒子”类别。我们表明,我们丰富的方案使词性标注器能够获得更有用的结果。我们对粒子的分析提供了对对应于不同词性、它们的关系和相对分布的各种子用途的详细说明。从这个意义上说,我们的研究也有助于研究表现出词性歧义的词 摘要 在 1985 年的一篇论文中,Zwicky 认为“粒子”是一个前理论概念,应该从语言分析中排除。遵循 Zwicky 的方法,我们建议修改俄罗斯粒子的传统方法,并将相应的词重新分配到其他词类类别。没有明确的实质性理由将俄语助词区分为一个单独的类别,许多助词的词性隶属关系不明确。在我们的语料库研究中,考虑了有关词性认知状态的理论问题,以及与数据处理计算机模型中粒子表示相关的实际困难。重点是九个传统上定义为粒子的高频词:仍然、好吧、好像、甚至、是否、是、否。文章表明,俄罗斯国家语料库形态标准(去除同音词的文本)采用的现有词性标记系统不够一致,这可能会在训练词性时产生问题 -语音分析器。文章提出了一种替代的标记系统,其中“粒子”作为单独词性的范畴被完全消除。由于这种改进的标记系统,词性分析器可以更成功地运行。文章详细分析了九个“粒子”,分析了它们使用的主要子类型,它们对应于不同的词性,还讨论了所选子类型的关系及其在所用示例中的分布。在这方面,本研究有助于歧义词的研究。还讨论了所选子类型的关系及其在使用的示例样本中的分布。在这方面,本研究有助于歧义词的研究。还讨论了所选子类型的关系及其在使用的示例样本中的分布。在这方面,本研究有助于歧义词的研究。
更新日期:2016-04-25
down
wechat
bug