Skip to content

Sentence-terminal periods not tokenized properly in Malayalam text #12898

Description

@BLKSerene

How to reproduce the behaviour

import spacy

nlp = spacy.blank('ml')
doc = nlp('ഇന്ത്യയിൽ കേരള സംസ്ഥാനത്തിലും കേന്ദ്രഭരണപ്രദേശങ്ങളായ ലക്ഷദ്വീപിലും പോണ്ടിച്ചേരിയുടെ ഭാഗമായ മാഹിയിലും തമിഴ്നാട്ടിലെ കന്യാകുമാരി ജില്ലയിലും നീലഗിരി ജില്ലയിലെ ഗൂഡല്ലൂർ താലൂക്കിലും സംസാരിക്കപ്പെടുന്ന ഭാഷയാണ് മലയാളം.')
print(doc[-1]) # Print 'മലയാളം.', should be '.'

Your Environment

  • Operating System: Windows 11 x64
  • Python Version Used: 3.10.12
  • spaCy Version Used: 3.6.0

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugBugs and behaviour differing from documentationlang / mlMalayalam language data and models

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions