Как читать значения из чисел, записанных словами?

Это непростая задача, и я parse не знаю ни одной библиотеки natural-language-processing для этого. Когда-нибудь я natural-language-processing сяду и попытаюсь написать numbers что-то подобное. Я бы сделал text-analysis это либо на Прологе, либо parsing на Java, либо на Haskell. Насколько algorithms я вижу, есть несколько проблем:

  • Токенизация: иногда числа пишутся одиннадцатьсот пятьдесят два, но я видел одиннадцатьсот пятьдесят два или одиннадцатьсот пятьдесят два и еще много чего. Нужно было бы провести опрос о том, какие формы фактически используются. Это может быть особенно сложно для иврита.
  • Орфографические ошибки: это не так сложно. У вас ограниченное количество слов, и немного магии расстояния Левенштейна должно помочь.
  • Альтернативные формы, как вы уже упоминали, существуют. Сюда входят порядковые/количественные числительные, а также сорок/сорок и...
  • ... общие имена или часто используемые фразы и NE (именованные сущности). Вы хотите извлечь 30 из Тридцатилетней войны или 2 из Второй мировой войны?
  • Римские цифры тоже?
  • Разговорные выражения, такие как «тридцать с чем-то» и «три евро и шрапнель», к которым я не знаю, как относиться.

Если natural-language-processing вас это интересует, я могу number попробовать на этих выходных. Моя nlp идея, вероятно, заключается language-agnostic в использовании UIMA и токенизации language-agnostic с его помощью, а затем в algorithm-design дальнейшем токенизации/устранении algorithms неоднозначности и, наконец, переводе. Может natural-language-processing быть больше вопросов, давайте nlp посмотрим, смогу ли я придумать nlp что-нибудь еще интересное.

Извините, это number еще не настоящий ответ, а text-analysis просто дополнение к вашему parser вопросу. Я дам вам знать, если algorithms я найду/напишу что-нибудь.

Кстати, если algorithm вас интересует семантика number числительных, я только что natural-language-processing нашел interesting paper Фридерики Мольтманн, в natural-language-processing которой обсуждаются некоторые natural-language-processing вопросы логической интерпретации parser числительных.

algorithm

language-agnostic

parsing

numbers

nlp

2022-10-29T05:00:28+00:00
Вопросы с похожей тематикой, как у вопроса:

Как читать значения из чисел, записанных словами?