Как читать значения из чисел, записанных словами?
Это непростая задача, и я parse не знаю ни одной библиотеки natural-language-processing для этого. Когда-нибудь я natural-language-processing сяду и попытаюсь написать numbers что-то подобное. Я бы сделал text-analysis это либо на Прологе, либо parsing на Java, либо на Haskell. Насколько algorithms я вижу, есть несколько проблем:
- Токенизация: иногда числа пишутся одиннадцатьсот пятьдесят два, но я видел одиннадцатьсот пятьдесят два или одиннадцатьсот пятьдесят два и еще много чего. Нужно было бы провести опрос о том, какие формы фактически используются. Это может быть особенно сложно для иврита.
- Орфографические ошибки: это не так сложно. У вас ограниченное количество слов, и немного магии расстояния Левенштейна должно помочь.
- Альтернативные формы, как вы уже упоминали, существуют. Сюда входят порядковые/количественные числительные, а также сорок/сорок и...
- ... общие имена или часто используемые фразы и NE (именованные сущности). Вы хотите извлечь 30 из Тридцатилетней войны или 2 из Второй мировой войны?
- Римские цифры тоже?
- Разговорные выражения, такие как «тридцать с чем-то» и «три евро и шрапнель», к которым я не знаю, как относиться.
Если natural-language-processing вас это интересует, я могу number попробовать на этих выходных. Моя nlp идея, вероятно, заключается language-agnostic в использовании UIMA и токенизации language-agnostic с его помощью, а затем в algorithm-design дальнейшем токенизации/устранении algorithms неоднозначности и, наконец, переводе. Может natural-language-processing быть больше вопросов, давайте nlp посмотрим, смогу ли я придумать nlp что-нибудь еще интересное.
Извините, это number еще не настоящий ответ, а text-analysis просто дополнение к вашему parser вопросу. Я дам вам знать, если algorithms я найду/напишу что-нибудь.
Кстати, если algorithm вас интересует семантика number числительных, я только что natural-language-processing нашел interesting paper Фридерики Мольтманн, в natural-language-processing которой обсуждаются некоторые natural-language-processing вопросы логической интерпретации parser числительных.
algorithm
language-agnostic
parsing
numbers
nlp
Как читать значения из чисел, записанных словами?
Мы используем файлы cookies для улучшения работы сайта. Оставаясь на нашем сайте, вы соглашаетесь с условиями использования файлов cookies. Чтобы ознакомиться с нашими Положениями о конфиденциальности и об использовании файлов cookie, нажмите здесь.