看了 How to split JavaScript strings into sentences, words or graphemes with "Intl.Segmenter" 了解到,现在 Web 已经支持分词了:
const text = `我爱北京天安门,天安门上太阳升。伟大领袖毛主席,指引我们向前进。`
const granularities = ['sentence', 'word', 'grapheme']
granularities.forEach(function(granularity){
// console.log([granularity, index, self])
let segmenter = new Intl.Segmenter('zh', {granularity: granularity})
let seg = segmenter.segment(text)
// console.log(seg) // Segments{}
let result = Array.from(seg, s => s.segment)
console.log(result)
})
// ['我爱北京天安门,天安门上太阳升。', '伟大领袖毛主席,指引我们向前进。']
// ['我', '爱', '北京', '天安门', ',', '天安门', '上', '太阳', '升', '。', '伟大', '领袖', '毛主席', ',', '指引', '我们', '向', '前进', '。']
// ['我', '爱', '北', '京', '天', '安', '门', ',', '天', '安', '门', '上', '太', '阳', '升', '。', '伟', '大', '领', '袖', '毛', '主', '席', ',', '指', '引', '我', '们', '向', '前', '进', '。']