中英文对照低碳小笑话（急需呀！）好的加分

The more you learn, the more you know, The more you know, the more

you forget. The more you forget, the less you know. So why bother to

learn.

学的越多,知道的越多, 知道的越多,忘记的越多, 忘记的越多,知道的越少,为什么学来着？ The first day, a small rabbit to the river fishing, caught nothing, go home.

The third day, first came to the river in small rabbit, a big fish to jump out from the river, is directed at a small rabbit exclaimed:

He * If you are the箩卜Hu dares to use bait when I died on the flat you!

See **** first three places to find a rabbit. 第一天，小白兔去河边钓鱼，什么也没钓到，回家了。

第二天，小白兔又去河边钓鱼，还是什么也没钓到，回家了。

第三天，小白兔刚到河边，一条大鱼从河里跳出来，冲着小白兔大叫：

你他*的要是再敢用胡箩卜当鱼饵，我就扁死你！ TOM'S EXCUSE

Teacher: Tom, why are you late for school every day?

Tom: Every time I come to the corner, a sign says, "School-Go

Slow".

汤姆的借口

老师：汤姆，您为什么每天上学迟到？

汤姆：我每次路过拐角，一个路标上面写着："学校----慢行。" Two twins went to the kindergarten．“Who's the elder and who's the younger one？” asked a nurse．One of them winked and said，“Elder brother，don't tell her．”不要告诉她两个双胞胎走进幼儿园。“你们两个谁大谁小？”保育员问。其中的一个眨了眨眼睛说，“哥哥，不要告诉她。”

英汉讲笑话的异同分析

如果是在笑话里的，应该作为拟声词，用在吸什么东西的时候。

如果把笑话写上来，我会更加分析。

补充:

对的，既然在这里是一个拟声词，那就说明我上面的解释是对的。就是吸进一个东西

一、中英文分词方式不同

分词是中英文NLP差异最广为人知的一点。我们都知道英文的单词之间天然存在空格来分隔，因此在进行英文文本处理时，可以非常容易的通过空格来切分单词。例如英文句子：

DataGrand is a Chinese company

可轻松切分为DataGrand / is / a / Chinese / company （文本用/表示词汇分隔符）。

中文在每句话中间是不存在分隔符的，而是由一串连续的汉字顺序连接构成了句子。现代汉语里表达意思的基本语素是词而不是字。例如“自然”，拆为“自”和“然”都不能单独表意，两个字合并组成的词才能有准确的意义，对应英文单词是Nature。因此在我们使用计算机技术对中文进行自动语义分析时，通常首要操作就是中文分词（Chinese Word Segmentation）。中文分词是指按人理解汉语的方式，将连续的汉字串切分为能单独表义的词汇。例如中文句子：

“达观数据是一家中国公司。”

让计算机来处理，第一步需要切分为“达观数据/是/一家/中国/公司”这样的词串的形式，然后再进行后续的理解和处理。

如何正确的根据语义完成中文切分是一个挑战性的任务，一旦切词发生失误，会导致后续的文本处理产生连锁问题，给正确理解语义带来障碍。为了快速准确的切分好中文，学术界迄今有超过50年的研究，提出了很多方法。中文切词常见方法里既有经典的机械切分法（如正向/逆向最大匹配，双向最大匹配等），也有效果更好一些的统计切分方法（如隐马尔可夫HMM，条件随机场CRF），以及近年来兴起的采用深度神经网络的RNN，LSTM等方法。

由于汉语语法本身极为灵活，导致歧义语义时常发生，给正确完成中文分词带来了很多障碍。如例句“严守一把手机关了”所示，按照语义理解，正确切分方式为“严守一/把/手机/关了”，而算法有误时容易切分为“严守/一把/手机/关了”。

更困难的是，有些时候两种切词方法意思都对，例如“乒乓球拍卖了”，切分为“乒乓/球拍/卖了”和“乒乓球/拍卖/了”本身都可行，必须要依赖更多上下文来选择当前正确的切分方法。类似的还有“南京市长江大桥”、“吉林省长春药店”等等。如果把“市长”“省长”等切出来，整句话的理解就偏差很多了。常见歧义类型包括交叉歧义（Cross Ambiguity）和组合歧义（Combination Ambiguity）等，在语义消岐方面近年不断有国内外学者提出新的解决思路，来解决汉藏语系的这个特定问题。

此处顺便一提，和中文类似，日文句子内部同样缺乏天然的分隔符，因此日文也同样存在分词需求。日文受汉语语法的影响很深，但同时又受表音语法的影响，明治时代还曾兴起过废汉字兴拼音的运动，行文上汉字和假名混杂，好比中英文混血儿。业内比较知名的日文分词器有MeCab，其算法内核是条件随机场CRF。事实上，如果将MeCab的内部训练语料由日文更换为中文后，也同样可以用于切分中文。

随着深度学习技术近年来在NLP领域成功的应用，一些seq2seq学习过程可以不再使用分词，而是直接将字作为输入序列，让神经网络自动学习其中的特征，这在一些端到端的应用中（如自动摘要、机器翻译、文本分类等）确实省略了中文分词这一步骤，但是一方面还有很多的NLP应用离不开分词的结果，如关键词提取、命名实体识别、搜索引擎等；另一方面切分所得的词汇也可以和单字一起作为特征输入，用以增强效果。因此分词仍然是工程界进行中文处理时的一项重要技术。

二、英文语素和中文偏旁的使用

英文单词的提取虽然比中文简单的多，通过空格就能完整的获取单词，但英文特有的现象是单词存在丰富的变形变换。为了应对这些复杂的变换，英文NLP相比中文存在一些独特的处理步骤，我们称为词形还原（Lemmatization）和词干提取（Stemming）。

词形还原是因为英文单词有丰富的单复数、主被动、时态变换（共16种）等情况，在语义理解时需要将单词“恢复”到原始的形态从而让计算机更方便的进行后续处理。例如“does，done，doing，do，did”这些单词，需要通过词性还原统一恢复为“do”这个词，方便后续计算机进行语义分析。类似的：“potatoes，cities，children，teeth”这些名词，需要通过Lemmatization转为“potato，city，child，tooth”这些基本形态；同样“were，beginning，driven”等要转为“are，begin，drive”。

请注意词形还原通常还需要配合词性标注（pos-tag）一起来进行，以确保还原准确度，避免歧义发生。因为英文中存在一些多义词的情况，例如calves就是个多义词，即可以作为calf（名词，牛犊）的复数形式，也可以是calve（动词，生育小牛）的第三人称单数。所以词形还原也有两种选择，需要按实际所表示的词性来挑选合适的还原方法。